EvolveDirector – 阿里联合南洋理工推出文本到图像生成模型的高效训练技术 EvolveDirector是什么 EvolveDirector是阿里巴巴和南洋理工大学联合推出的创新框架,用公开资源和高级模型的API接口训练一个高性能的文本到图像生成模型。框架基于与现有高级模型的... Ai项目 4周前4,8650
SANA 1.5 – 英伟联合MIT、清北等机构推出的文生图新框架 SANA 1.5是什么 SANA 1.5是英伟达联合MIT、清华、北大等机构推出的新型高效的线性扩散变换器(Linear Diffusion Transformer),用于文本到图像生成任务。在 SA... Ai项目 12个月前4,8650
CineMaster – 快手推出的文本到视频生成框架,具备3D感知能力 CineMaster是什么 CineMaster是快手推出的具备3D感知能力的文本到视频生成框架。类似于视频版的ControlNet,支持用户通过多种控制信号精确操控视频中物体的位置和相机运动。可以使... Ai项目 12个月前04,8650
Light-A-Video – 上海AI Lab联合交大等高校推出的视频重照明方法 Light-A-Video是什么 Light-A-Video 是上海交通大学、中国科学技术大学、香港中文大学、香港科技大学、斯坦福大学及上海AI实验室的共同推出的无需训练的视频重照明方法,基于渐进式光... Ai项目 12个月前04,8650
Versatile-OCR-Program – 开源多模态OCR工具,精准提取复杂结构化数据 Versatile-OCR-Program是什么 Versatile-OCR-Program是开源多模态OCR工具,支持从复杂的教育材料中提取结构化数据,生成适合机器学习训练的高质量数据集。Versa... Ai项目 12个月前04,8650
MAGI-1 – Sand AI 开源的首个自回归视频生成模型 MAGI-1是什么 MAGI-1 是 Sand AI 开源的全球首个自回归视频生成大模型,采用自回归架构,通过逐块预测视频序列生成流畅自然的视频,支持无限扩展和一镜到底的长视频生成。模型原生分辨率可达... Ai项目 12个月前04,8650
NoteLLM – 小红书推出的笔记推荐多模态大模型框架 NoteLLM是什么 NoteLLM 是小红书推出的针对笔记推荐的多模态大型语言模型框架。NoteLLM 基于生成笔记的压缩嵌入和自动生成标签类别,用大型语言模型(LLM)的强大语义理解能力,结合对比... Ai项目 4周前4,8600
Collaborative Gym – 支持人与AI代理实时交互协作的评估框架 Collaborative Gym是什么 Collaborative Gym(Co-Gym)是专注于人机协作(Human-Agent Collaboration)的框架,支持人类与AI代理之间的实时交... Ai项目 12个月前04,8600
Finedefics – 北大团队推出的细粒度多模态大模型 Finedefics是什么 Finedefics 是北京大学彭宇新教授团队推出的细粒度多模态大模型,提升多模态大语言模型(MLLMs)在细粒度视觉识别(FGVR)任务中的表现。模型通过引入对象的细粒度... Ai项目 12个月前04,8600
Dolphin – 清华联合海天瑞声推出的语音识别大模型 Dolphin是什么 Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。支持40个东方语种的语音识别,中文语种涵盖22种方言(含普通话),能精准识别... Ai项目 12个月前04,8600