SkyReels-A1 – 昆仑万维开源的表情动作可控算法 SkyReels-A1是什么 SkyReels-A1是昆仑万维开源的中国首个SOTA(State-of-the-Art)级别的基于视频基座模型的表情动作可控算法。SkyReels-A1能实现更精准可控... Ai项目 12个月前05,0650
MME-CoT – 港中文等机构推出评估视觉推理能力的基准框架 MME-CoT 是什么 MME-CoT 是香港中文大学(深圳)、香港中文大学、字节跳动、南京大学、上海人工智能实验室、宾夕法尼亚大学、清华大学等机构共同推出的用于评估大型多模态模型(LMMs)链式思维... Ai项目 12个月前05,0650
DynamicControl – 腾讯优图联合南洋理工等机构推出的动态条件控制图像生成新框架 DynamicControl是什么 DynamicControl是腾讯优图联合南洋理工、浙大等研究机构推出的集成多模态大语言模型(MLLM)推理能力的文本生成图像(T2I)任务新框架。DynamicC... Ai项目 3周前5,0600
Skywork-R1V 2.0 – 昆仑万维开源的新版多模态推理模型 Skywork-R1V 2.0是什么 Skywork-R1V 2.0 是昆仑万维最新开源的多模态推理模型,专为复杂推理任务设计,具备强大的视觉与文本推理能力。模型基于混合强化学习和多模态奖励模型(Sk... Ai项目 3周前5,0600
AnyCharV – 港中文联合清华等机构推出的角色可控视频生成框架 AnyCharV是什么 AnyCharV是香港中文大学、清华大学深圳国际研究生院、香港大学联合推出的角色可控视频生成框架,能将任意参考角色图像与目标驱动视频相结合,生成高质量的角色视频。AnyChar... Ai项目 12个月前05,0600
Bolt3D – 牛津大学联合谷歌推出的 3D 场景生成技术 Bolt3D是什么 Bolt3D 是谷歌研究院、牛津大学 VGG 团队和谷歌 DeepMind 联合推出的新型 3D 场景生成技术,是潜在扩散模型,能在单个 GPU 上,仅需不到七秒的时间,直接从一张... Ai项目 12个月前05,0600
GLM-Edge – 智谱开源的端侧大语言和多模态系列模型 GLM-Edge是什么 GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型,包含GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V... Ai项目 3周前5,0550
StyleStudio – 文本驱动的风格迁移模型,能将参考图像的风格与文本提示内容融合 StyleStudio是什么 StyleStudio是西湖大学AI实验室、复旦大学、南洋理工大学和香港科技大学(广州)联合推出的,文本驱动的风格迁移模型,能将参考图像的风格与文本提示的内容融合。Sty... Ai项目 3周前5,0550
DreamOmni – 港中文、字节等机构共同推出的统一图像生成和编辑模型 DreamOmni是什么 DreamOmni 是香港中文大学、字节跳动和香港科技大学共同推出的统一图像生成和编辑模型。模型整合文本到图像(T2I)生成和多种编辑任务,包括指令式编辑、修复、拖拽编辑和参... Ai项目 3周前5,0550
BizGen – 清华大学联合微软推出的AI信息图生成工具 BizGen是什么 BizGen是清华大学和微软研究院联合推出的AI信息图生成工具,专注于文章级别的视觉文本渲染。能一键将长篇文章内容转化为专业级的信息图和幻灯片,解决传统工具在处理长文本时文字模糊... Ai项目 12个月前05,0550