One Shot, One Talk – 中科大联合香港理工推出的动态图像生成技术 One Shot, One Talk是什么 One Shot, One Talk是先进的图像生成技术,能从单张图片中生成具有个性化细节的全身动态说话头像,支持逼真的动画效果,包括自然的表情变化和生动的... Ai项目 2周前5,2650
xAR – 字节联合霍普金斯大学推出的自回归视觉生成框架 xAR是什么 xAR 是字节跳动和约翰·霍普金斯大学联合提出的新型自回归视觉生成框架。框架通过“下一个X预测”(Next-X Prediction)和“噪声上下文学习”(Noisy Context L... Ai项目 12个月前05,2650
Agent Development Kit – 谷歌开源的 AI Agent 开发与部署框架 Agent Development Kit是什么 Agent Development Kit(ADK)是谷歌开源的首个AI智能体开发工具包,是一个代码优先的Python工具包,简化复杂AI代理的构建... Ai项目 12个月前05,2650
MinT – 生成顺序事件的文本转视频模型,灵活控制时间戳 MinT是什么 MinT(Mind the Time)是Snap Research、多伦多大学和向量研究所联合推出的多事件视频生成框架,基于精确的时间控制,根据文本提示生成包含多个事件的视频序列。Mi... Ai项目 2周前5,2600
X-Prompt – 用于多模态视频目标分割的通用框架 X-Prompt是什么 X-Prompt是用于多模态视频目标分割的通用框架,解决传统方法在极端光照、快速运动和背景干扰等复杂场景下的局限性。通过预训练一个基于 RGB 数据的视频目标分割基础模型,使用... Ai项目 12个月前5,2600
Pixel Reasoner – 滑铁卢联合港科大等高校推出的视觉语言模型 Pixel Reasoner是什么 Pixel Reasoner是滑铁卢大学、香港科技大学、中国科学技术大学等机构推出的视觉语言模型(VLM),基于像素空间推理增强模型对视觉信息的理解和推理能力。模型... Ai项目 2周前5,2550
Optimus-1 – 哈工大联合鹏城实验室推出的智能体框架 Optimus-1是什么 Optimus-1是哈尔滨工业大学(深圳)和鹏城实验室推出的智能体框架,能解决在开放世界环境中完成长期任务的挑战。框架结合结构化知识和多模态经验,让智能体更好地执行复杂任务... Ai项目 2周前5,2550
HUGWBC – 上海交大联合上海 AI Lab 推出的人形机器人全身控制器 HUGWBC是什么 HUGWBC(Humanoid Unified and General Whole-Body Controller)是上海交通大学、上海AI Lab联合推出的人形机器人全身控制器... Ai项目 12个月前05,2550
Llasa TTS – 香港科技大学开源的文本转语音模型 Llasa TTS是什么 Llasa TTS 是香港科技大学基于 LLaMA 架构推出的开源文本转语音(TTS)模型,支持高质量语音合成和克隆。Llasa TTS 基于单层向量量化(VQ)编解码器和单... Ai项目 12个月前05,2550
Step1X-Edit – 阶跃星辰开源的通用图像编辑框架 Step1X-Edit是什么 Step1X-Edit 是阶跃星辰团队推出的通用图像编辑框架,能缩小开源图像编辑模型与闭源模型(如 GPT-4o 和 Gemini2 Flash)之间的性能差距。Step... Ai项目 2周前5,2500