SeedFoley – 字节推出的端到端视频音效生成模型 SeedFoley是什么 SeedFoley 是字节跳动豆包大模型语音团队开发的端到端视频音效生成模型,为视频创作提供智能音效生成服务。通过融合时空视频特征与扩散生成模型,实现音效与视频的高度同步。模... Ai项目 12个月前04,9950
R1-Omni – 阿里通义开源的全模态大语言模型 R1-Omni是什么 R1-Omni 是阿里通义推出的基于强化学习(RLVR)的全模态大语言模型,专注于情感识别任务。通过结合视觉和音频信息,能清晰地解释情感识别的推理过程,展现出强大的情感理解能力... Ai项目 12个月前04,9850
DeepSeek百宝箱 – DeepSeek API在多种软件中的集成应用 DeepSeek百宝箱是什么 DeepSeek百宝箱是 DeepSeek官方 维护的 GitHub 项目,展示如何将 DeepSeek API 集成到各种流行软件中。项目列出了一系列支持 DeepSe... Ai项目 12个月前05,7600
Anus – Manus 生成的开源 AI 智能体项目,复刻 Manus 部分功能 Anus是什么 Anus(Autonomous Networked Utility System)是 Manus 生成的开源自主智能体项目,复刻 Manus 的部分功能。Anus支持自然语言指令执行... Ai项目 12个月前05,2600
MeshPad – 草图驱动的AI 3D网格生成与编辑工具 MeshPad是什么 MeshPad 是基于草图输入的交互式艺术化网格生成与编辑工具,能将简单的二维草图迅速转化为高质量的 3D 网格模型,支持实时编辑。用户在草图上添加或删除线条,可对 3D 网格进... Ai项目 12个月前05,5800
PlanGEN – 谷歌研究团队推出的多智能体框架 PlanGEN是什么 PlanGEN 是谷歌研究团队推出的多智能体框架,通过多智能体协作、约束引导和算法自适应选择,解决复杂问题的规划和推理。包含三个关键组件:约束智能体、验证智能体和选择智能体。智能... Ai项目 12个月前04,6300
MV-MATH – 中科院推出的基准数据集,评估模型处理多视觉信息的数学推理能力 MV-MATH是什么 MV-MATH 是中科院自动化所提出的新基准数据集,评估多模态大语言模型(MLLMs)在多视觉场景中的数学推理能力。数据集包含2009个高质量的数学问题,每个问题都结合了多个图像... Ai项目 12个月前07,0500
MHA2MLA – 复旦、上海AI Lab等推出优化LLM推理效率的方法 MHA2MLA是什么 MHA2MLA是复旦大学、华东师范大学、上海AI Lab等机构联合推出的数据高效的微调方法,基于引入DeepSeek的多头潜在注意力机制(MLA),优化任何基于Transform... Ai项目 12个月前04,8200
GaussianAnything – 南洋理工 S-Lab 和上海 AI Lab 等推出的 3D 生成框架 GaussianAnything是什么 GaussianAnything 是南洋理工大学 S-Lab 联合上海 AI Lab 等机构推出的 3D 生成框架。GaussianAnything 基于交互式... Ai项目 12个月前05,1150
VACE – 阿里通义推出的视频生成与编辑框架 VACE是什么 VACE(Video Creation and Editing)是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视频任务(如参考视频生成、视频到视频编辑、遮罩编辑等)到... Ai项目 12个月前05,2450