SeedFoley – 字节推出的端到端视频音效生成模型

SeedFoley是什么 SeedFoley 是字节跳动豆包大模型语音团队开发的端到端视频音效生成模型,为视频创作提供智能音效生成服务。通过融合时空视频特征与扩散生成模型,实现音效与视频的高度同步。模...
12个月前
04,9950

R1-Omni – 阿里通义开源的全模态大语言模型

R1-Omni是什么 R1-Omni 是阿里通义推出的基于强化学习(RLVR)的全模态大语言模型,专注于情感识别任务。通过结合视觉和音频信息,能清晰地解释情感识别的推理过程,展现出强大的情感理解能力...
12个月前
04,9850

MeshPad – 草图驱动的AI 3D网格生成与编辑工具

MeshPad是什么 MeshPad 是基于草图输入的交互式艺术化网格生成与编辑工具,能将简单的二维草图迅速转化为高质量的 3D 网格模型,支持实时编辑。用户在草图上添加或删除线条,可对 3D 网格进...
12个月前
05,5800

PlanGEN – 谷歌研究团队推出的多智能体框架

PlanGEN是什么 PlanGEN 是谷歌研究团队推出的多智能体框架,通过多智能体协作、约束引导和算法自适应选择,解决复杂问题的规划和推理。包含三个关键组件:约束智能体、验证智能体和选择智能体。智能...
12个月前
04,6300