Motion Dreamer – 香港科技大学推出的运动合理视频生成框架 Motion Dreamer是什么 Motion Dreamer是香港科技大学(广州)研究者提出的视频生成框架,生成运动合理视频。基于两阶段生成方式,先基于输入图像和运动条件生成中间运动表示,再利用该... Ai项目 2周前5,4600
Step-1o Vision – 阶跃星辰推出的原生端到端视觉理解模型 Step-1o Vision是什么 Step-1o Vision 是阶跃星辰最新研发的原生端到端多模态生成与理解一体化模型中的视觉版本。专注于视觉任务,具备强大的图像识别、感知、推理和指令跟随能力,能... Ai项目 2周前5,4600
Talker-Reasoner – 谷歌DeepMind推出的双思维AI代理架构 Talker-Reasoner是什么 Talker-Reasoner是谷歌DeepMind推出的双思维AI代理架构,借鉴人类的认知理论,将代理分为两个模块:Talker和Reasoner。Talker... Ai项目 2周前5,4500
3D-Speaker – 阿里通义推出的多模态说话人识别任务开源项目 3D-Speaker是什么 3D-Speaker是阿里巴巴通义实验室语音团队推出的多模态开源项目,基于结合声学、语义、视觉信息,实现高精度的说话人识别和语种识别。3D-Speaker提供工业级模型、训... Ai项目 2周前5,4500
Whisper Input – 开源AI语音输入工具,支持多语言实时转录和翻译 Whisper Input是什么 Whisper Input 是开源的语音输入工具,基于 Python 和 OpenAI 的 Whisper 模型开发。通过简单的快捷键操作(如按下 Option 键开... Ai项目 2周前5,4500
TeleAI-t1-preview – 中国电信推出的复杂推理大模型 TeleAI-t1-preview是什么 TeleAI-t1-preview是中国电信人工智能研究院发布的“复杂推理大模型”,具备强大的逻辑推理与数学推导能力。通过强化学习训练方法,引入探索、反思等思... Ai项目 2周前5,4500
Agentic Object Detection – 吴恩达团队推出的Agent目标检测技术 Agentic Object Detection是什么 Agentic Object Detection 是吴恩达团队开发的新型目标检测技术,通过智能代理(Agent)系统实现无需标注数据的目标检测... Ai项目 12个月前05,4500
谛韵DiffRhythm – 西北工业联合港中文推出的端到端音乐生成工具 DiffRhythm是什么 DiffRhythm(中文名称:谛韵) 是西北工业大学与香港中文大学(深圳)联合开发的端到端音乐生成工具,基于潜扩散模型(Latent Diffusion)技术,能快速生成... Ai项目 12个月前05,4450
360Zhinao2-7B – 360 推出自研360智脑大模型的升级版 360Zhinao2-7B是什么 360Zhinao2-7B是360自研的AI大模型360智脑7B参数升级版,涵盖基础模型及多种上下文长度的聊天模型。360Zhinao2-7B模型是继360Zhina... Ai项目 2周前5,4400
MetaMorph – 统一多模态理解与生成大模型,基于VPiT 预测多模态 token MetaMorph是什么 MetaMorph是多模态大模型(MLLM),通过指令微调(Instruction Tuning)实现视觉理解和生成。它提出了一种名为Visual-Predictive In... Ai项目 2周前5,4400