HunyuanCustom – 腾讯混元开源的多模态定制视频生成框架 HunyuanCustom是什么 HunyuanCustom是腾讯混元团队推出的多模态驱动的定制化视频生成框架。HunyuanCustom支持图像、音频、视频和文本等多种输入条件,支持生成具有特定主体... Ai项目 1个月前1,7350
VoiceCanvas – 开源AI语音合成平台,支持多语言、多音色、声音克隆服务 VoiceCanvas是什么 VoiceCanvas 是开源的多语言语音合成平台。基于 AI 技术提供高质量的文字转语音服务,支持超过 50 种语言,集成 OpenAI TTS、AWS Polly 和... Ai项目 1个月前7100
DeerFlow – 字节跳动开源的深度研究框架 DeerFlow 是什么 DeerFlow 是字节跳动开源的深度研究框架,能帮助用户高效完成复杂的研究任务。DeerFlow结合语言模型与多种工具,如网络搜索、爬虫和 Python 执行,能快速生成全... Ai项目 1个月前5700
WebThinker – 人民大学联合智源研究院等机构推出的深度研究智能体 WebThinker是什么 WebThinker是中国人民大学、北京智源人工智能研究院和华为泊松实验室等机构提出的深度研究智能体。WebThinker赋能大型推理模型(LRMs)在推理过程中自主进行网... Ai项目 1个月前6900
Multiverse – Enigma Labs推出的全球首款AI生成多人游戏模型 Multiverse是什么 Multiverse是以色列团队Enigma Labs推出的全球首个AI生成多人游戏模型。是多人赛车游戏,玩家可以超车、漂移、加速,每一次行动会实时影响并重塑游戏世界。模型... Ai项目 1个月前5100
Open Code Reasoning – 英伟达开源的代码推理AI模型 Open Code Reasoning是什么 Open Code Reasoning(OCR)是英伟达开源的代码推理AI模型,基于Nemotron架构,专为提升代码推理和生成能力设计。OCR包含32B... Ai项目 1个月前8100
KuaiMod – 快手推出的自动化短视频质量判别框架 KuaiMod是什么 KuaiMod 是快手推出的基于多模态大模型的短视频质量判别框架,能高效识别和过滤有害及低质量内容。框架借鉴普通法(Common Law)体系,基于案例驱动的方式动态更新审核策略... Ai项目 1个月前8400
VITA-Audio – 开源的端到端多模态语音大模型,低延迟、推理快 VITA-Audio是什么 VITA-Audio 是开源的端到端多模态语音大模型,具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测(MCTP)模块,可在首次前向传播中生成音频输出,将生成首... Ai项目 1个月前7450
Parakeet TDT 0.6B – 英伟达开源的自动语音识别模型 Parakeet TDT 0.6B是什么 Parakeet TDT 0.6B 是英伟达推出的开源自动语音识别(ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其... Ai项目 1个月前6500
TesserAct – AI 4D具身世界模型,能预测3D场景的动态演变 TesserAct是什么 TesserAct 是创新的 4D 具身世界模型,能预测 3D 场景随时间的动态演变,响应具身代理的动作。通过训练 RGB-DN(RGB、深度和法线)视频数据来学习,超越了传... Ai项目 2个月前9550