Nova Sonic – 亚马逊推出的新型生成式 AI 语音模型 Nova Sonic是什么 Nova Sonic 是亚马逊推出的新型生成式 AI 语音模型。将语音理解与生成能力整合到一个模型中,能根据说话者的语调、风格等声学上下文调整生成的语音响应,对话更自然。N... Ai项目 5个月前02,5500
Lipsync-2 – Sync Labs 推出的首个零-shot 嘴型同步模型 Lipsync-2是什么 Lipsync-2 是 Sync Labs 推出的全球首个零-shot 嘴型同步模型。无需针对特定演讲者进行预训练,能即时学习并生成符合独特说话风格的嘴型同步效果。模型在真实... Ai项目 5个月前02,5500
Mind GPT-3o – 理想汽车推出的多模态端到端大模型 Mind GPT-3o是什么 Mind GPT-3o是理想汽车推出的多模态端到端大模型,融合语音、视觉和语言理解技术,实现高效实时交互。Mind GPT-3o具备记忆、规划、工具使用和表达能力,能提升... Ai项目 5个月前2,5450
VideoLLaMA3 – 阿里达摩院推出的多模态基础模型 VideoLLaMA3是什么 VideoLLaMA3 是阿里巴巴开源的前沿多模态基础模型,专注于图像和视频理解。基于 Qwen 2.5 架构,结合了先进的视觉编码器(如 SigLip)和强大的语言生成... Ai项目 5个月前2,5450
Scribe – ElevenLabs 推出的高精度语音转文本模型 Scribe是什么 Scribe 是 ElevenLabs 推出的高精度语音转文本模型,专为多语言和复杂音频环境设计。支持99种语言,英语和意大利语的转录准确率分别达到96.7%和98.7%,在小语种... Ai项目 5个月前02,5450
GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器 GigaTok是什么 GigaTok 是用于自回归图像生成的视觉分词器,参数量达 30 亿。通过语义正则化技术,将分词器特征与预训练视觉编码器(如 DINOv2)的语义特征对齐,有效约束潜在空间复杂度... Ai项目 5个月前02,5450
NobodyWho – AI游戏引擎插件,本地运行 LLM 实现互动小说创作 NobodyWho是什么 NobodyWho是为 Godot 游戏引擎设计的插件,通过本地运行的大型语言模型(LLM)实现互动小说创作。支持 Windows、Linux 和 macOS 平台,用户无需... Ai项目 5个月前02,5400
MakeAnything – 新加坡国立大学开源的一致性图片序列生成框架 MakeAnything是什么 MakeAnything 是新加坡国立大学 Show Lab团队推出的基于扩散变换器(Diffusion Transformer)的多领域程序性序列生成框架,基于文本描... Ai项目 5个月前02,5400
Evolving Agents – 开源的AI Agent管理与进化框架 Evolving Agents是什么 Evolving Agents 是用在创建、管理和进化 AI 代理的生产级框架。Evolving Agents支持智能代理之间的通信和协作,根据语义理解需求、基于... Ai项目 5个月前02,5400
Step-R1-V-Mini – 阶跃星辰最新推出的多模态推理模型 Step-R1-V-Mini是什么 Step-R1-V-Mini 是阶跃星辰最新推出的多模态推理模型。支持图文输入和文字输出,具备良好的指令遵循和通用能力,能高精度感知图像完成复杂推理任务。模型在视觉... Ai项目 5个月前02,5400