Muyan-TTS – 开源文本转语音模型,零样本语音合成 Muyan-TTS是什么 Muyan-TTS 是为播客场景设计的开源文本转语音(TTS)模型。模型预训练超过10万小时的播客音频数据,能实现零样本语音合成,无需大量目标说话人的语音数据可生成高质量语音... Ai项目 4周前4,6350
Speech-02 – MiniMax 推出的新一代文本转语音模型 Speech-02是什么 Speech-02 是 MiniMax 推出的新一代文本到语音(TTS)模型。模型基于回归 Transformer 架构,实现零样本语音克隆,仅需几秒参考语音能生成高度相似的... Ai项目 4周前4,6350
FLUX-Text – 阿里推出的多语言场景文本编辑框架 FLUX-Text是什么 FLUX-Text 是阿里推出的新型的多语言场景文本编辑框架,基于扩散模型(Diffusion Model)和轻量级字形嵌入模块。框架基于注入字形条件信息,提升复杂场景下文本... Ai项目 4周前4,6300
Spatial-RAG – 埃默里大学等机构推出的空间推理能力框架 Spatial-RAG是什么 Spatial-RAG(Spatial Retrieval-Augmented Generation)是美国埃默里大学、德克萨斯大学奥斯汀分校推出的用在提升大型语言模型... Ai项目 4周前4,6300
LTX Video – Lightricks推出的开源AI视频生成模型 LTX Video是什么 LTX Video是Lightricks推出的开源AI视频生成模型,能在4秒内生成5秒的高质量视频,速度超过观看速度。基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性... Ai项目 4周前4,6300
PlanGEN – 谷歌研究团队推出的多智能体框架 PlanGEN是什么 PlanGEN 是谷歌研究团队推出的多智能体框架,通过多智能体协作、约束引导和算法自适应选择,解决复杂问题的规划和推理。包含三个关键组件:约束智能体、验证智能体和选择智能体。智能... Ai项目 1年前04,6300
InstructMove – 东京大学联合 Adobe 推出基于指令的图像编辑模型 InstructMove是什么 InstructMove是东京大学和Adobe公司联合推出的基于指令的图像编辑模型,通过观察视频中的帧对变化学习如何根据指令进行图像操作。模型基于多模态大型语言模型(M... Ai项目 4周前4,6250
协和·太初 – 北京协和与中科院共同推出的罕见病领域AI大模型 协和·太初是什么 协和·太初是北京协和医院与中国科学院自动化研究所共同研发的国内首个罕见病领域AI大模型,正式进入临床应用。模型基于我国罕见病知识库的多年积累和中国人群基因检测数据,是国际首个符合中国... Ai项目 1年前04,6250
Fireworks f1 – 复合AI模型,多个开源AI模型组合解决复杂推理问题 Fireworks f1是什么 Fireworks f1是Fireworks公司推出的复合AI模型,针对复杂推理任务设计。基于在推理层融合多个开放模型,实现超越单一模型的性能和可靠性。Firework... Ai项目 4周前4,6200
书生InternThinker – 上海 AI Lab 推出的强推理模型 书生InternThinker是什么 书生InternThinker是上海人工智能实验室推出的强推理模型,具备自主生成高智力密度数据和元动作思考能力。基于长思维能力和自我反思、纠正机制,在数学、代码... Ai项目 4周前4,6200