PersonaCraft – 首尔国立大学推出的单参考图像生成多身份全身图像技术 PersonaCraft是什么 PersonaCraft是韩国首尔国立大学推出的个性化全身图像合成技术,结合扩散模型和3D人类建模,能从单一参考图像生成多个人物的逼真、个性化全身图像。PersonaC... Ai项目 3周前4,9500
VideoJAM – Meta 推出增强视频生成模型运动连贯性的框架 VideoJAM是什么 VideoJAM是Meta推出的,用在增强视频生成模型运动连贯性的框架。基于引入联合外观-运动表示,让模型在训练阶段同时学习预测视频的像素和运动信息,在推理阶段基于模型自身的运... Ai项目 12个月前4,9500
Step-Audio-TTS-3B – 高性能 TTS 模型,能生成特定情感和说唱风格的语音 Step-Audio-TTS-3B是什么 Step-Audio-TTS-3B 是 Stepfun-AI 团队推出的高性能文本到语音(TTS)模型,具有强大的语音合成能力。基于海量合成数据训练,参数量达... Ai项目 12个月前04,9500
kimi-thinking-preview – 月之暗面推出的多模态思考模型 kimi-thinking-preview是什么 kimi-thinking-preview 是月之暗面推出的多模态思考模型,具备深度推理能力,擅长解决复杂问题,如代码、数学和工作难题。模型基于 re... Ai项目 3周前4,9450
Absolute Zero – 清华大学等机构推出的语言模型推理训练方法 Absolute Zero是什么 Absolute Zero是清华大学 LeapLab 团队联合北京通用人工智能研究院 NLCo 实验室和宾夕法尼亚州立大学推出的全新语言模型推理训练方法。Absolu... Ai项目 3周前4,9450
EMOVA – 华为诺亚方舟联合多所高校共同推出的多模态全能处理模型 EMOVA是什么 EMOVA(EMotionally Omni-present Voice Assistant)是多模态全能模型,是香港科技大学、香港大学和华为诺亚方舟实验室等机构共同推出的。EMOV... Ai项目 3周前4,9450
FLOAT – 基于流匹配的音频驱动说话人头像生成模型 FLOAT是什么 FLOAT是DeepBrain AI 和韩国先进科技研究院推出的音频驱动说话人头像生成模型,基于流匹配生成模型,学习运动潜在空间实现高效的时间一致性运动设计。模型基于Transfor... Ai项目 3周前4,9450
R1-Omni – 阿里通义开源的全模态大语言模型 R1-Omni是什么 R1-Omni 是阿里通义推出的基于强化学习(RLVR)的全模态大语言模型,专注于情感识别任务。通过结合视觉和音频信息,能清晰地解释情感识别的推理过程,展现出强大的情感理解能力... Ai项目 12个月前04,9450
文心大模型4.5 – 百度推出的首个原生多模态大模型 文心大模型4.5是什么 文心大模型4.5是百度正式发布的最新一代首个原生多模态大模型,在多模态理解、文本和逻辑推理等方面有显著提升,多项测试表现优于GPT4.5。模型已上线百度智能云千帆大模型平台,企... Ai项目 12个月前04,9450
Ev-DeblurVSR – 中科大等机构推出的视频画面增强模型 Ev-DeblurVSR是什么 Ev-DeblurVSR是中国科学技术大学、合肥综合性国家科学中心人工智能研究所和新加坡国立大学联合推出的视频画面增强模型,能从低分辨率且模糊的视频输入中恢复出高分辨率... Ai项目 3周前4,9400