Qwen2.5-VL-32B – 阿里开源的最新多模态模型 Qwen2.5-VL-32B是什么 Qwen2.5-VL-32B是阿里巴巴开源的多模态模型,参数规模为32B。模型在Qwen2.5-VL系列的基础上,基于强化学习优化,具备更符合人类偏好的回答风格、显... Ai项目 12个月前05,0900
EmotiVoice – 网易有道开源的AI语音合成系统 EmotiVoice是什么 EmotiVoice是网易有道开源的多语言、多声音和提示控制的文本到语音(TTS)系统。EmotiVoice支持英语和中文,提供超过2000种声音,支持基于提示生成带有不同... Ai项目 12个月前05,0900
Text to Bark – ElevenLabs 推出的 AI“狗语”文本转语音模型 Text to Bark是什么 Text to Bark 是 ElevenLabs 推出的全球首个AI“狗语”文本转语音模型。用户输入文字选择犬种,模型能生成高度逼真的狗吠声,95%的狗无法分辨其与真... Ai项目 12个月前05,0900
HumanRig – 阿里高德推出的3D人形角色自动绑定任务数据集 HumanRig是什么 HumanRig 是阿里巴巴团队开发的 3D 人形角色自动绑定研究项目。解决现有绑定技术因缺乏高质量数据集而发展受限的问题,通过提供大规模、高质量的数据集和创新的自动绑定框架... Ai项目 12个月前05,0900
UniToken – 复旦联合美团等机构推出的统一视觉编码框架 UniToken是什么 UniToken 是新型的自回归生成模型,专为多模态理解与生成任务设计。通过结合离散和连续的视觉表示,构建了一种统一的视觉编码框架,能同时捕捉图像的高级语义和低级细节。使 Un... Ai项目 3周前5,0850
ClotheDreamer – 上海大学联合腾讯等高校推出的3D服装生成技术 ClotheDreamer是什么 ClotheDreamer是上海大学、上海交通大学、复旦大学和腾讯优图实验室共同推出的3D服装生成技术,能根据文本描述生成高保真、可穿戴的3D服装资产。ClotheD... Ai项目 3周前5,0850
ImBD – 复旦联合华南理工等机构推出的通用 AI 内容检测器 ImBD是什么 ImBD(Imitate Before Detect)是复旦大学、华南理工大学、武汉大学、Fenzi AI等推出的用在检测机器修订文本的方法。首先模仿大型语言模型(LLMs)生成文本的... Ai项目 3周前5,0850
VideoCaptioner – AI视频字幕处理工具,支持字幕样式调整和多格式导出 VideoCaptioner是什么 VideoCaptioner(中文名:卡卡字幕助手)是基于大语言模型(LLM)的智能字幕处理工具,能简化视频字幕的生成与优化流程。VideoCaptioner支持语... Ai项目 12个月前05,0850
X-Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架 X-Dancer是什么 X-Dancer 是字节跳动联合加州大学圣地亚哥分校和南加州大学的研究人员共同推出的音乐驱动的人像舞蹈视频生成框架,支持从单张静态图像生成多样化且逼真的全身舞蹈视频。X-Dan... Ai项目 12个月前05,0850
OmniAudio-2.6B – Nexa AI推出的端侧多模态音频语言模型 OmniAudio-2.6B是什么 OmniAudio-2.6B是Nexa AI推出的音频语言模型,专为边缘部署设计,能实现快速且高效的音频文本处理。OmniAudio-2.6B是具有2.6亿参数的多... Ai项目 3周前5,0800