NotaGen – 中央音乐学院联合北航、清华等推出的音乐生成模型 NotaGen是什么 NotaGen 是中央音乐学院、北京航空航天大学、清华大学等机构推出的音乐生成模型,基于模仿大型语言模型(LLM)的训练范式生成高质量的古典乐谱。NotaGen 基于预训练、微调... Ai项目 12个月前05,5300
DCEdit – 北交大联合美图推出的双层控制图像编辑方法 DCEdit是什么 DCEdit 是新型的双层控制图像编辑方法,是北京交通大学和美图2MT实验室联合推出的。DCEdit基于精确语义定位策略(PSL),用视觉和文本自注意力优化交叉注意力图,提供更精准... Ai项目 12个月前05,5300
DICE-Talk – 复旦联合腾讯优图推出的情感化动态肖像生成框架 DICE-Talk是什么 DICE-Talk是复旦大学联合腾讯优图实验室推出的新颖情感化动态肖像生成框架,支持生成具有生动情感表达且保持身份一致性的动态肖像视频。DICE-Talk引入情感关联增强模块... Ai项目 2周前5,5250
Voice-Pro – 开源AI音频处理工具,集成转录、翻译、TTS等一站式服务 Voice-Pro是什么 Voice-Pro是开源的多功能音频处理工具,集成语音转文字(STT)、文本转语音(TTS)、实时翻译、YouTube视频下载和人声分离等多种功能。工具支持超过100种语言... Ai项目 2周前5,5250
VideoMaker – 浙大联合腾讯和华为推出的零样本定制视频生成框架 VideoMaker是什么 VideoMaker是浙江大学、腾讯和华为诺亚方舟实验室共同开发的创新项目,基于视频扩散模型(VDM)的零样本定制视频生成框架。与传统方法不同,VideoMaker无需额外... Ai项目 2周前5,5250
Parakeet TDT 0.6B – 英伟达开源的自动语音识别模型 Parakeet TDT 0.6B是什么 Parakeet TDT 0.6B 是英伟达推出的开源自动语音识别(ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其... Ai项目 2周前5,5200
HumanDiT – 浙大联合字节推出的姿态引导人体视频生成框架 HumanDiT是什么 HumanDiT 是浙江大学和字节跳动联合提出的姿态引导的高保真人体视频生成框架。基于扩散变换器(Diffusion Transformer,DiT),能在大规模数据集上训练... Ai项目 12个月前05,5200
IMAGPose – 南京理工大学推出姿态引导图像生成的统一框架 IMAGPose是什么 IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架。解决传统方法在姿态引导的人物图像生成中存在的局限性,如无法同时生成多个不同姿态的目标图像、从多视角... Ai项目 12个月前05,5200
MeshPad – 草图驱动的AI 3D网格生成与编辑工具 MeshPad是什么 MeshPad 是基于草图输入的交互式艺术化网格生成与编辑工具,能将简单的二维草图迅速转化为高质量的 3D 网格模型,支持实时编辑。用户在草图上添加或删除线条,可对 3D 网格进... Ai项目 12个月前05,5200
ReasonGraph – 开源可视化与分析LLMs推理过程的AI工具 ReasonGraph是什么 ReasonGraph 是用在可视化和分析大语言模型(LLMs)推理过程的开源网络平台。ReasonGraph支持超过 50 种主流模型(如 Anthropic、Open... Ai项目 12个月前05,5200