XMusic – 腾讯多媒体实验室自主研发的AI通用作曲框架 XMusic是什么 XMusic是腾讯多媒体实验室自主研发的AI通用作曲框架。用户只需上传视频、图片、文字、标签、哼唱等任意内容,XMusic能生成情绪、曲风、节奏可控的高质量音乐。基于自研的多模态和... Ai项目 5个月前2,4550
LLaVA-Rad – 微软推出的小型多模态模型,专注于临床放射学报告生成 LLaVA-Rad是什么 LLaVA-Rad是微软研究院推出的小型多模态模型,专注于临床放射学报告生成。是LLaVA-Med项目的分支,特别是胸部X光(CXR)成像。基于LLaVA-Med的基础架构和... Ai项目 5个月前02,4550
Aya Vision – Cohere 推出多模态、多语言的视觉模型 Aya Vision是什么 Aya Vision 是 Cohere 推出的多模态、多语言的视觉模型,提升全球范围内的多语言和多模态通信能力。支持 23 种语言,能执行图像描述生成、视觉问答、文本翻译和... Ai项目 5个月前02,4550
AudioX – 港科大联合月之暗面推出的扩散变换器模型,任意内容生成音频 AudioX是什么 AudioX 是香港科技大学和月之暗面联合提出的统一扩散变压器模型,专门用于从任意内容生成音频和音乐。模型能处理多种输入模态,包括文本、视频、图像、音乐和音频,生成高质量的音频输出... Ai项目 5个月前02,4550
ACTalker – 港科大联合腾讯、清华推出的端到端视频扩散框架 ACTalker是什么 ACTalker 是用于生成逼真说话人头部视频的端到端视频扩散框架。支持单信号或多信号控制,如音频、表情等。核心架构包括并行 Mamba 结构,通过多个分支利用不同驱动信号分别... Ai项目 5个月前02,4550
Step1X-Edit – 阶跃星辰开源的通用图像编辑框架 Step1X-Edit是什么 Step1X-Edit 是阶跃星辰团队推出的通用图像编辑框架,能缩小开源图像编辑模型与闭源模型(如 GPT-4o 和 Gemini2 Flash)之间的性能差距。Step... Ai项目 5个月前2,4500
Sketch2Lineart – AI绘画工具,自动将手绘草图转换成清晰的线条画 Sketch2Lineart是什么 Sketch2Lineart是基于人工智能的绘画工具,能将简单的手绘草图转换成清晰的线条画。通过自动生成草图描述并据此绘制线条画,支持调整细节适应不同风格。用户只需... Ai项目 5个月前2,4500
TryOffDiff – AI虚拟试穿技术,单张穿着者图片生成标准化服装图像 TryOffDiff是什么 TryOffDiff(VTOFF)是基于扩散模型的新型虚拟试穿技术,用高保真服装重建实现虚拟试穿,专注于从单张穿着者照片生成标准化的服装图像。与传统的Virtual Try... Ai项目 5个月前2,4500
rStar-Math – 微软推出的小模型复杂推理与自进化SLMs的创新技术 rStar-Math是什么 rStar-Math是微软亚洲研究院推出的创新研究项目,基于蒙特卡洛树搜索(MCTS)驱动的深度思考,使小型语言模型(SLMs)在数学推理方面达到甚至超越OpenAI大型模... Ai项目 5个月前2,4500
腾讯混元Turbo S – 腾讯推出的新一代快思考模型 腾讯混元Turbo S是什么 腾讯混元Turbo S是腾讯推出的新一代快思考模型。模型采用创新的Hybrid-Mamba-Transformer融合架构,有效降低了传统Transformer的计算复杂... Ai项目 5个月前02,4500