Qwen2.5-1M – 阿里通义千问开源的语言模型,支持100万Tokens上下文 Qwen2.5-1M是什么 Qwen2.5-1M是阿里通义千问团队推出的开源模型,支持100万Tokens的上下文长度。模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-I... Ai项目 3周前7,4600
DiffuEraser – 阿里通义实验室推出的视频修复模型 DiffuEraser是什么 DiffuEraser是基于稳定扩散模型的视频修复模型,以更丰富的细节和更连贯的结构填充视频中的遮罩区域。模型通过结合先验信息来提供初始化和弱条件,有助于减少噪声伪影和抑... Ai项目 3周前4,7450
Janus-Pro – DeepSeek 开源的统一多模态模型 Janus-Pro是什么 Janus-Pro是 DeepSeek 推出的开源AI模型,支持图像理解和图像生成,提供 1B 和 7B 两种规模,适配多元应用场景。通过改进的训练策略、扩展的数据集和更大规... Ai项目 3周前4,8350
Qwen2.5-VL – 阿里通义千问开源的视觉语言模型 Qwen2.5-VL是什么 Qwen2.5-VL是阿里通义千问团队开源的旗舰视觉语言模型,具有3B、7B和72B三种不同规模。模型在视觉理解方面表现出色,能识别常见物体,分析图像中的文本、图表等元素... Ai项目 3周前7,3050
QVQ-72B-Preview – 阿里通义开源的多模态推理模型 QVQ-72B-Preview是什么 QVQ-72B-Preview 是阿里云通义千问团队开源的多模态推理模型,专注于提升视觉推理能力。模型在多个基准测试中表现出色,在多模态理解和推理任务上展现了强大... Ai项目 3周前11,3100
Qwen2.5-Max – 阿里通义千问推出的MoE模型 Qwen2.5-Max是什么 Qwen2.5-Max是阿里云推出的超大规模MoE(Mixture of Experts)模型,使用超过20万亿tokens的预训练数据。模型在多个基准测试中表现卓越,超... Ai项目 3周前6,6600
MobileVD – 首个针对移动设备优化的视频扩散模型 MobileVD是什么 MobileVD(Mobile Video Diffusion)是首个针对移动设备优化的视频扩散模型,Qualcomm AI Research团队开发。模型基于Stable V... Ai项目 3周前4,1950
YuE – 港科大联合 M-A-P 推出的开源AI音乐生成模型 YuE是什么 YuE 是香港科技大学和 Multimodal Art Projection 团队联合开发的开源 AI 音乐生成模型。能将歌词转化为完整的歌曲,支持多种音乐风格,包括流行、金属、爵士、嘻... Ai项目 12个月前4,5100
VARGPT – 北大推出的多模态理解生成统一模型 VARGPT是什么 VARGPT是创新的多模态大语言模型,专注于视觉理解和生成任务。基于自回归框架,将视觉生成与理解统一在一个模型中,避免任务切换的复杂性。VARGPT在LLaVA架构基础上进行扩展... Ai项目 12个月前4,9400
CityDreamer4D – 南洋理工推出的无边界 4D 城市建模框架 CityDreamer4D是什么 CityDreamer4D是南洋理工大学 S-Lab 团队开发的用于生成无边界 4D 城市的组合生成模型。将动态物体(如车辆)与静态场景(如建筑和道路)分离,通过三个... Ai项目 12个月前5,3600