VideoLLaMA3 – 阿里达摩院推出的多模态基础模型 VideoLLaMA3是什么 VideoLLaMA3 是阿里巴巴开源的前沿多模态基础模型,专注于图像和视频理解。基于 Qwen 2.5 架构,结合了先进的视觉编码器(如 SigLip)和强大的语言生成... Ai项目 5个月前2,6350
Baichuan-Omni-1.5 – 百川智能开源的全模态理解模型 Baichuan-Omni-1.5是什么 Baichuan-Omni-1.5是百川智能开源的全模态模型。支持文本、图像、音频和视频的全模态理解,具备文本和音频的双模态生成能力。模型在视觉、语音及多模态... Ai项目 5个月前2,5400
TeleAI-t1-preview – 中国电信推出的复杂推理大模型 TeleAI-t1-preview是什么 TeleAI-t1-preview是中国电信人工智能研究院发布的“复杂推理大模型”,具备强大的逻辑推理与数学推导能力。通过强化学习训练方法,引入探索、反思等思... Ai项目 5个月前2,6000
Qwen2.5-1M – 阿里通义千问开源的语言模型,支持100万Tokens上下文 Qwen2.5-1M是什么 Qwen2.5-1M是阿里通义千问团队推出的开源模型,支持100万Tokens的上下文长度。模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-I... Ai项目 5个月前4,0000
DiffuEraser – 阿里通义实验室推出的视频修复模型 DiffuEraser是什么 DiffuEraser是基于稳定扩散模型的视频修复模型,以更丰富的细节和更连贯的结构填充视频中的遮罩区域。模型通过结合先验信息来提供初始化和弱条件,有助于减少噪声伪影和抑... Ai项目 5个月前2,0450
Janus-Pro – DeepSeek 开源的统一多模态模型 Janus-Pro是什么 Janus-Pro是 DeepSeek 推出的开源AI模型,支持图像理解和图像生成,提供 1B 和 7B 两种规模,适配多元应用场景。通过改进的训练策略、扩展的数据集和更大规... Ai项目 5个月前2,0050
Qwen2.5-VL – 阿里通义千问开源的视觉语言模型 Qwen2.5-VL是什么 Qwen2.5-VL是阿里通义千问团队开源的旗舰视觉语言模型,具有3B、7B和72B三种不同规模。模型在视觉理解方面表现出色,能识别常见物体,分析图像中的文本、图表等元素... Ai项目 5个月前3,7550
QVQ-72B-Preview – 阿里通义开源的多模态推理模型 QVQ-72B-Preview是什么 QVQ-72B-Preview 是阿里云通义千问团队开源的多模态推理模型,专注于提升视觉推理能力。模型在多个基准测试中表现出色,在多模态理解和推理任务上展现了强大... Ai项目 5个月前3,9000
Qwen2.5-Max – 阿里通义千问推出的MoE模型 Qwen2.5-Max是什么 Qwen2.5-Max是阿里云推出的超大规模MoE(Mixture of Experts)模型,使用超过20万亿tokens的预训练数据。模型在多个基准测试中表现卓越,超... Ai项目 5个月前3,3700
MobileVD – 首个针对移动设备优化的视频扩散模型 MobileVD是什么 MobileVD(Mobile Video Diffusion)是首个针对移动设备优化的视频扩散模型,Qualcomm AI Research团队开发。模型基于Stable V... Ai项目 5个月前1,9350