VLM-R1 – 浙大 Om AI Lab 推出的视觉语言模型

VLM-R1是什么 VLM-R1 是 Om AI Lab 推出的基于强化学习技术的视觉语言模型,通过自然语言指令精确定位图像中的目标物体,如根据描述“图中红色的杯子”找到对应的图像区域。模型基于 Qw...
12个月前
05,4800

Wan2.1 – 阿里开源的AI视频生成大模型

Wan2.1是什么 Wan2.1是阿里云开源的AI视频生成大模型,具备强大的视觉生成能力。Wan2.1支持文生视频和图生视频任务,包含两种尺寸的模型,14B参数的专业版擅长复杂运动生成和物理建模,性能...
12个月前
08,7950