Ruyi – 图森未来推出的图生视频大模型

Ruyi是什么 Ruyi是图森未来推出的图生视频大模型,专为在消费级显卡上运行设计,支持多分辨率、多时长视频生成,具备首帧、首尾帧控制、运动幅度控制和镜头控制等特性。Ruyi基于DiT架构,由Casu...
5个月前
2,4300

AIMv2 – 苹果开源的多模态自回归预训练视觉模型

AIMv2是什么 AIMv2是苹果公司开源的多模态自回归预训练视觉模型,通过图像和文本的深度融合提升视觉模型的性能。采用创新的预训练框架,将图像划分为非重叠的图像块,将文本分解为子词令牌,然后将两者拼...
5个月前
02,4300