AIMv2 – 苹果开源的多模态自回归预训练视觉模型

AIMv2是什么 AIMv2是苹果公司开源的多模态自回归预训练视觉模型,通过图像和文本的深度融合提升视觉模型的性能。采用创新的预训练框架,将图像划分为非重叠的图像块,将文本分解为子词令牌,然后将两者拼...
5个月前
02,4300