FramePack – 斯坦福开源的AI视频生成模型

FramePack是什么 FramePack 是斯坦福大学开源的AI视频生成模型。基于压缩输入帧的上下文长度,解决视频生成中的“遗忘”和“漂移”问题,让模型能高效处理大量帧,保持较低的计算复杂度。Fr...
5个月前
02,4500

DreamO – 字节联合北大推出的图像定制生成框架

DreamO是什么 DreamO 是字节跳动创作团队联合北京大学深圳研究生院电子与计算机工程学院联合推出的用在图像定制生成的统一框架,基于预训练的扩散变换器(DiT)模型实现多种图像生成任务的灵活定制...
5个月前
2,4450

NVILA – 英伟达推出的视觉语言大模型

NVILA是什么 NVILA是NVIDIA推出的系列视觉语言模型,能平衡效率和准确性。模型用“先扩展后压缩”策略,有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统优化,减少资源消耗,在...
5个月前
2,4450