WorldMem – 南洋理工联合北大和上海 AI Lab 推出的世界生成模型

Ai项目2周前发布 Agixxw
590 0 0

WorldMem是什么

WorldMem 是南洋理工大学、北京大学和上海 AI Lab 推出的创新 AI 世界生成模型。模型基于引入记忆机制,解决传统世界生成模型在长时序下缺乏一致性的关键问题。在WorldMem中,智能体在多样化场景中自由探索,生成的世界在视角和位置变化后能保持几何一致性。WorldMem 支持时间一致性建模,模拟动态变化(如物体对环境的影响)。模型在 Minecraft 数据集上进行大规模训练,在真实场景中验证有效性。WorldMem 为构建真实、持久、交互式的虚拟世界提供新的技术路径。

WorldMem的主要功能

  • 保持一致性:在长时间生成中,让虚拟世界保持一致。
  • 模拟动态变化:模拟时间推移带来的变化,比如物体对环境的影响(如灯光融化积雪)。
  • 支持交互:用户在虚拟世界中放置物体或进行操作,交互被记录影响后续生成。
  • 多样化场景生成:支持在多种虚拟场景(如平原、沙漠、冰原等)中自由探索。
  • 适用于真实场景:在真实世界数据集上验证生成一致性的能力。

WorldMem的技术原理

  • 条件生成模块:基于条件扩散变换器(Conditional Diffusion Transformer)构建,结合 Diffusion Forcing 训练策略,支持自回归式长时生成。用外部动作信号(如移动、视角控制、物体放置等)引导第一人称视角的生成。
  • 记忆读写模块:记忆库存储生成过程中的关键历史信息,每个记忆单元包含图像帧及其对应的状态(如视角位姿和时间戳)。记忆检索用贪心匹配算法,基于视野重叠和时间差异计算相似度,高效筛选出与当前场景最相关的记忆单元。
  • 记忆融合模块:将当前帧与记忆帧的状态嵌入(位姿 + 时间)结合,基于注意力计算提取与当前场景最相关的记忆信息,生成融合特征引导当前帧的生成。用 Plücker 坐标表示位姿,基于 MLP 映射时间戳,引入相对嵌入机制,提升模型的空间理解和细节保持能力。

WorldMem的项目地址

WorldMem的应用场景

  • 虚拟游戏:生成长期一致的虚拟游戏世界,支持自由探索和环境交互。
  • VR/AR:创建持久且动态变化的虚拟环境,提升沉浸感。
  • 自动驾驶:模拟真实交通场景,用在自动驾驶系统的测试。
  • 建筑设计:生成虚拟建筑环境,辅助设计方案评估。
  • 教育:创建互动教学环境,支持学生进行实验和探索。
© 版权声明

相关文章