Mobile-Agent – 自主多模态移动设备代理,通过视觉感知实现智能化手机操作 Mobile-Agent是什么 Mobile-Agent 是具有移动性的智能代理软件实体,能在网络的各个节点之间移动,代表用户或其他代理进行工作。能根据具体情况中断当前执行,移动至另一设备上恢复运行... Ai项目 5个月前2,0950
VideoRAG – 用于长视频理解的检索增强生成技术 VideoRAG是什么 VideoRAG是用于长视频理解的检索增强生成(Retrieval-Augmented Generation)技术。通过提取视频中的视觉对齐辅助文本,帮助大型视频语言模型(LV... Ai项目 5个月前2,5200
SPRIGHT – 专注于空间关系的大型视觉语言数据集 SPRIGHT是什么 SPRIGHT(SPatially RIGHT)是亚利桑那州立大学 、Intel 实验室 、Hugging Face 、华盛顿大学等机构联合推出的,专注于空间关系的大型视觉-语言... Ai项目 5个月前2,7000
LIGER – Meta AI 等机构推出的混合检索模型 LIGER是什么 LIGER是Meta AI等机构推出的混合检索模型,结合生成式检索和密集检索的优点。LIGER用生成式检索模块生成有限的候选项目集,基于密集检索对候选项目进行排序和优化,保留生成式检... Ai项目 5个月前3,1400
SeedVR – 南洋理工和字节跳动推出的扩散变换器模型,实现通用视频修复 SeedVR是什么 SeedVR是南洋理工大学和字节跳动推出的扩散变换器模型,能实现高质量的通用视频修复。SeedVR基于引入移位窗口注意力机制,采用大尺寸(64×64)窗口和边界处的可变大小窗口,有... Ai项目 5个月前2,3650
AutoDroid-V2 – 清华推出的移动端GUI自动化脚本代理 AutoDroid-V2是什么 AutoDroid-V2是清华大学人工智能产业研究院推出的基于小型语言模型(SLM)的移动端GUI自动化脚本代理,能基于代码生成技术提升设备上的GUI代理性能。Auto... Ai项目 5个月前2,4900
EnerVerse – 智元机器人推出的首个机器人4D世界模型 EnerVerse是什么 EnerVerse 是智元机器人团队开发的首个机器人4D世界模型,通过生成未来具身空间来指导机器人完成复杂任务。模型采用自回归扩散模型,结合稀疏记忆机制(Sparse Mem... Ai项目 5个月前2,6350
Seer – 上海 AI Lab 联合北大等机构推出的端到端操作模型 Seer是什么 Seer是由上海AI实验室、北京大学计算机科学与技术学院、北京大学软件与微电子学院等机构联合推出的端到端操作模型,实现机器人视觉预测与动作执行的高度协同。模型结合历史信息和目标信号(如... Ai项目 5个月前2,4200
ArtCrafter – 清华联合鹏城实验室和联想共同推出的文本到图像风格迁移框架 ArtCrafter是什么 ArtCrafter是清华大学、鹏城实验室和联想研究院共同推出的文本到图像风格迁移框架,基于扩散模型,解决传统方法在风格表达、内容一致性和输出多样性方面的局限。ArtCra... Ai项目 5个月前2,4300
Ingredients – 多ID照片定制视频生成框架,基于多ID照片与视频扩散相结合 Ingredients是什么 Ingredients是强大的框架,基于将多个特定身份(ID)照片与视频扩散Transformer相结合,用在定制视频创作。Ingredients基于三个核心模块实现高度... Ai项目 5个月前2,1100