TransPixar – 港中文联合 Adobe 等机构开源的生成透明背景视频技术 TransPixar是什么 TransPixar是香港中文大学、Adobe研究院 、香港科技大学和智能摩尔联合开源的,先进的文本到视频生成方法,扩展预训练的RGB视频模型生成包含透明度信息的RGBA视... Ai项目 2周前4,4450
Aria-UI – 港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型 Aria-UI是什么 Aria-UI是香港大学和Rhymes AI共同推出的为图形用户界面(GUI)定位任务设计的大型多模态模型。基于纯视觉方法,不依赖于HTML或AXTree等辅助输入,用大规模、多... Ai项目 2周前5,3700
MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法 MultiBooth是什么 MultiBooth是清华大学深圳国际研究生院、 Meta、香港科技大学等机构推出的多概念图像生成方法,能从文本中生成包含多个用户指定概念的图像。MultiBooth将生成... Ai项目 2周前5,0450
Ingredients – 多ID照片定制视频生成框架,基于多ID照片与视频扩散相结合 Ingredients是什么 Ingredients是强大的框架,基于将多个特定身份(ID)照片与视频扩散Transformer相结合,用在定制视频创作。Ingredients基于三个核心模块实现高度... Ai项目 2周前5,9200
ArtCrafter – 清华联合鹏城实验室和联想共同推出的文本到图像风格迁移框架 ArtCrafter是什么 ArtCrafter是清华大学、鹏城实验室和联想研究院共同推出的文本到图像风格迁移框架,基于扩散模型,解决传统方法在风格表达、内容一致性和输出多样性方面的局限。ArtCra... Ai项目 2周前4,5600
Seer – 上海 AI Lab 联合北大等机构推出的端到端操作模型 Seer是什么 Seer是由上海AI实验室、北京大学计算机科学与技术学院、北京大学软件与微电子学院等机构联合推出的端到端操作模型,实现机器人视觉预测与动作执行的高度协同。模型结合历史信息和目标信号(如... Ai项目 2周前4,6300
EnerVerse – 智元机器人推出的首个机器人4D世界模型 EnerVerse是什么 EnerVerse 是智元机器人团队开发的首个机器人4D世界模型,通过生成未来具身空间来指导机器人完成复杂任务。模型采用自回归扩散模型,结合稀疏记忆机制(Sparse Mem... Ai项目 2周前6,2250
AutoDroid-V2 – 清华推出的移动端GUI自动化脚本代理 AutoDroid-V2是什么 AutoDroid-V2是清华大学人工智能产业研究院推出的基于小型语言模型(SLM)的移动端GUI自动化脚本代理,能基于代码生成技术提升设备上的GUI代理性能。Auto... Ai项目 2周前5,0100
SeedVR – 南洋理工和字节跳动推出的扩散变换器模型,实现通用视频修复 SeedVR是什么 SeedVR是南洋理工大学和字节跳动推出的扩散变换器模型,能实现高质量的通用视频修复。SeedVR基于引入移位窗口注意力机制,采用大尺寸(64×64)窗口和边界处的可变大小窗口,有... Ai项目 2周前4,2150
LIGER – Meta AI 等机构推出的混合检索模型 LIGER是什么 LIGER是Meta AI等机构推出的混合检索模型,结合生成式检索和密集检索的优点。LIGER用生成式检索模块生成有限的候选项目集,基于密集检索对候选项目进行排序和优化,保留生成式检... Ai项目 2周前5,5400