s1 – 斯坦福和华盛顿大学推出低成本、高性能的AI推理模型 s1是什么 s1是斯坦福大学和华盛顿大学的研究团队开发的低成本、高性能的AI推理模型。模型通过“蒸馏”技术从谷歌的Gemini 2.0 Flash Thinking Experimental模型中提取... Ai项目 5个月前2,2400
VideoJAM – Meta 推出增强视频生成模型运动连贯性的框架 VideoJAM是什么 VideoJAM是Meta推出的,用在增强视频生成模型运动连贯性的框架。基于引入联合外观-运动表示,让模型在训练阶段同时学习预测视频的像素和运动信息,在推理阶段基于模型自身的运... Ai项目 5个月前2,5400
SynCD – Meta和卡内基梅隆大学开源的文生图合成训练数据集 SynCD是什么 SynCD(Synthetic Customization Dataset)是卡内基梅隆大学和Meta推出的高质量合成训练数据集,用在提升文本到图像模型的定制化能力。SynCD包含多... Ai项目 5个月前2,1300
MatAnyone – 南洋理工和商汤科技推出的人像视频抠图框架 MatAnyone是什么 MatAnyone是南洋理工大学S-Lab实验室和商汤科技推出的,针对复杂背景人像视频抠图的先进框架,专注于目标指定的视频抠图任务。MatAnyone基于一致的内存传播模块和... Ai项目 5个月前2,4700
JoyGen – 京东和港大推出音频驱动的3D说话人脸视频生成框架 JoyGen是什么 JoyGen是京东科技和香港大学推出的,音频驱动的3D说话人脸视频生成框架,专注于实现精确的唇部与音频同步及高质量的视觉效果。JoyGen结合音频特征和面部深度图,驱动唇部运动的生... Ai项目 5个月前2,5850
EMAGE – 清华联合东大等机构推出的音频生成全身共语手势框架 EMAGE是什么 EMAGE(Expressive Masked Audio-conditioned GEsture modeling)是清华大学、东京大学、庆应义塾大学等机构推出的生成全身共语手势框... Ai项目 5个月前2,5050
LIMO – 上海交大推出的高效推理方法,仅需817条训练样本 LIMO是什么 LIMO(Less Is More for Reasoning)是上海交通大学研究团队提出的高效推理方法,通过极少量高质量的训练样本激活大语言模型(LLM)的复杂推理能力。核心假设是在... Ai项目 5个月前2,5450
SANA 1.5 – 英伟联合MIT、清北等机构推出的文生图新框架 SANA 1.5是什么 SANA 1.5是英伟达联合MIT、清华、北大等机构推出的新型高效的线性扩散变换器(Linear Diffusion Transformer),用于文本到图像生成任务。在 SA... Ai项目 5个月前2,2450
ASAP – 卡内基梅隆大学联合英伟达推出的模拟与真实物理对齐框架 ASAP是什么 ASAP(Aligning Simulation and Real Physics)是卡内基梅隆大学和英伟达联合推出的,用在解决仿人机器人模拟与现实动力学不匹配问题的两阶段框架。ASA... Ai项目 5个月前2,4350
MAETok – 港大联合北大等机构推出的自动编码器 MAETok是什么 MAETok(Masked Autoencoders Tokenizer)是卡内基梅隆大学、香港大学、北京大学等机构推出的扩散模型的新型图像标记化方法。MAETok基于掩码建模(M... Ai项目 5个月前2,2650