3DHM – 3D人体动作生成框架,单张图片生成任意视频动作 3DHM是什么 3DHM(3D Human Motions)是先进的3D人体动作生成技术,加州大学伯克利分校的研究人员推出。能从单张人物照片生成具有3D控制的动态人体视频,实现从静态图像到动态视频的转... Ai项目 2个月前1,2000
Diff-Instruct – 从预训练扩散模型中迁移知识的通用框架 Diff-Instruct是什么 Diff-Instruct是先进的知识转移方法,用于从预训练的扩散模型中提取知识,指导其他生成模型的训练。它基于一种新的散度度量——积分Kullback-Leible... Ai项目 2个月前1,2900
VidTok – 微软开源的视频分词器,支持连续和离散分词化 VidTok是什么 VidTok(Video Tokenizer)是微软开源的先进的视频分词器,通过高效的算法将视频内容转换成一系列“视频词”。支持连续和离散分词化,具有灵活的压缩率和多样化的隐空间... Ai项目 2个月前1,5000
Infinity – 字节跳动推出的高分辨率图像生成模型 Infinity是什么 Infinity是字节跳动推出的基于位级自回归建模的视觉生成模型,能根据语言指令生成高分辨率、逼真的图像。Infinity通过无限词汇量的标记器、分类器和位自纠正机制,显著提升... Ai项目 2个月前1,4850
ModernBERT – 英伟达和 HuggingFace 等机构联合开源的新一代编码器模型 ModernBERT是什么 ModernBERT是Answer.AI、LightOn、约翰斯·霍普金斯大学、英伟达和HuggingFace联合推出的现代编码器-only Transformer模型,是... Ai项目 2个月前1,2300
cobalt – 开源的流媒体下载工具,支持全平台视频、音频和图片下载 cobalt是什么 cobalt是开源的流媒体下载工具,提供纯净、简洁无广告的体验。cobalt支持全平台视频、音频和图片下载,包括主流视频网站、社交媒体和音乐平台。cobalt提供个性化设置,支持多... Ai项目 2个月前1,7150
CogAgent-9B – 智谱AI开源 GLM-PC 的基座模型 CogAgent-9B是什么 CogAgent-9B是基于 GLM-4V-9B 训练的专用Agent任务模型,仅依赖屏幕截图作为输入,无需HTML等文本表征。CogAgent-9B支持高分辨率图像处理... Ai项目 2个月前1,4900
AGUVIS – 香港大学联合 Salesforce 推出统一纯视觉的GUI自动化框架 AGUVIS是什么 AGUVIS是香港大学、Salesforce 联合推出的统一的纯视觉框架,专为自主GUI智能体设计,能在各种平台(如网页、桌面、移动设备)上操作。AGUVIS基于图像观察和自然语言... Ai项目 2个月前1,5900
Enhance-A-Video – 上海AI Lab 联合新加坡国立等推出的视频生成质量增强算法 Enhance-A-Video是什么 Enhance-A-Video 是新加坡国立大学、上海人工智能实验室和德克萨斯大学奥斯汀分校联合推出的视频生成增强算法。算法能够显著提升AI视频生成质量,特别是在... Ai项目 2个月前1,6250
Valley – 字节跳动推出的多模态大模型 Valley是什么 Valley是字节跳动推出的多模态大模型,用于处理涉及文本、图像和视频数据的多样化任务。Valley在内部电子商务和短视频基准测试中取得了最佳成绩,并在OpenCompass测试中... Ai项目 2个月前1,2950