WorldSense – 小红书联合上海交大推出的多模态全面评测新基准 WorldSense是什么 WorldSense是小红书和上海交通大学推出的,用在评估多模态大型语言模型(MLLMs)在现实世界场景中对视觉、听觉和文本输入的综合理解能力的基准测试。WorldSens... Ai项目 1年前04,5400
CSM – Sesame团队推出的语音对话模型 CSM是什么 CSM(Conversational Speech Model)是Sesame团队推出的新型语音对话模型,提升语音助手的自然度和情感交互能力。CSM基于多模态学习框架,结合文本和语音数据... Ai项目 1年前04,5350
RealisHuman – 用于修复生成图像中畸形人体部分的后处理框架 RealisHuman是什么 RealisHuman 是创新的后处理框架,细化生成图像中的人体部位,如手和脸等。框架通过两阶段的方法来实现这一目标。首先,使用原始的畸形部位作为参考,生成逼真的人体部位... Ai项目 1个月前4,5300
Uni-AdaFocus – 清华大学推出通用的高效视频理解框架 Uni-AdaFocus是什么 Uni-AdaFocus是清华大学自动化系的研究团队推出的通用的高效视频理解框架,框架通过自适应聚焦机制,动态调整计算资源的分配,实现对视频内容的高效处理。具体而言,U... Ai项目 1个月前4,5300
YuE – 港科大联合 M-A-P 推出的开源AI音乐生成模型 YuE是什么 YuE 是香港科技大学和 Multimodal Art Projection 团队联合开发的开源 AI 音乐生成模型。能将歌词转化为完整的歌曲,支持多种音乐风格,包括流行、金属、爵士、嘻... Ai项目 1年前4,5300
SpatialVLA – 上海 AI Lab 联合上科大等推出的空间具身通用操作模型 SpatialVLA是什么 SpatialVLA 是上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型,基于百万真实数据预训练,为机器人赋予通用的3D空间... Ai项目 1年前04,5300
FastAPI-MCP – 一键将 FastAPI 转换为 MCP 服务器的开源工具 FastAPI-MCP是什么 FastAPI-MCP 是将 FastAPI 应用的端点自动转换为符合模型上下文协议(MCP)的开源工具。具有零配置的特点,只需简单指向 FastAPI 应用可自动发现并... Ai项目 1年前04,5300
Amodal3R – 南洋理工联合牛津等推出的条件式 3D 生成模型 Amodal3R是什么 Amodal3R 是条件式 3D 生成模型,能从部分可见的 2D 物体图像中推测并重建完整的 3D 形态和外观。模型基于“基础”3D 生成模型 TRELLIS 构建,通过引入掩... Ai项目 1年前04,5250
LeviTor – 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术 LeviTor是什么 LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术,结合深度信息和K-means聚类点控制视频中3D物体的轨迹,无需显式的3D轨迹跟踪。LeviTor用高... Ai项目 1个月前4,5200
TITAN – 哈佛医学院研究推出的多模态全切片病理基础模型 TITAN是什么 TITAN是哈佛医学院研究团队开发的多模态全切片病理基础模型,通过视觉自监督学习和视觉-语言对齐预训练,能在无需微调或临床标签的情况下提取通用的切片表示,生成病理报告。它使用了335... Ai项目 1个月前4,5150