FastAPI-MCP – 一键将 FastAPI 转换为 MCP 服务器的开源工具 FastAPI-MCP是什么 FastAPI-MCP 是将 FastAPI 应用的端点自动转换为符合模型上下文协议(MCP)的开源工具。具有零配置的特点,只需简单指向 FastAPI 应用可自动发现并... Ai项目 1年前04,5300
MineWorld – 微软研究院开源的实时交互式世界模型 MineWorld是什么 MineWorld是微软研究院开源的基于《我的世界》(Minecraft)的实时交互式世界模型,基于视觉-动作自回归Transformer架构,将游戏场景和动作转化为离散的t... Ai项目 1年前04,0550
HumanRig – 阿里高德推出的3D人形角色自动绑定任务数据集 HumanRig是什么 HumanRig 是阿里巴巴团队开发的 3D 人形角色自动绑定研究项目。解决现有绑定技术因缺乏高质量数据集而发展受限的问题,通过提供大规模、高质量的数据集和创新的自动绑定框架... Ai项目 1年前05,0900
GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器 GigaTok是什么 GigaTok 是用于自回归图像生成的视觉分词器,参数量达 30 亿。通过语义正则化技术,将分词器特征与预训练视觉编码器(如 DINOv2)的语义特征对齐,有效约束潜在空间复杂度... Ai项目 1年前06,0950
SkyReels-V2 – 昆仑万维开源的无限时长电影生成模型 SkyReels-V2是什么 SkyReels-V2是昆仑万维SkyReels团队推出的无限时长电影生成模型,基于扩散强迫(Diffusion-forcing)框架,结合多模态大语言模型(MLLM... Ai项目 1年前04,9400
OpenUtau – 开源的AI歌声合成工具,自动适配系统语言 OpenUtau是什么 OpenUtau 是开源的歌声合成工具,兼容 UTAU 音源库和重采样器,支持 VSQX 导入、多语言界面及预渲染功能,帮助创作者快速预览作品节省时间。OpenUtau现代化的... Ai项目 1年前05,6500
Gemma 3 QAT – 谷歌推出的最新开源模型,Gemma 3 量化版 Gemma 3 QAT是什么 Gemma 3 QAT(Quantization-Aware Training)是谷歌推出的最新一代开源模型,是Gemma 3 的量化优化版本。通过量化感知训练技术,Ge... Ai项目 1年前04,6650
ImagePulse – 魔搭社区开源的图像理解和生成模型数据集 ImagePulse是什么 ImagePulse (图律脉动)是魔搭社区推出的开源项目,为下一代图像理解和生成模型提供数据集支持,通过原子化模型的能力并构建原子能力数据集。项目包含多个原子能力数据集... Ai项目 1年前04,5100
SimpleAR – 复旦大学联合字节 Seed 团队推出的图像生成模型 SimpleAR是什么 SimpleAR 是复旦大学视觉与学习实验室和字节 Seed 团队联合推出的纯自回归图像生成模型。采用简洁的自回归架构,通过优化训练和推理过程,实现了高质量的图像生成。Simp... Ai项目 1年前06,1650
Aether – 上海 AI Lab 开源的生成式世界模型 Aether是什么 Aether 是上海AI Lab开源的生成式世界模型,完全基于合成数据训练。Aether 首次将三维时空建模与生成式建模深度融合,具备 4D 动态重建、动作条件视频预测和目标导向视... Ai项目 1年前05,0600