UniAct – 清华、商汤、北大、上海AI Lab共同推出的具身基础模型框架 UniAct是什么 UniAct 是新型的具身基础模型框架,解决不同机器人之间行为异构性的问题。通过学习通用行为,捕捉不同机器人共享的原子行为特征,消除因物理形态和控制接口差异导致的行为异构性。Uni... Ai项目 5个月前02,4350
EasyControl Ghibli – 免费生成吉卜力风格图像的 AI 模型 EasyControl Ghibli是什么 EasyControl Ghibli 是基于 EasyControl 框架开发的 AI 模型,已上线 Hugging Face 平台,专注于将普通图像转换为... Ai项目 5个月前02,4350
Miracle F1 – 美图 WHEE 推出的 AI 图像生成模型 Miracle F1是什么 Miracle F1 是美图 WHEE 推出的全新AI图像生成模型。具备强大的图像生成能力,能像摄影师、建筑师和画家一样精准地处理光影、空间和材质效果,生成的图像真实感强... Ai项目 5个月前02,4350
BlenderMCP – 基于 MCP 集成的 3D 建模工具 BlenderMCP是什么 BlenderMCP是将Blender与Claude AI基于模型上下文协议(MCP)集成的工具。BlenderMCP用socket服务器实现Blender与AI的双向通信... Ai项目 5个月前02,4350
Qwen2.5-Turbo – 阿里推出的长文本模型,支持上下文长度1M tokens Qwen2.5-Turbo是什么 Qwen2.5-Turbo是阿里推出的先进模型,将上下文长度从 128k 扩展到了 1M tokens ,相当于100万个英文单词或150万个汉字。扩展让模型能处理更... Ai项目 5个月前2,4300
Ruyi – 图森未来推出的图生视频大模型 Ruyi是什么 Ruyi是图森未来推出的图生视频大模型,专为在消费级显卡上运行设计,支持多分辨率、多时长视频生成,具备首帧、首尾帧控制、运动幅度控制和镜头控制等特性。Ruyi基于DiT架构,由Casu... Ai项目 5个月前2,4300
OmniAudio-2.6B – Nexa AI推出的端侧多模态音频语言模型 OmniAudio-2.6B是什么 OmniAudio-2.6B是Nexa AI推出的音频语言模型,专为边缘部署设计,能实现快速且高效的音频文本处理。OmniAudio-2.6B是具有2.6亿参数的多... Ai项目 5个月前2,4300
ArtCrafter – 清华联合鹏城实验室和联想共同推出的文本到图像风格迁移框架 ArtCrafter是什么 ArtCrafter是清华大学、鹏城实验室和联想研究院共同推出的文本到图像风格迁移框架,基于扩散模型,解决传统方法在风格表达、内容一致性和输出多样性方面的局限。ArtCra... Ai项目 5个月前2,4300
AIMv2 – 苹果开源的多模态自回归预训练视觉模型 AIMv2是什么 AIMv2是苹果公司开源的多模态自回归预训练视觉模型,通过图像和文本的深度融合提升视觉模型的性能。采用创新的预训练框架,将图像划分为非重叠的图像块,将文本分解为子词令牌,然后将两者拼... Ai项目 5个月前02,4300
GLM-Edge – 智谱开源的端侧大语言和多模态系列模型 GLM-Edge是什么 GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型,包含GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V... Ai项目 5个月前2,4250