SmolDocling – 轻量级的多模态文档处理模型 SmolDocling是什么 SmolDocling(SmolDocling-256M-preview )是高效轻量级的多模态文档处理模型。能将文档图像端到端地转换为结构化文本,支持文本、公式、图表等... Ai项目 1年前04,6650
GR00T N1 – 英伟达开源的人形机器人基础模型 GR00T N1是什么 GR00T N1 是英伟达推出的全球首个开源基础模型,专为通用人形机器人设计。基于多模态输入(如语言和图像)实现多样化环境中的操作任务。GR00T N1 基于大规模人形机器人数... Ai项目 1年前06,0450
UniFluid – 谷歌联合麻省理工推出的多模态图像生成与理解框架 UniFluid是什么 UniFluid 是谷歌 DeepMind 和麻省理工学院联合推出的,统一的自回归框架,用在联合视觉生成和理解任务。基于连续视觉标记处理多模态图像和文本输入,生成离散文本标记和... Ai项目 1年前05,7250
Multi-Speaker – AudioShake 推出的多说话人声分离模型 Multi-Speaker是什么 Multi-Speaker是AudioShake推出的全球首个高分辨率多说话人分离模型。支持将音频中的多个说话人精准分离到不同轨道,解决传统音频工具在处理重叠语音时的... Ai项目 1年前04,8500
UniAct – 清华、商汤、北大、上海AI Lab共同推出的具身基础模型框架 UniAct是什么 UniAct 是新型的具身基础模型框架,解决不同机器人之间行为异构性的问题。通过学习通用行为,捕捉不同机器人共享的原子行为特征,消除因物理形态和控制接口差异导致的行为异构性。Uni... Ai项目 1年前05,0250
ReCamMaster – 浙大联合快手等推出的视频重渲染框架 ReCamMaster是什么 ReCamMaster 是浙江大学、快手科技等联合推出的视频重渲染框架,能根据新的相机轨迹重新生成视频内容。通过预训练模型和帧维度条件机制,结合多相机同步数据集和相机姿态... Ai项目 1年前04,9200
Stable Virtual Camera – Stability AI 等机构推出的 AI 模型,2D图像转3D视频 Stable Virtual Camera是什么 Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能将 2D 图像转换为具有真实深度和透视感的 3D 视频... Ai项目 1年前04,3700
Instella – AMD开源的30亿参数系列语言模型 Instella是什么 Instella是AMD推出的系列30亿参数的开源语言模型。模型完全从零开始在AMD Instinct™ MI300X GPU上训练而成,基于自回归Transformer架构... Ai项目 1年前07,1750
Maestro – 开源的端到端自动化测试框架 Maestro是什么 Maestro是用在移动和Web应用的端到端自动化测试框架。基于内置的容错能力和延迟容忍机制,解决传统测试中常见的不稳定性和等待问题。Maestro基于声明式语法,支持在yaml... Ai项目 1年前04,9450
OLMo 2 32B – Ai2 推出的最新开源语言模型 OLMo 2 32B是什么 OLMo 2 32B 是 Allen Institute for AI(Ai2)推出的最新开源语言模型,是 OLMo 2 系列的重要成果。拥有 320 亿参数,是首个在多技... Ai项目 1年前04,7100