URO-Bench – AI基准测试工具,专为端到端语音对话模型设计 URO-Bench是什么 URO-Bench 是面向端到端语音对话模型(SDMs)的全面基准测试工具。涵盖了多语言、多轮对话、副语言信息等多维度任务,全面评估语音对话模型的性能。基准包含基础赛道和高级... Ai项目 12个月前04,9550
Xiaomi MiMo – 小米开源的首个推理大模型 Xiaomi MiMo是什么 Xiaomi MiMo 是小米开源的首个推理(Reasoning)大模型,支持提升模型在复杂推理任务中的表现。模型基于联动预训练和后训练,挖掘大量富推理语料并采用创新的强... Ai项目 4周前4,9500
SlideChat – 上海AI Lab联合多所高校和机构推出的视觉语言助手 SlideChat是什么 SlideChat是上海AI实验室、厦门大学、华东师范大学等机构推出的,首个能理解千兆像素级别全切片图像的视觉语言助手。SlideChat能生成详尽的全切片图像描述,针对多样... Ai项目 4周前4,9500
VISION XL – AI视频修复处理工具,修复缺失、支持四倍超分辨率 VISION XL是什么 VISION XL是高效的视频修复和超分辨率工具,基于潜在扩散模型技术,专注于解决高清视频的逆问题。工具能修复视频缺失部分、去除模糊,提升视频清晰度,最高可达四倍超分辨率。V... Ai项目 4周前4,9500
VideoJAM – Meta 推出增强视频生成模型运动连贯性的框架 VideoJAM是什么 VideoJAM是Meta推出的,用在增强视频生成模型运动连贯性的框架。基于引入联合外观-运动表示,让模型在训练阶段同时学习预测视频的像素和运动信息,在推理阶段基于模型自身的运... Ai项目 12个月前4,9500
Mogao – 字节跳动Seed团队推出的多模态理解与生成统一架构 Mogao是什么 Mogao是字节跳动Seed团队推出的交错多模态生成全基础模型。在架构上采用了双视觉编码器,结合变分自编码器(VAE)和视觉变换器(ViT),能更好地进行视觉理解并改善图像生成的上下... Ai项目 4周前4,9450
VoltAgent – 开源的AI Agent构建和编排框架 VoltAgent是什么 VoltAgent 是开源的 TypeScript 框架,用在构建和编排 AI Agent。VoltAgent 提供构建 AI 应用的基础结构和工具,简化与大语言模型(LLM... Ai项目 4周前4,9450
TEN Agent – 开源的实时多模态 AI 代理框架 TEN Agent是什么 TEN Agent是集成OpenAI Realtime API和RTC技术的开源实时多模态AI代理框架。TEN Agent能实现语音、文本、图像的多模态交互,具备天气查询、网... Ai项目 4周前4,9450
ViDoRAG – 通义联合中科大、上交大推出的视觉文档检索增强生成框架 ViDoRAG是什么 ViDoRAG是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架。基于多智能体协作和动态迭代推理,解决传统方法在处理复杂视觉文档时的检索和推理局... Ai项目 12个月前04,9450
文心大模型4.5 – 百度推出的首个原生多模态大模型 文心大模型4.5是什么 文心大模型4.5是百度正式发布的最新一代首个原生多模态大模型,在多模态理解、文本和逻辑推理等方面有显著提升,多项测试表现优于GPT4.5。模型已上线百度智能云千帆大模型平台,企... Ai项目 12个月前04,9450