Step-1o Vision – 阶跃星辰推出的原生端到端视觉理解模型 Step-1o Vision是什么 Step-1o Vision 是阶跃星辰最新研发的原生端到端多模态生成与理解一体化模型中的视觉版本。专注于视觉任务,具备强大的图像识别、感知、推理和指令跟随能力,能... Ai项目 5个月前2,4700
Baichuan-Omni-1.5 – 百川智能开源的全模态理解模型 Baichuan-Omni-1.5是什么 Baichuan-Omni-1.5是百川智能开源的全模态模型。支持文本、图像、音频和视频的全模态理解,具备文本和音频的双模态生成能力。模型在视觉、语音及多模态... Ai项目 5个月前2,4700
Baichuan-Audio – 百川智能开源的端到端语音交互模型 Baichuan-Audio是什么 Baichuan-Audio是百川智能推出的端到端音频大语言模型,支持无缝集成音频理解和生成功能,实现支持高质量、可控的实时中英双语对话。Baichuan-Audi... Ai项目 5个月前02,4700
Reka Flash 3 – Reka AI 推出的开源推理模型 Reka Flash 3是什么 Reka Flash 3 是 Reka AI 推出的开源推理模型,拥有 21 亿参数。支持多模态输入,包括文本、图像、视频和音频,可处理最多 32k 个令牌的上下文长度... Ai项目 5个月前02,4700
DynaMem – 纽约大学和Hello Robot推出的动态空间语义记忆系统 DynaMem是什么 DynaMem是纽约大学和Hello Robot推出的动态空间语义记忆系统,专为开放世界中的移动操作设计。基于维护一个特征点云作为机器人记忆,处理环境中的动态变化,如物体的添加和... Ai项目 5个月前2,4650
CAVIA – 苹果、得克萨斯、谷歌联合推出的多视角视频生成框架 CAVIA是什么 CAVIA是苹果公司、得克萨斯大学奥斯汀分校、谷歌联合推出的多视角视频生成框架,能将单一输入图像转换成多个时空一致的视频序列。框架基于引入视角集成注意力模块,增强视频的视角一致性和时... Ai项目 5个月前2,4650
DiffSensei – AI 漫画生成框架,能生成可控的黑白漫画面板 DiffSensei是什么 DiffSensei是北京大学、上海AI实验室及南洋理工大学的研究人员共同推出的漫画生成框架,能生成可控的黑白漫画面板。DiffSensei整合基于扩散的图像生成器和多模态... Ai项目 5个月前2,4650
Veo 2 – 谷歌 DeepMind 推出的 AI 视频生成模型,支持高达 4K 分辨率 Veo 2是什么 Veo 2 是 Google DeepMind 推出的 AI 视频生成模型,能根据文本或图像提示生成高质量视频内容。Veo 2支持高达 4K 分辨率的视频制作,理解镜头控制指令,能模... Ai项目 5个月前2,4650
MiniRAG – 港大推出高效部署小语言模型的新型 RAG 系统 MiniRAG是什么 MiniRAG是香港大学推出的新型检索增强型生成(RAG)系统,专为在资源受限的场景下高效部署小型语言模型(SLMs)设计。MiniRAG基于两个关键技术实现这一目标:一是语义感... Ai项目 5个月前2,4650
Yuxi-Know – 基于大模型 RAG 知识库的 AI 知识图谱问答平台 Yuxi-Know是什么 Yuxi-Know(语析)是基于大模型RAG知识库与知识图谱技术构建的智能问答平台。Yuxi-Know支持多种知识库文件格式(如PDF、TXT、MD、Docx),支持将文件内... Ai项目 5个月前02,4650