H-Optimus-0 – 法国初创公司Bioptimus开源的病理学AI基础模型 H-Optimus-0是什么 H-Optimus-0是法国初创公司Bioptimus发布的世界上最大的开源病理学AI基础模型。模型拥有11亿参数,是在专有数据集上训练的,数据集包含从4000个临床实践... Ai项目 5个月前2,4600
WorldSense – 小红书联合上海交大推出的多模态全面评测新基准 WorldSense是什么 WorldSense是小红书和上海交通大学推出的,用在评估多模态大型语言模型(MLLMs)在现实世界场景中对视觉、听觉和文本输入的综合理解能力的基准测试。WorldSens... Ai项目 5个月前02,4600
XMusic – 腾讯多媒体实验室自主研发的AI通用作曲框架 XMusic是什么 XMusic是腾讯多媒体实验室自主研发的AI通用作曲框架。用户只需上传视频、图片、文字、标签、哼唱等任意内容,XMusic能生成情绪、曲风、节奏可控的高质量音乐。基于自研的多模态和... Ai项目 5个月前2,4550
MnnLlmApp – 阿里巴巴开源的离线大模型 Android 手机应用AI助手 MnnLlmApp是什么 MnnLlmApp 是阿里巴巴基于 MNN-LLM 框架开源的 Android 手机应用,支持各类大语言模型(LLM)在手机上离线运行。具备多模态功能,能实现文本生成文本、图... Ai项目 5个月前2,4550
LLaVA-Rad – 微软推出的小型多模态模型,专注于临床放射学报告生成 LLaVA-Rad是什么 LLaVA-Rad是微软研究院推出的小型多模态模型,专注于临床放射学报告生成。是LLaVA-Med项目的分支,特别是胸部X光(CXR)成像。基于LLaVA-Med的基础架构和... Ai项目 5个月前02,4550
Aya Vision – Cohere 推出多模态、多语言的视觉模型 Aya Vision是什么 Aya Vision 是 Cohere 推出的多模态、多语言的视觉模型,提升全球范围内的多语言和多模态通信能力。支持 23 种语言,能执行图像描述生成、视觉问答、文本翻译和... Ai项目 5个月前02,4550
Versatile-OCR-Program – 开源多模态OCR工具,精准提取复杂结构化数据 Versatile-OCR-Program是什么 Versatile-OCR-Program是开源多模态OCR工具,支持从复杂的教育材料中提取结构化数据,生成适合机器学习训练的高质量数据集。Versa... Ai项目 5个月前02,4550
Step1X-Edit – 阶跃星辰开源的通用图像编辑框架 Step1X-Edit是什么 Step1X-Edit 是阶跃星辰团队推出的通用图像编辑框架,能缩小开源图像编辑模型与闭源模型(如 GPT-4o 和 Gemini2 Flash)之间的性能差距。Step... Ai项目 5个月前2,4500
Pixtral Large – Mistral AI开源的超大多模态模型 Pixtral Large是什么 Pixtral Large是法国Mistral AI开源的1240亿参数超大多模态模型,具备前沿级图像理解能力,支持128K上下文,能理解文本、图表和图像。Pixtr... Ai项目 5个月前2,4500
VideoRAG – 用于长视频理解的检索增强生成技术 VideoRAG是什么 VideoRAG是用于长视频理解的检索增强生成(Retrieval-Augmented Generation)技术。通过提取视频中的视觉对齐辅助文本,帮助大型视频语言模型(LV... Ai项目 5个月前2,4500