HumanOmni – 阿里通义等推出专注人类中心场景的多模态大模型 HumanOmni是什么 HumanOmni 是专注于人类中心场景的多模态大模型,视觉和听觉模态融合而成。通过处理视频、音频或两者的结合输入,能全面理解人类行为、情感和交互。模型基于超过240万视频片... Ai项目 12个月前07,3000
Spark-TTS – AI文本转语音工具,支持中英零样本语音克隆 Spark-TTS是什么 Spark-TTS 是SparkAudio 团队开源的基于大型语言模型(LLM)的高效文本转语音(TTS)工具, 无需额外的生成模型,直接从 LLM 预测的编码中重建音频,实... Ai项目 12个月前010,7900
ViDoRAG – 通义联合中科大、上交大推出的视觉文档检索增强生成框架 ViDoRAG是什么 ViDoRAG是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架。基于多智能体协作和动态迭代推理,解决传统方法在处理复杂视觉文档时的检索和推理局... Ai项目 12个月前04,9450
Shandu – AI研究工具,自动进行多层次信息挖掘和分析 Shandu是什么 Shandu 是开源的 AI 研究自动化工具,结合了 LangChain 和 LangGraph 技术,能自动化地进行多层次信息挖掘和分析,生成结构化的研究报告。Shandu 的核... Ai项目 12个月前05,2800
LCVD – 川大推出的光照可控肖像动画生成框架 LCVD是什么 LCVD(Lighting Controllable Video Diffusion Model)是四川大学推出的高保真、光照可控的肖像动画生成框架。LCVD基于分离肖像的内在特征(如... Ai项目 12个月前04,1300
SepLLM – 基于分隔符压缩加速大语言模型的高效框架 SepLLM是什么 SepLLM是香港大学、华为诺亚方舟实验室等机构联合提出的用于加速大语言模型(LLM)的高效框架,通过压缩段落信息并消除冗余标记,显著提高了模型的推理速度和计算效率。SepLLM的... Ai项目 12个月前04,9150
CogView4 – 智谱开源的AI文生图模型,支持生成汉字 CogView4是什么 CogView4 是智谱推出的开源文生图模型,具有60亿参数,支持原生中文输入和中文文字生成。模型在 DPG-Bench 基准测试中综合评分排名第一,达到开源文生图模型的最先进... Ai项目 12个月前06,1050
PRefLexOR – MIT 团队推出的新型自学习AI框架 PRefLexOR是什么 PRefLexOR(Preference-based Recursive Language Modeling for Exploratory Optimization of ... Ai项目 12个月前05,0900
Probly – AI电子表格工具,交互式生成分析结果或可视化图表 Probly是什么 Probly 是 AI 驱动的电子表格工具,结合电子表格功能与 Python 数据分析能力。Probly基于 WebAssembly 在浏览器中运行 Python 代码,支持交互式... Ai项目 12个月前05,7600
MindLLM – 耶鲁联合剑桥等机构推出的医疗领域 AI 模型 MindLLM是什么 MindLLM 是耶鲁大学、达特茅斯学院和剑桥大学联合推出的AI模型,能将脑部功能性磁共振成像(fMRI)信号解码为自然语言文本。MindLLM基于一个主体无关(subject... Ai项目 12个月前04,1900