Emotion-LLaMA – 多模态情绪识别与推理模型,融合音频、视觉和文本输入 Emotion-LLaMA是什么 Emotion-LLaMA是多模态情绪识别与推理模型,融合了音频、视觉和文本输入,通过特定情绪编码器整合信息。模型基于修改版LLaMA,经指令调整以提升情感识别能力... Ai项目 5个月前2,4600
RealtimeSTT – AI实时语音转文本库,自动检测说话的开始与结束 RealtimeSTT是什么 RealtimeSTT是开源的实时语音转文本库,专为低延迟应用设计。有强大的语音活动检测功能,可自动识别说话的开始与结束,通过WebRTCVAD和SileroVAD进行精... Ai项目 5个月前2,4600
PaSa – 字节跳动推出的学术论文检索智能体 PaSa是什么 PaSa是字节跳动研究团队(ByteDance Research)推出的基于强化学习的学术论文检索智能体。能模仿人类研究者的行为,自动调用搜索引擎、浏览相关论文并追踪引文网络,为用户提... Ai项目 5个月前2,4600
OpenDeepResearcher – 开源 AI 研究工具,自动完成搜索、评估、提取和报告生成 OpenDeepResearcher是什么 OpenDeepResearcher 是开源的 AI 研究工具,能帮助用户高效地完成复杂的信息查询和分析任务。基于迭代搜索和推理,自动从网络中获取相关数据... Ai项目 5个月前2,4600
WorldSense – 小红书联合上海交大推出的多模态全面评测新基准 WorldSense是什么 WorldSense是小红书和上海交通大学推出的,用在评估多模态大型语言模型(MLLMs)在现实世界场景中对视觉、听觉和文本输入的综合理解能力的基准测试。WorldSens... Ai项目 5个月前02,4600
Data Formulator – 微软研究院开源的 AI 数据可视化工具 Data Formulator是什么 Data Formulator是微软研究院推出的开源 AI 驱动的数据可视化工具,帮助用户通过简单交互和指令快速创建丰富的数据可视化。结合了图形化用户界面(GUI... Ai项目 5个月前02,4600
TokenSwift – 超长文本生成加速框架,90分钟内生成10万Token文本 TokenSwift是什么 TokenSwift 是北京通用人工智能研究院团队推出的超长文本生成加速框架,能在90分钟内生成10万Token的文本,相比传统自回归模型的近5小时,速度提升了3倍,生成质... Ai项目 5个月前02,4600
Muyan-TTS – 开源文本转语音模型,零样本语音合成 Muyan-TTS是什么 Muyan-TTS 是为播客场景设计的开源文本转语音(TTS)模型。模型预训练超过10万小时的播客音频数据,能实现零样本语音合成,无需大量目标说话人的语音数据可生成高质量语音... Ai项目 4个月前2,4550
XMusic – 腾讯多媒体实验室自主研发的AI通用作曲框架 XMusic是什么 XMusic是腾讯多媒体实验室自主研发的AI通用作曲框架。用户只需上传视频、图片、文字、标签、哼唱等任意内容,XMusic能生成情绪、曲风、节奏可控的高质量音乐。基于自研的多模态和... Ai项目 5个月前2,4550
LLaVA-Rad – 微软推出的小型多模态模型,专注于临床放射学报告生成 LLaVA-Rad是什么 LLaVA-Rad是微软研究院推出的小型多模态模型,专注于临床放射学报告生成。是LLaVA-Med项目的分支,特别是胸部X光(CXR)成像。基于LLaVA-Med的基础架构和... Ai项目 5个月前02,4550