EXAONE 3.5 – LG 推出的开源AI模型,擅长长文本处理降低模型幻觉问题 EXAONE 3.5是什么 EXAONE 3.5是LG AI研究院推出的开源AI模型,包含24亿、78亿和320亿参数的三个版本。EXAONE 3.5擅长长文本处理,在基准测试中表现优异,特别是在实际... Ai项目 2个月前1,4150
DrivingDojo – 中科院联合美团推出的交互式驾驶世界模型数据集 DrivingDojo是什么 DrivingDojo是中国科学院自动化研究所与美团无人车团队合作推出的数据集,用在训练和研究复杂的自动驾驶交互式世界模型。数据集包含18,000个视频片段,覆盖完整的驾... Ai项目 2个月前1,1400
FineWeb 2 – Hugging Face推出的多语言预训练数据集 FineWeb 2是什么 FineWeb 2是Hugging Face推出的多语言预训练数据集,覆盖超过1000种语言。FineWeb 2基于定制化的数据管道处理,包括语言识别、去重、内容过滤和PII... Ai项目 2个月前1,3250
Gemini 2.0 – 谷歌推出的原生多模态输入输出 + Agent 为核心的AI模型 Gemini 2.0是什么 Gemini 2.0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini 2.0 Flash是2.0家族第一个模型,以多模态输入输出和Agent技术为核心,速度比 1... Ai项目 2个月前1,8650
书生·万象InternVL 2.5 – 上海 AI Lab 开源的多模态大语言模型系列 书生·万象InternVL 2.5是什么 书生·万象InternVL 2.5是上海AI实验室的OpenGVLab团队推出的开源多模态大型语言模型(MLLM)系列。该系列模型在InternVL 2.0的... Ai项目 2个月前1,1800
ChatTTSPlus – 开源文本转语音工具,ChatTTS扩展版支持语音克隆 ChatTTSPlus是什么 ChatTTSPlus是ChatTTS的扩展版本,增加了TensorRT加速、语音克隆和移动模型部署等功能,提升语音合成的性能和灵活性。在Windows平台上,实现了超过... Ai项目 2个月前2,3600
MMAudio – 基于多模态联合训练实现高质量 AI 音频合成项目 MMAudio是什么 MMAudio是先进视频到音频合成技术,基于多模态联合训练,让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块,确保生成的音频与视频帧精确匹配,实现高度同步。M... Ai项目 2个月前1,4050
Ultravox – 端到端多模态大模型,直接理解文本和人类语音 Ultravox是什么 Ultravox是新型的多模态大型语言模型(LLM),能直接理解文本和人类语音,无需依赖单独的自动语音识别(ASR)阶段。基于多模态投影器技术将音频数据转换为高维空间表示,与L... Ai项目 2个月前1,3100
Project Mariner – 谷歌推出的浏览网站智能体,能帮用户操作表格、在线购物 Project Mariner是什么 Project Mariner 是谷歌 DeepMind 推出的浏览器助手。Project Mariner基于 Gemini 2.0 技术,用 Chrome 扩展... Ai项目 2个月前1,4750
TEN Agent – 开源的实时多模态 AI 代理框架 TEN Agent是什么 TEN Agent是集成OpenAI Realtime API和RTC技术的开源实时多模态AI代理框架。TEN Agent能实现语音、文本、图像的多模态交互,具备天气查询、网... Ai项目 2个月前1,3000