WhisperChain – AI实时语音转文字工具,自动对文本进行清理和优化 WhisperChain是什么 WhisperChain 是开源的语音识别工具,基于语音输入提升工作效率。WhisperChain用 Whisper.cpp 实现实时语音识别,将语音转换为文本,基于 ... Ai项目 5个月前02,4400
TEN Agent – 开源的实时多模态 AI 代理框架 TEN Agent是什么 TEN Agent是集成OpenAI Realtime API和RTC技术的开源实时多模态AI代理框架。TEN Agent能实现语音、文本、图像的多模态交互,具备天气查询、网... Ai项目 5个月前2,4350
RDT – 清华开源的双臂机器人扩散基础模型 RDT是什么 RDT(Robotics Diffusion Transformer)是清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量,能在无需人类... Ai项目 5个月前2,4350
EMO2 – 阿里研究院推出的音频驱动头像视频生成技术 EMO2是什么 EMO2 (End-Effector Guided Audio-Driven Avatar Video Generation)是阿里巴巴智能计算研究院开发的音频驱动头像视频生成技术,全... Ai项目 5个月前2,4350
ASAP – 卡内基梅隆大学联合英伟达推出的模拟与真实物理对齐框架 ASAP是什么 ASAP(Aligning Simulation and Real Physics)是卡内基梅隆大学和英伟达联合推出的,用在解决仿人机器人模拟与现实动力学不匹配问题的两阶段框架。ASA... Ai项目 5个月前2,4350
Magic 1-For-1 – 北大、英伟达等推出的高效视频生成模型 Magic 1-For-1是什么 Magic 1-For-1是北京大学、Hedra Inc. 和 Nvidia 推出的高效视频生成模型,基于优化内存消耗和推理延迟快速生成高质量视频片段。模型将复杂的文... Ai项目 5个月前02,4350
Mistral Saba – Mistral AI 推出的首个专业区域语言模型 Mistral Saba是什么 Mistral Saba 是法国 Mistral AI 推出的专注于中东和南亚地区语言及文化的区域定制 AI 模型。模型拥有 240 亿参数,规模虽小,在处理阿拉伯语和... Ai项目 5个月前02,4350
PP-DocBee – 百度飞桨推出的文档图像理解多模态大模型 PP-DocBee是什么 PP-DocBee是百度飞桨(PaddlePaddle)团队推出的专注于文档图像理解的多模态大模型。基于ViT+MLP+LLM架构,具备强大的中文文档解析能力,能高效处理文字... Ai项目 5个月前02,4350
Chirp 3 – 谷歌云推出的高清语音合成模型 Chirp 3是什么 Chirp 3 是谷歌云推出的高清语音合成模型,专为生成自然、生动的语音而设计。支持 248 种声音和 31 种语言,能捕捉人类语调的细微差别,语音输出更加贴近真实人类发音。通过... Ai项目 5个月前02,4350
UniAct – 清华、商汤、北大、上海AI Lab共同推出的具身基础模型框架 UniAct是什么 UniAct 是新型的具身基础模型框架,解决不同机器人之间行为异构性的问题。通过学习通用行为,捕捉不同机器人共享的原子行为特征,消除因物理形态和控制接口差异导致的行为异构性。Uni... Ai项目 5个月前02,4350