MoshiVis – Kyutai 开源的多模态实时语音模型 MoshiVis是什么 MoshiVis 是 Kyutai 推出的开源多模态语音模型,基于 Moshi 实时对话语音模型开发,增加了视觉输入功能。能实现图像的自然、实时语音交互,将语音和视觉信息相结合... Ai项目 12个月前06,1800
Genesis – CMU 联合 20 多所研究机构开源的生成式物理引擎 Genesis是什么 Genesis是卡内基梅隆大学、马里兰大学、斯坦福大学、麻省理工学院等研究机构联合推出的开源生成式物理引擎,能模拟世界万物。Genesis能用简单的语言描述,快速生成精确的物理模... Ai项目 2周前6,1650
Seed1.5-Embedding – 字节跳动 Seed 团队推出的向量模型 Seed1.5-Embedding是什么 Seed1.5-Embedding 是字节跳动 Seed 团队最新发布的向量模型,基于 Seed1.5 (Doubao-1.5-pro) 进一步训练。模型在权... Ai项目 2周前6,1600
Gemini Robotics – 谷歌 DeepMind 推出的具身智能大模型 Gemini Robotics是什么 Gemini Robotics 是谷歌 DeepMind 推出的基于 Gemini 2.0 的机器人项目,将大型多模态模型的能力引入物理世界。项目包含两个主要模型... Ai项目 12个月前06,1600
Emotion-LLaMA – 多模态情绪识别与推理模型,融合音频、视觉和文本输入 Emotion-LLaMA是什么 Emotion-LLaMA是多模态情绪识别与推理模型,融合了音频、视觉和文本输入,通过特定情绪编码器整合信息。模型基于修改版LLaMA,经指令调整以提升情感识别能力... Ai项目 2周前6,1500
Markdown-to-Image – 开源的在线 Markdown 转海报编辑器 Markdown-to-Image是什么 Markdown-to-Image是开源的Markdown 转海报编辑器,作为React组件能将Markdown文本内容转换成图像,适用于创建社交媒体帖子、海... Ai项目 2周前6,1450
Delta-CoMe – 清华联合 OpenBMB 等高校开源的新型增量压缩算法 Delta-CoMe是什么 Delta-CoMe是清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法,一个80G的A100 GPU能轻松加载多达50个7B模型... Ai项目 2周前6,1450
CausVid – Adobe 联合 MIT 推出的自回归实时视频生成技术 CausVid是什么 CausVid是Adobe和MIT共同推出的自回归实时视频生成技术,能实现视频的即时播放。基于蒸馏预训练的双向扩散模型构建出自回归生成模型,减少视频生成的延迟,首帧延迟仅1.3秒... Ai项目 2周前6,1450
LongAlign – 港大推出的提升文本到图像扩散模型处理长文本对齐方法 LongAlign是什么 LongAlign是香港大学研究团队推出的文本到图像(T2I)扩散模型的改进方法,能提升长文本输入的对齐精度。LongAlign用段级编码技术,将长文本分割处理,适应编码模型... Ai项目 2周前6,1400
GeneMAN – 上海AI Lab联合北大等高校推出的3D人体模型创建框架 GeneMAN是什么 GeneMAN是上海AI实验室、北京大学、南洋理工大学、上海交通大学联合推出的3D人形创建框架,能从单张图片中创建出高保真度的3D人体模型。框架不依赖于参数化人体模型,是用多源高... Ai项目 2周前6,1350