Ai项目 | AI工具导航 | 前沿AI技术资源 | AGI导航 | ChatGPT插件 | RPA自动化 | 智能体 | AGI工具 | AI硬件 | 第21页

MoshiVis – Kyutai 开源的多模态实时语音模型

MoshiVis是什么 MoshiVis 是 Kyutai 推出的开源多模态语音模型，基于 Moshi 实时对话语音模型开发，增加了视觉输入功能。能实现图像的自然、实时语音交互，将语音和视觉信息相结合...

Ai项目

12个月前

06,1800

Genesis – CMU 联合 20 多所研究机构开源的生成式物理引擎

Genesis是什么 Genesis是卡内基梅隆大学、马里兰大学、斯坦福大学、麻省理工学院等研究机构联合推出的开源生成式物理引擎，能模拟世界万物。Genesis能用简单的语言描述，快速生成精确的物理模...

Ai项目

2周前

6,1650

Seed1.5-Embedding – 字节跳动 Seed 团队推出的向量模型

Seed1.5-Embedding是什么 Seed1.5-Embedding 是字节跳动 Seed 团队最新发布的向量模型，基于 Seed1.5 (Doubao-1.5-pro) 进一步训练。模型在权...

Ai项目

2周前

6,1600

Gemini Robotics – 谷歌 DeepMind 推出的具身智能大模型

Gemini Robotics是什么 Gemini Robotics 是谷歌 DeepMind 推出的基于 Gemini 2.0 的机器人项目，将大型多模态模型的能力引入物理世界。项目包含两个主要模型...

Ai项目

12个月前

06,1600

Emotion-LLaMA – 多模态情绪识别与推理模型，融合音频、视觉和文本输入

Emotion-LLaMA是什么 Emotion-LLaMA是多模态情绪识别与推理模型，融合了音频、视觉和文本输入，通过特定情绪编码器整合信息。模型基于修改版LLaMA，经指令调整以提升情感识别能力...

Ai项目

2周前

6,1500

Markdown-to-Image – 开源的在线 Markdown 转海报编辑器

Markdown-to-Image是什么 Markdown-to-Image是开源的Markdown 转海报编辑器，作为React组件能将Markdown文本内容转换成图像，适用于创建社交媒体帖子、海...

Ai项目

2周前

6,1450

Delta-CoMe – 清华联合 OpenBMB 等高校开源的新型增量压缩算法

Delta-CoMe是什么 Delta-CoMe是清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法，一个80G的A100 GPU能轻松加载多达50个7B模型...

Ai项目

2周前

6,1450

CausVid – Adobe 联合 MIT 推出的自回归实时视频生成技术

CausVid是什么 CausVid是Adobe和MIT共同推出的自回归实时视频生成技术，能实现视频的即时播放。基于蒸馏预训练的双向扩散模型构建出自回归生成模型，减少视频生成的延迟，首帧延迟仅1.3秒...

Ai项目

2周前

6,1450

LongAlign – 港大推出的提升文本到图像扩散模型处理长文本对齐方法

LongAlign是什么 LongAlign是香港大学研究团队推出的文本到图像（T2I）扩散模型的改进方法，能提升长文本输入的对齐精度。LongAlign用段级编码技术，将长文本分割处理，适应编码模型...

Ai项目

2周前

6,1400

GeneMAN – 上海AI Lab联合北大等高校推出的3D人体模型创建框架

GeneMAN是什么 GeneMAN是上海AI实验室、北京大学、南洋理工大学、上海交通大学联合推出的3D人形创建框架，能从单张图片中创建出高保真度的3D人体模型。框架不依赖于参数化人体模型，是用多源高...

Ai项目

2周前

6,1350