Ai项目 | AI工具导航 | 前沿AI技术资源 | AGI导航 | ChatGPT插件 | RPA自动化 | 智能体 | AGI工具 | AI硬件 | 第86页

ConsisID – 北大联合鹏城实验室等机构推出的文本到视频生成模型

ConsisID是什么 ConsisID是北京大学和鹏城实验室等机构推出的文本到视频（Text-to-Video, IPT2V）生成模型，基于频率分解技术保持视频中人物身份的一致性。模型用免调优（tu...

Ai项目

3周前

4,9150

SepLLM – 基于分隔符压缩加速大语言模型的高效框架

SepLLM是什么 SepLLM是香港大学、华为诺亚方舟实验室等机构联合提出的用于加速大语言模型（LLM）的高效框架，通过压缩段落信息并消除冗余标记，显著提高了模型的推理速度和计算效率。SepLLM的...

Ai项目

12个月前

04,9150

Heygem – 硅基智能推出的开源数字人模型

Heygem是什么 Heygem 是硅基智能推出的开源数字人模型，专为 Windows 系统设计。基于先进的AI技术，仅需 1 秒视频或 1 张照片，能在 30 秒内完成数字人形象和声音克隆，在 60...

Ai项目

12个月前

04,9150

BILIVE – 开源AI录播工具，一站式自动直播录制与处理

BILIVE是什么 BILIVE 是基于 AI 技术的开源工具，专为 B 站直播录制与处理设计。工具支持自动录制直播、渲染弹幕和字幕，支持语音识别、自动切片精彩片段，生成有趣的标题和风格化的视频封面...

Ai项目

3周前

4,9100

OpenVision – 加州大学开源的视觉编码器家族

OpenVision是什么 OpenVision是加州大学圣克鲁兹分校（UCSC）推出的完全开放、高效且灵活的高级视觉编码器家族，专注于多模态学习。提供从5.9M到632.1M参数的多种规模模型，适用...

Ai项目

3周前

4,9100

Paper2Code – AI论文自动转为代码的多智能体框架

Paper2Code是什么 Paper2Code 是韩国科学技术院和DeepAuto.ai联合推出的多 Agent 大语言模型（LLM）框架，支持将机器学习领域的科学论文自动转换为可运行的代码仓库。P...

Ai项目

3周前

4,9100

TÜLU 3 – Ai2 推出的系列开源指令遵循模型

TÜLU 3是什么 TÜLU 3是艾伦人工智能研究所（Ai2）推出的一系列开源指令遵循模型，包括8B和70B两个版本，未来计划推出405B版本。模型在性能上超越Llama 3.1 Instruct版本...

Ai项目

3周前

4,9100

Ultravox – 端到端多模态大模型，直接理解文本和人类语音

Ultravox是什么 Ultravox是新型的多模态大型语言模型（LLM），能直接理解文本和人类语音，无需依赖单独的自动语音识别（ASR）阶段。基于多模态投影器技术将音频数据转换为高维空间表示，与L...

Ai项目

3周前

4,9100

GLM-Realtime – 智谱推出的端到端多模态模型

GLM-Realtime是什么 GLM-Realtime是智谱推出的全新端到端多模态模型，具备低延迟的视频理解与语音交互能力，特别融入清唱功能，让大模型在对话中能展现歌唱才能。模型支持长达2分钟的内容...

Ai项目

3周前

4,9100

MM-StoryAgent – 上海交大联合阿里开源的多智能体故事绘本视频生成框架

MM-StoryAgent是什么 MM-StoryAgent 是上海交通大学X-LANCE实验室和阿里巴巴集团联合推出的开源多模态、多智能体框架，用在生成沉浸式的有声故事绘本视频。基于结合大型语言模型...

Ai项目

12个月前

04,9100