ConsisID – 北大联合鹏城实验室等机构推出的文本到视频生成模型 ConsisID是什么 ConsisID是北京大学和鹏城实验室等机构推出的文本到视频(Text-to-Video, IPT2V)生成模型,基于频率分解技术保持视频中人物身份的一致性。模型用免调优(tu... Ai项目 3周前4,9150
SepLLM – 基于分隔符压缩加速大语言模型的高效框架 SepLLM是什么 SepLLM是香港大学、华为诺亚方舟实验室等机构联合提出的用于加速大语言模型(LLM)的高效框架,通过压缩段落信息并消除冗余标记,显著提高了模型的推理速度和计算效率。SepLLM的... Ai项目 12个月前04,9150
Heygem – 硅基智能推出的开源数字人模型 Heygem是什么 Heygem 是硅基智能推出的开源数字人模型,专为 Windows 系统设计。基于先进的AI技术,仅需 1 秒视频或 1 张照片,能在 30 秒内完成数字人形象和声音克隆,在 60... Ai项目 12个月前04,9150
BILIVE – 开源AI录播工具,一站式自动直播录制与处理 BILIVE是什么 BILIVE 是基于 AI 技术的开源工具,专为 B 站直播录制与处理设计。工具支持自动录制直播、渲染弹幕和字幕,支持语音识别、自动切片精彩片段,生成有趣的标题和风格化的视频封面... Ai项目 3周前4,9100
OpenVision – 加州大学开源的视觉编码器家族 OpenVision是什么 OpenVision是加州大学圣克鲁兹分校(UCSC)推出的完全开放、高效且灵活的高级视觉编码器家族,专注于多模态学习。提供从5.9M到632.1M参数的多种规模模型,适用... Ai项目 3周前4,9100
Paper2Code – AI论文自动转为代码的多智能体框架 Paper2Code是什么 Paper2Code 是韩国科学技术院和DeepAuto.ai联合推出的多 Agent 大语言模型(LLM)框架,支持将机器学习领域的科学论文自动转换为可运行的代码仓库。P... Ai项目 3周前4,9100
TÜLU 3 – Ai2 推出的系列开源指令遵循模型 TÜLU 3是什么 TÜLU 3是艾伦人工智能研究所(Ai2)推出的一系列开源指令遵循模型,包括8B和70B两个版本,未来计划推出405B版本。模型在性能上超越Llama 3.1 Instruct版本... Ai项目 3周前4,9100
Ultravox – 端到端多模态大模型,直接理解文本和人类语音 Ultravox是什么 Ultravox是新型的多模态大型语言模型(LLM),能直接理解文本和人类语音,无需依赖单独的自动语音识别(ASR)阶段。基于多模态投影器技术将音频数据转换为高维空间表示,与L... Ai项目 3周前4,9100
GLM-Realtime – 智谱推出的端到端多模态模型 GLM-Realtime是什么 GLM-Realtime是智谱推出的全新端到端多模态模型,具备低延迟的视频理解与语音交互能力,特别融入清唱功能,让大模型在对话中能展现歌唱才能。模型支持长达2分钟的内容... Ai项目 3周前4,9100
MM-StoryAgent – 上海交大联合阿里开源的多智能体故事绘本视频生成框架 MM-StoryAgent是什么 MM-StoryAgent 是上海交通大学X-LANCE实验室和阿里巴巴集团联合推出的开源多模态、多智能体框架,用在生成沉浸式的有声故事绘本视频。基于结合大型语言模型... Ai项目 12个月前04,9100