Uni-AdaFocus – 清华大学推出通用的高效视频理解框架 Uni-AdaFocus是什么 Uni-AdaFocus是清华大学自动化系的研究团队推出的通用的高效视频理解框架,框架通过自适应聚焦机制,动态调整计算资源的分配,实现对视频内容的高效处理。具体而言,U... Ai项目 2周前4,3800
T2A-01-HD – 海螺AI海外版推出新的语音模型 T2A-01-HD是什么 T2A-01-HD是海螺AI海外版推出新的语音模型。支持声音克隆,仅需10秒音频即可精准克隆声音,保留情感底色。模型具备智能情感系统,能捕捉语音中的情感细微差别,使语音更生动... Ai项目 2周前6,0500
OmAgent – Om AI联合浙大开源的多模态语言代理框架 OmAgent是什么 OmAgent是Om AI和浙江大学滨江研究院联合开源的多模态语言代理框架,能简化设备端智能代理的开发。OmAgent支持可重用的代理组件,助力开发者构建复杂的多模态代理,处理文... Ai项目 2周前6,2050
Seaweed APT – 字节跳动推出的单步图像和视频生成项目 Seaweed APT是什么 Seaweed APT是字节跳动推出的对抗性后训练(Adversarial Post-Training)模型,能实现图像和视频的一站式生成。Seaweed APT基于预训... Ai项目 2周前4,5000
XMusic – 腾讯多媒体实验室自主研发的AI通用作曲框架 XMusic是什么 XMusic是腾讯多媒体实验室自主研发的AI通用作曲框架。用户只需上传视频、图片、文字、标签、哼唱等任意内容,XMusic能生成情绪、曲风、节奏可控的高质量音乐。基于自研的多模态和... Ai项目 2周前4,6150
MatterGen – 微软推出的无机材料生成模型 MatterGen是什么 MatterGen是微软推出的创新生成模型,专门用在设计无机材料。基于独特的扩散过程,逐步细化原子类型、坐标和周期晶格,生成跨越周期表的稳定、多样化的无机材料。MatterG... Ai项目 2周前5,0900
ParGo – 字节与中山大学联合推出的多模态大模型连接器 ParGo是什么 ParGo是字节团队与中山大学合作提出的创新的多模态大语言模型连接器,提升视觉和语言模态在多模态大语言模型(MLLMs)中的对齐效果。通过结合局部token和全局token,使用精心... Ai项目 2周前4,3700
Weebo – AI语音聊天机器人,实时响应用户语音指令和问题 Weebo是什么 Weebo是实时语音聊天机器人,基于Whisper Small、Llama 3.2和Kokoro-82M技术驱动。能通过语音识别和生成技术,与用户进行自然流畅的对话,提供实时的语音交... Ai项目 2周前6,7400
Mini-InternVL – 上海AI Lab联合清华等机构推出的轻量级多模态大模型 Mini-InternVL是什么 Mini-InternVL是“迷你版”书生·万象大模型,是上海AI实验室与清华大学、南京大学等机构联合推出的轻量级多模态大型语言模型系列,包含1B、2B和4B三个参数... Ai项目 2周前4,9050
CogVideoX-Flash – 智谱推出的首个免费AI视频生成模型 CogVideoX-Flash是什么 CogVideoX-Flash 是智谱推出的首个免费AI视频生成模型,继承CogVideoX自研的端到端视频理解模型,具备强大的视频生成能力。CogVideoX... Ai项目 2周前4,6750