RAG-Diffusion – 南京大学推出的区域感知文本到图像生成方法 RAG-Diffusion是什么 RAG-Diffusion是南京大学团队推出的区域感知文本到图像生成方法。基于区域硬绑定和区域软细化两个阶段,实现对图像中各个区域的精确控制和细节优化。RAG-Dif... Ai项目 3周前4,9400
BlueLM-V-3B – ViVo联合香港中文大学推出的算法和系统协同设计方法 BlueLM-V-3B是什么 BlueLM-V-3B是vivo AI Lab和香港中文大学MMLab联合推出的算法和系统协同设计方法,支持高效部署多模态大型语言模型(MLLM)至移动设备。模型以小尺寸... Ai项目 3周前4,9400
NSFW Detector – 开源 AI 不适宜内容检测工具,支持识别图像、PDF、视频文件 NSFW Detector是什么 NSFW Detector(Not Safe For Work,简称 NSFW)是开源的检测不适宜内容工具,NSFW Detector能识别图像、PDF、视频文件中的... Ai项目 3周前4,9400
SOLAMI – 南洋理工推出的VR端3D角色扮演AI系统 SOLAMI是什么 SOLAMI是创新的VR端3D角色扮演AI系统,是南洋理工大学研究团队推出的。支持用户用语音和肢体语言与虚拟角色进行沉浸式互动,基于社交视觉-语言-行为模型,提供超越传统文本和语音... Ai项目 3周前4,9400
MiniCPM-o 2.6 – 面壁智能开源的多模态大模型,性能媲美GPT-4o MiniCPM-o 2.6是什么 MiniCPM-o 2.6 是MiniCPM-o 系列最新、性能最佳的多模态大模型,具有 8B 参数量。MiniCPM-o 2.6在视觉、语音和多模态直播等多个领域表... Ai项目 3周前4,9400
VARGPT – 北大推出的多模态理解生成统一模型 VARGPT是什么 VARGPT是创新的多模态大语言模型,专注于视觉理解和生成任务。基于自回归框架,将视觉生成与理解统一在一个模型中,避免任务切换的复杂性。VARGPT在LLaVA架构基础上进行扩展... Ai项目 12个月前4,9400
Sonic – 腾讯联合浙大推出的音频驱动肖像动画框架 Sonic是什么 Sonic是腾讯和浙江大学推出的音频驱动肖像动画框架,基于全局音频感知生成逼真的面部表情和动作。Sonic基于上下文增强音频学习和运动解耦控制器,分别提取音频片段内的长期时间音频知识... Ai项目 12个月前04,9400
SkyReels-V2 – 昆仑万维开源的无限时长电影生成模型 SkyReels-V2是什么 SkyReels-V2是昆仑万维SkyReels团队推出的无限时长电影生成模型,基于扩散强迫(Diffusion-forcing)框架,结合多模态大语言模型(MLLM... Ai项目 12个月前04,9400
PartGen – 牛津大学联合 Meta AI 推出的3D对象生成和重建框架 PartGen是什么 PartGen是先进的3D对象生成和重建框架,是牛津大学的视觉几何小组和Meta AI共同推出的。PartGen能识别并生成由有意义部分组成的3D对象,3D对象能基于文本提示、图... Ai项目 3周前4,9350
Mini-InternVL – 上海AI Lab联合清华等机构推出的轻量级多模态大模型 Mini-InternVL是什么 Mini-InternVL是“迷你版”书生·万象大模型,是上海AI实验室与清华大学、南京大学等机构联合推出的轻量级多模态大型语言模型系列,包含1B、2B和4B三个参数... Ai项目 3周前4,9350