RAG-Diffusion – 南京大学推出的区域感知文本到图像生成方法 RAG-Diffusion是什么 RAG-Diffusion是南京大学团队推出的区域感知文本到图像生成方法。基于区域硬绑定和区域软细化两个阶段,实现对图像中各个区域的精确控制和细节优化。RAG-Dif... Ai项目 5个月前2,8300
UniReal – 港大联合 Adobe 推出的通用图像生成和编辑框架 UniReal是什么 UniReal是香港大学和Adobe研究院共同推出的框架,专注于实现多种图像生成和编辑任务。框架基于模拟现实世界动态,能在单一模型中处理包括图像生成、编辑、定制和合成在内的广泛任... Ai项目 5个月前2,8300
Mistral Small 3 – Mistral AI 推出的开源大语言模型 Mistral Small 3是什么 Mistral Small 3 是 Mistral AI 发布的开源大型语言模型,有240亿参数,基于 Apache 2.0 许可证开源。专为低延迟任务设计,支持... Ai项目 5个月前2,8300
OpenUtau – 开源的AI歌声合成工具,自动适配系统语言 OpenUtau是什么 OpenUtau 是开源的歌声合成工具,兼容 UTAU 音源库和重采样器,支持 VSQX 导入、多语言界面及预渲染功能,帮助创作者快速预览作品节省时间。OpenUtau现代化的... Ai项目 5个月前02,8300
SAM 2.1 – Meta 开源的视觉分割模型 SAM 2.1是什么 SAM 2.1(全称Segment Anything Model 2.1)是Meta(Facebook的母公司)推出的先进视觉分割模型,用于图像和视频。基于简单的Transfor... Ai项目 5个月前2,8250
Open Avatar Chat – 阿里开源的实时数字人对话系统 Open Avatar Chat是什么 Open Avatar Chat 是阿里开源的模块化的实时数字人对话系统,支持在单台电脑上运行完整的功能。Open Avatar Chat 支持低延迟的实时对话... Ai项目 5个月前2,8200
The Language of Motion – 斯坦福李飞飞团队推出的统一多模态语言模型 The Language of Motion是什么 The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言模型,能整合人类动作中的言语和非言语语言。模型能处理文本、语音和动... Ai项目 5个月前2,8150
VideoChat-Flash – 上海 AI Lab 等机构推出针对长视频建模的多模态大模型 VideoChat-Flash是什么 VideoChat-Flash 是上海人工智能实验室和南京大学等机构联合开发的针对长视频建模的多模态大语言模型(MLLM),模型通过分层压缩技术(HiCo)高效处... Ai项目 5个月前2,8150
DisPose – 北大等多所高校推出的增强人物图像控制动画质量的技术 DisPose是什么 DisPose是北京大学、中国科学技术大学、清华大学和香港科技大学的研究团队共同推出的,提高人物图像动画质量的控制技术,基于从骨骼姿态和参考图像中提取有效的控制信号,无需额外的密... Ai项目 5个月前2,8100
FoloUp – 开源AI语音面试平台,自动生成定制化面试问题 FoloUp是什么 FoloUp 是开源的AI语音面试平台,能帮助企业高效地进行招聘面试。FoloUp能根据职位描述自动生成定制化的面试问题,基于AI技术与候选人进行自然、对话式的语音面试。平台能实时... Ai项目 5个月前02,8100