OmAgent – Om AI联合浙大开源的多模态语言代理框架 OmAgent是什么 OmAgent是Om AI和浙江大学滨江研究院联合开源的多模态语言代理框架,能简化设备端智能代理的开发。OmAgent支持可重用的代理组件,助力开发者构建复杂的多模态代理,处理文... Ai项目 5个月前2,1450
T2A-01-HD – 海螺AI海外版推出新的语音模型 T2A-01-HD是什么 T2A-01-HD是海螺AI海外版推出新的语音模型。支持声音克隆,仅需10秒音频即可精准克隆声音,保留情感底色。模型具备智能情感系统,能捕捉语音中的情感细微差别,使语音更生动... Ai项目 5个月前2,1900
Uni-AdaFocus – 清华大学推出通用的高效视频理解框架 Uni-AdaFocus是什么 Uni-AdaFocus是清华大学自动化系的研究团队推出的通用的高效视频理解框架,框架通过自适应聚焦机制,动态调整计算资源的分配,实现对视频内容的高效处理。具体而言,U... Ai项目 5个月前2,6600
AnyStory – 阿里通义推出的高保真个性化文本到图像生成框架 AnyStory是什么 AnyStory是阿里巴巴通义实验室研发的创新文本到图像生成框架,实现单个和多个主体的高保真个性化图像生成。通过“编码-路由”的方法来建模主体个性化问题。在编码阶段,AnySt... Ai项目 5个月前2,2800
SHMT – 阿里达摩院联合武汉理工等机构推出的自监督化妆转移技术 SHMT是什么 SHMT(Self-supervised Hierarchical Makeup Transfer)是阿里巴巴达摩院与武汉理工大学等机构联合研发的先进自监督化妆转移技术。技术通过潜在扩... Ai项目 5个月前2,1300
SmartEraser – 中科大与微软亚洲研究院推出的图像对象移除技术 SmartEraser是什么 SmartEraser是中国科学技术大学与微软亚洲研究院推出的图像编辑技术,专门用在从图像中移除用户指定的对象。SmartEraser基于创新的“掩码区域引导”(Mask... Ai项目 5个月前2,2300
Zerox – 开源的OCR工具,零样本识别多种格式文件 Zerox是什么 Zerox是开源的本地化高精度OCR工具,基于GPT-4o-mini模型,无需提前训练实现零样本识别。Zerox支持PDF、DOCX、图片等多种格式文件,擅长处理扫描版文档及复杂布局... Ai项目 5个月前2,6450
Video Alchemist – AI视频生成模型,具备多主体开放集合个性化能力 Video Alchemist是什么 Video Alchemist是Snap公司等推出的新型视频生成模型,具备多主体、开放集合个性化能力,能根据文本提示和参考图像生成视频,无需在测试时进行优化。模型... Ai项目 5个月前3,2550
PSHuman – 开源的单图像3D人像重建技术,仅需一张照片 PSHuman是什么 PSHuman是先进的单图像3D人像重建技术。基于跨尺度多视图扩散模型,仅需一张照片,能生成高度逼真的3D人像模型,包括精细的面部表情和全身姿态。核心优势在于能同时建模全局形状和... Ai项目 5个月前2,3900
Wear-Any-Way – 阿里拍立淘团队推出自由定制的虚拟试穿框架 Wear-Any-Way是什么 Wear-Any-Way是阿里巴巴拍立淘团队推出的创新的虚拟试穿框架。通过稀疏对应对齐机制,实现了高保真度且可定制的虚拟试穿效果。用户可以生成逼真的试穿图像,通过简单的... Ai项目 5个月前2,2500