GLM-4V-Flash – 智谱 AI 推出的首个免费多模态模型API GLM-4V-Flash是什么 GLM-4V-Flash 是智谱AI推出的首个免费多模态模型API,GLM-4V-Flash 模型拥有图像描述生成、图像分类、视觉推理、视觉问答(VQA)以及图像情感分... Ai项目 2个月前1,3850
clone-voice – 开源的声音克隆工具,支持16种语言 clone-voice是什么 Clone-voice是开源的声音克隆工具,基于深度学习技术分析和模拟人类声音,实现声音的高质量克隆。工具支持包括中文、英文、日语、韩语等在内的16种语言,能将文本转换为... Ai项目 2个月前1,2200
SNOOPI – AI文本到图像生成框架,提升单步扩散模型的效率和性能 SNOOPI是什么 SNOOPI是创新的文本到图像生成框架,基于增强单步扩散模型的指导提升模型性能和控制力。SNOOPI包括PG-SB(适当指导 – SwiftBrush)和NASA(负向... Ai项目 2个月前1,1100
MEMO – 音频驱动的生成肖像说话视频框架,保持身份一致性和表现力 MEMO是什么 MEMO(Memory-Guided EMOtionaware diffusion)是Skywork AI、南洋理工大学和新加坡国立大学推出的音频驱动肖像动画框架,用在生成具有身份一致... Ai项目 2个月前1,6100
NVILA – 英伟达推出的视觉语言大模型 NVILA是什么 NVILA是NVIDIA推出的系列视觉语言模型,能平衡效率和准确性。模型用“先扩展后压缩”策略,有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统优化,减少资源消耗,在... Ai项目 2个月前1,1450
O1-CODER – 北交大推出的O1代码版开源项目,专注于编码任务 O1-CODER是什么 O1-CODER是北京交通大学研究团队推出的开源项目,旨在复制OpenAI的O1模型,专注于编码任务。O1-CODER结合强化学习(RL)和蒙特卡洛树搜索(MCTS)技术,提升... Ai项目 2个月前1,4050
SOLAMI – 南洋理工推出的VR端3D角色扮演AI系统 SOLAMI是什么 SOLAMI是创新的VR端3D角色扮演AI系统,是南洋理工大学研究团队推出的。支持用户用语音和肢体语言与虚拟角色进行沉浸式互动,基于社交视觉-语言-行为模型,提供超越传统文本和语音... Ai项目 2个月前1,6300
Florence-VL – 微软和马里兰大学共同开源的多模态大语言模型 Florence-VL是什么 Florence-VL是创新的多模态大型语言模型(MLLMs),是马里兰大学和微软研究院共同推出的。Florence-VL用生成式视觉基础模型Florence-2丰富视觉... Ai项目 2个月前1,3700
OOTDiffusion – 开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物 OOTDiffusion是什么 OOTDiffusion是开源的AI虚拟试衣工具,能智能适配不同性别和体型,自动调整衣物尺寸和形状,生成自然贴合的试穿效果。OOTDiffusion支持半身和全身试穿模... Ai项目 2个月前1,0050
Willow 量子芯片 – 谷歌推出的最强量子芯片,成功解决30年纠错难题 Willow 量子芯片是什么 Willow 量子芯片是谷歌最新推出的具有105个物理量子比特,在量子纠错和计算效率上取得了显著突破。Willow成功解决了量子计算领域近30年的纠错难题,实现了在增加量... Ai项目 2个月前1,3650