SigLIP 2 – 谷歌 DeepMind 推出的多语言视觉语言编码器模型 SigLIP 2是什么 SigLIP 2 是Google DeepMind 提出先进的多语言视觉-语言模型 ,是 SigLIP 的升级版本,提升图像与文本之间的对齐能力。通过改进的训练方法和架构,显著... Ai项目 5个月前03,1700
Chat2SVG – 文本描述实现高质量矢量图形的生成框架 Chat2SVG是什么 Chat2SVG 是创新的文本到矢量图形(SVG)生成框架,通过结合大型语言模型(LLMs)和图像扩散模型,实现高质量 SVG 图形的自动化创作。通过多阶段流程,首先基于 LL... Ai项目 5个月前03,1650
SNOOPI – AI文本到图像生成框架,提升单步扩散模型的效率和性能 SNOOPI是什么 SNOOPI是创新的文本到图像生成框架,基于增强单步扩散模型的指导提升模型性能和控制力。SNOOPI包括PG-SB(适当指导 – SwiftBrush)和NASA(负向... Ai项目 5个月前3,1600
Cooragent – 清华 LeapLab 开源的 AI Agent 协作框架 Cooragent是什么 Cooragent是由清华大学LeapLab团队推出的开源AI Agent协作框架。用户基于简单的一句话描述快速创建Agent,支持Agent之间的协作,完成复杂任务。Coo... Ai项目 5个月前3,1550
OpenThinker-32B – 斯坦福、UC 伯克利等机构联合开源的推理模型 OpenThinker-32B是什么 OpenThinker-32B 是斯坦福、UC 伯克利、华盛顿大学等机构联合开发的开源推理模型,拥有 328 亿参数,支持 16,000 token 的上下文长度... Ai项目 5个月前03,1500
Video Alchemist – AI视频生成模型,具备多主体开放集合个性化能力 Video Alchemist是什么 Video Alchemist是Snap公司等推出的新型视频生成模型,具备多主体、开放集合个性化能力,能根据文本提示和参考图像生成视频,无需在测试时进行优化。模型... Ai项目 5个月前3,1450
Scenethesis – 英伟达推出的交互式3D场景生成框架 Scenethesis是什么 Scenethesis 是 NVIDIA 推出的创新框架,用在从文本生成交互式 3D 场景。框架结合大型语言模型(LLM)和视觉感知技术,基于多阶段流程实现高效生成,用 ... Ai项目 4个月前3,1400
GenCast – 谷歌DeepMind推出的AI气象预测模型 GenCast是什么 GenCast是DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。GenCast在97.2%的预测任务中超越全球顶尖的中期天气预报系统... Ai项目 5个月前3,1400
SEMIKONG – 专为半导体领域设计的大型语言模型 SEMIKONG是什么 SEMIKONG是专门为半导体行业定制的大型语言模型(LLM),是Aitomatic、FPT Software和东京电子有限公司联合推出的。基于深入的领域知识,解决半导体制造和... Ai项目 5个月前3,1350
OpenDeepSearch – AI搜索工具,支持深度网络搜索和信息检索 OpenDeepSearch是什么 OpenDeepSearch 是开源的深度搜索工具,基于开源推理模型和推理代理提升搜索性能,专为 Hugging Face 的 SmolAgents 无缝集成进行优... Ai项目 5个月前03,1350