Lipsync-2 – Sync Labs 推出的首个零-shot 嘴型同步模型 Lipsync-2是什么 Lipsync-2 是 Sync Labs 推出的全球首个零-shot 嘴型同步模型。无需针对特定演讲者进行预训练,能即时学习并生成符合独特说话风格的嘴型同步效果。模型在真实... Ai项目 1年前04,6100
EasyControl – Tiamat AI 联合上海科大等开源的图像生成控制框架 EasyControl是什么 EasyControl 是 Tiamat AI 开源的基于扩散变换器(Diffusion Transformer,DiT)架构的高效灵活控制框架,通过轻量级条件注入 Lo... Ai项目 1年前06,4400
OmniSVG – 复旦大学联合 StepFun 推出端到端多模态矢量图形生成模型 OmniSVG是什么 OmniSVG 是复旦大学和 StepFun 联合开发的全球首个端到端多模态 SVG(可缩放矢量图形)生成模型。基于预训练视觉语言模型(VLM),通过创新的 SVG 标记化方法... Ai项目 1年前04,9100
A2A – 谷歌开源的首个标准智能体交互协议 A2A是什么 A2A(Agent2Agent Protocol)是谷歌开源的首个标准智能体交互协议,让不同框架和供应商构建的AI智能体相互协作。A2A基于标准化的通信方式,打破系统孤岛,让智能体安全地... Ai项目 1年前05,3800
DCEdit – 北交大联合美图推出的双层控制图像编辑方法 DCEdit是什么 DCEdit 是新型的双层控制图像编辑方法,是北京交通大学和美图2MT实验室联合推出的。DCEdit基于精确语义定位策略(PSL),用视觉和文本自注意力优化交叉注意力图,提供更精准... Ai项目 1年前05,6300
LocAgent – 斯坦福联合耶鲁大学等机构推出的代码问题定位智能体 LocAgent是什么 LocAgent是斯坦福大学、耶鲁大学和南加州大学等机构联合推出的,专注于代码定位任务的框架,帮助开发者快速准确地找到代码库中需要修改的部分。LocAgent将代码库解析为有向... Ai项目 1年前04,4900
Multi-SWE-bench – 字节豆包开源的多语言代码修复基准 Multi-SWE-bench是什么 Multi-SWE-bench 是字节跳动豆包大模型团队开源的首个多语言代码修复基准。在SWE-bench基础上,首次覆盖Python之外的7种主流编程语言,包括... Ai项目 1年前05,1000
Gemini 2.5 Flash – 谷歌推出的最新 AI 推理模型 Gemini 2.5 Flash是什么 Gemini 2.5 Flash 是 Google 推出的高效、低延迟的最新 AI 模型,基于 Gemini 2.5 模型构建。Gemini 2.5 Flash... Ai项目 1年前04,9300
DevDocs – 开源的技术文档爬取和处理工具 DevDocs是什么 DevDocs 是专为程序员和开发者设计的开源技术文档爬取和处理工具,基于智能爬虫技术,快速爬取、整理技术文档,将理解文档的时间从数周缩短至几小时。DevDocs支持1-5层深度... Ai项目 1年前06,7050
AutoRAG – Cloudflare 推出的全托管检索增强生成服务 AutoRAG是什么 AutoRAG 是Cloudflare推出的全托管的检索增强生成(RAG)管道,帮助开发者轻松将上下文感知的 AI 集成到应用程序中,无需管理基础设施。Cloudflare Au... Ai项目 1年前05,1150