Ai项目 | AI工具导航 | 前沿AI技术资源 | AGI导航 | ChatGPT插件 | RPA自动化 | 智能体 | AGI工具 | AI硬件 | 第81页

Lumina-Image 2.0 – 上海 AI Lab 开源的统一图像生成模型

Lumina-Image 2.0是什么 Lumina-Image 2.0 是开源的高效统一图像生成模型，参数量为26亿，基于扩散模型和Transformer架构。在图像生成质量、复杂提示理解和资源效率...

Ai项目

12个月前

05,4250

BEN2 – 自动从图像和视频中移除背景深度学习模型

BEN2是什么 BEN2（Background Erase Network 2）是Prama LLC开发的深度学习模型，专门用于从图像和视频中快速移除背景并提取前景。基于创新的置信度引导抠图（CGM...

Ai项目

12个月前

04,5900

PartEdit – KAUST推出的细粒度图像编辑方法

PartEdit是什么 PartEdit是KAUST推出基于预训练扩散模型的细粒度图像编辑方法。PartEdit基于优化特定的文本标记（称为“部分标记”），让扩散模型精准定位和编辑图像中对象的各个部分...

Ai项目

12个月前

04,7900

Agentic Object Detection – 吴恩达团队推出的Agent目标检测技术

Agentic Object Detection是什么 Agentic Object Detection 是吴恩达团队开发的新型目标检测技术，通过智能代理（Agent）系统实现无需标注数据的目标检测...

Ai项目

12个月前

05,4500

Agno – 用于构建多模态智能体的轻量级框架

Agno是什么 Agno是构建智能代理（Agents）的轻量级框架。Agno 支持多模态（文本、图像、音频、视频）和多代理协作，能快速创建代理，速度比 LangGraph 快 5000 倍，支持任何模...

Ai项目

12个月前

04,5950

Ola – 清华联合腾讯等推出的全模态语言模型

Ola是什么 Ola是清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型。通过渐进式模态对齐策略，逐步扩展语言模型支持的模态，从图像和文本开始，再引入语音和...

Ai项目

12个月前

05,0200

AlphaGeometry2 – 谷歌 DeepMind 推出解决复杂几何问题的AI系统

AlphaGeometry2是什么 AlphaGeometry2 是谷歌 DeepMind 推出的先进的人工智能系统，专门用于解决国际数学奥林匹克竞赛（IMO）中的几何问题。结合了神经符号方法，将谷歌...

Ai项目

12个月前

04,0950

EliGen – 浙大联合阿里推出的新型实体级可控图像生成框架

EliGen是什么 EliGen是浙江大学和阿里巴巴集团联合开发的新型的实体级可控图像生成框架，通过引入区域注意力机制，无需额外参数即可将实体提示和任意形状的空间掩码无缝集成到扩散变换器中。EliGe...

Ai项目

12个月前

04,4150

Hibiki – Kyutai Labs 推出的实时语音翻译模型

Hibiki是什么 Hibiki是Kyutai Labs开源的用在同时语音翻译的解码器模型，能实时将一种语言的语音翻译成另一种语言的语音或文本。Hibiki基于多流语言模型架构，同步处理源语音和目标语...

Ai项目

12个月前

04,5800

HMA – MIT联合Meta等推出的机器人动作视频动态建模方法

HMA是什么 HMA（Heterogeneous Masked Autoregression）是麻省理工学院、Meta和伊利诺伊大学香槟分校开源的，用在建模机器人动作视频动态的方法。HMA基于异构预训...

Ai项目

12个月前

04,7800