Ai项目 | AI工具导航 | 前沿AI技术资源 | AGI导航 | ChatGPT插件 | RPA自动化 | 智能体 | AGI工具 | AI硬件 | 第104页

Browser Use – AI 浏览器助手，自动执行网页中的交互任务

Browser Use是什么 Browser Use是专门为大语言模型服务的智能浏览器工具，创新的Python工具库，让AI代理能像人类一样自然地浏览和操作网页。Browser Use支持多标签页管理...

Ai项目

4周前

4,7700

VideoRefer – 浙大联合阿里达摩学院推出的视频对象感知与推理技术

VideoRefer是什么 VideoRefer是浙江大学和阿里达摩学院联合推出的，专门用在视频中对象的感知和推理。基于增强视频大型语言模型（Video LLMs）的空间-时间理解能力，让模型能在视频...

Ai项目

4周前

4,7700

HoloDrive – 商汤联合上海AI Lab等机构推出的2D-3D多模态街道场景生成框架

HoloDrive是什么 HoloDrive 是商汤和上海人工智能实验室等机构提出的用于自动驾驶的整体2D-3D多模态街道场景生成框架。框架联合生成相机图像和激光雷达点云，填补自动驾驶中2D-3D多模...

Ai项目

4周前

4,7700

Seaweed APT – 字节跳动推出的单步图像和视频生成项目

Seaweed APT是什么 Seaweed APT是字节跳动推出的对抗性后训练（Adversarial Post-Training）模型，能实现图像和视频的一站式生成。Seaweed APT基于预训...

Ai项目

4周前

4,7700

MIDI – AI 3D场景生成技术，能将单张图像转化为360度3D场景

MIDI是什么 MIDI（Multi-Instance Diffusion for Single Image to 3D Scene Generation）是先进的3D场景生成技术，能在短时间内将单张...

Ai项目

1年前

04,7700

F-Lite – Freepik联合FAL开源的文生图模型

F-Lite是什么 F-Lite是Freepik团队联合FAL开源的10B参数的文生图模型。基于Freepik内部80M有版权的数据集训练，支持商业用途。F-Lite将T5-XXL作为文本编码器，基于...

Ai项目

4周前

4,7650

Tarsier2 – 字节跳动推出的视觉理解大模型

Tarsier2是什么 Tarsier2是字节跳动推出的先进的大规模视觉语言模型（LVLM），生成详细且准确的视频描述，在多种视频理解任务中表现出色。模型通过三个关键升级实现性能提升，将预训练数据从1...

Ai项目

4周前

4,7650

VisoMaster – AI换脸和编辑软件，支持图片和视频高质量换脸

VisoMaster是什么 VisoMaster 是基于 AI 技术的换脸和编辑软件，功能强大操作简便。支持图片、视频以及直播换脸，能生成自然逼真的换脸效果，应用于娱乐、影视制作等领域。支持多种输入输...

Ai项目

12个月前

04,7650

GRUtopia 2.0 – 上海 AI Lab 推出的通用具身智能仿真平台

GRUtopia 2.0是什么 GRUtopia 2.0（桃源2.0）是上海人工智能实验室发布的通用具身智能仿真平台。平台在GRUtopia 1.0的基础上进行了全面升级，具备三大核心创新：通用模块化...

Ai项目

1年前

04,7650

OpenBioMed – 清华AIR联合水木分子推出的开源Agent平台

OpenBioMed是什么 OpenBioMed 是清华大学智能产业研究院（AIR）和水木分子共同推出的开源平台，专注于 AI 驱动的生物医学研究。是多模态表征学习工具包，能处理分子、蛋白质、单细胞等...

Ai项目

1年前

04,7650