Browser Use – AI 浏览器助手,自动执行网页中的交互任务 Browser Use是什么 Browser Use是专门为大语言模型服务的智能浏览器工具,创新的Python工具库,让AI代理能像人类一样自然地浏览和操作网页。Browser Use支持多标签页管理... Ai项目 4周前4,7700
VideoRefer – 浙大联合阿里达摩学院推出的视频对象感知与推理技术 VideoRefer是什么 VideoRefer是浙江大学和阿里达摩学院联合推出的,专门用在视频中对象的感知和推理。基于增强视频大型语言模型(Video LLMs)的空间-时间理解能力,让模型能在视频... Ai项目 4周前4,7700
HoloDrive – 商汤联合上海AI Lab等机构推出的2D-3D多模态街道场景生成框架 HoloDrive是什么 HoloDrive 是商汤和上海人工智能实验室等机构提出的用于自动驾驶的整体2D-3D多模态街道场景生成框架。框架联合生成相机图像和激光雷达点云,填补自动驾驶中2D-3D多模... Ai项目 4周前4,7700
Seaweed APT – 字节跳动推出的单步图像和视频生成项目 Seaweed APT是什么 Seaweed APT是字节跳动推出的对抗性后训练(Adversarial Post-Training)模型,能实现图像和视频的一站式生成。Seaweed APT基于预训... Ai项目 4周前4,7700
MIDI – AI 3D场景生成技术,能将单张图像转化为360度3D场景 MIDI是什么 MIDI(Multi-Instance Diffusion for Single Image to 3D Scene Generation)是先进的3D场景生成技术,能在短时间内将单张... Ai项目 1年前04,7700
F-Lite – Freepik联合FAL开源的文生图模型 F-Lite是什么 F-Lite是Freepik团队联合FAL开源的10B参数的文生图模型。基于Freepik内部80M有版权的数据集训练,支持商业用途。F-Lite将T5-XXL作为文本编码器,基于... Ai项目 4周前4,7650
Tarsier2 – 字节跳动推出的视觉理解大模型 Tarsier2是什么 Tarsier2是字节跳动推出的先进的大规模视觉语言模型(LVLM),生成详细且准确的视频描述,在多种视频理解任务中表现出色。模型通过三个关键升级实现性能提升,将预训练数据从1... Ai项目 4周前4,7650
VisoMaster – AI换脸和编辑软件,支持图片和视频高质量换脸 VisoMaster是什么 VisoMaster 是基于 AI 技术的换脸和编辑软件,功能强大操作简便。支持图片、视频以及直播换脸,能生成自然逼真的换脸效果,应用于娱乐、影视制作等领域。支持多种输入输... Ai项目 12个月前04,7650
GRUtopia 2.0 – 上海 AI Lab 推出的通用具身智能仿真平台 GRUtopia 2.0是什么 GRUtopia 2.0(桃源2.0)是上海人工智能实验室发布的通用具身智能仿真平台。平台在GRUtopia 1.0的基础上进行了全面升级,具备三大核心创新:通用模块化... Ai项目 1年前04,7650
OpenBioMed – 清华AIR联合水木分子推出的开源Agent平台 OpenBioMed是什么 OpenBioMed 是清华大学智能产业研究院(AIR)和水木分子共同推出的开源平台,专注于 AI 驱动的生物医学研究。是多模态表征学习工具包,能处理分子、蛋白质、单细胞等... Ai项目 1年前04,7650