Ai项目 | AI工具导航 | 前沿AI技术资源 | AGI导航 | ChatGPT插件 | RPA自动化 | 智能体 | AGI工具 | AI硬件 | 第113页

Multi-Speaker – AudioShake 推出的多说话人声分离模型

Multi-Speaker是什么 Multi-Speaker是AudioShake推出的全球首个高分辨率多说话人分离模型。支持将音频中的多个说话人精准分离到不同轨道，解决传统音频工具在处理重叠语音时的...

Ai项目

1年前

04,8500

UniAct – 清华、商汤、北大、上海AI Lab共同推出的具身基础模型框架

UniAct是什么 UniAct 是新型的具身基础模型框架，解决不同机器人之间行为异构性的问题。通过学习通用行为，捕捉不同机器人共享的原子行为特征，消除因物理形态和控制接口差异导致的行为异构性。Uni...

Ai项目

1年前

05,0250

ReCamMaster – 浙大联合快手等推出的视频重渲染框架

ReCamMaster是什么 ReCamMaster 是浙江大学、快手科技等联合推出的视频重渲染框架，能根据新的相机轨迹重新生成视频内容。通过预训练模型和帧维度条件机制，结合多相机同步数据集和相机姿态...

Ai项目

1年前

04,9200

Stable Virtual Camera – Stability AI 等机构推出的 AI 模型，2D图像转3D视频

Stable Virtual Camera是什么 Stable Virtual Camera 是 Stability AI 推出的 AI 模型，能将 2D 图像转换为具有真实深度和透视感的 3D 视频...

Ai项目

1年前

04,3700

Instella – AMD开源的30亿参数系列语言模型

Instella是什么 Instella是AMD推出的系列30亿参数的开源语言模型。模型完全从零开始在AMD Instinct™ MI300X GPU上训练而成，基于自回归Transformer架构...

Ai项目

1年前

07,1750

Maestro – 开源的端到端自动化测试框架

Maestro是什么 Maestro是用在移动和Web应用的端到端自动化测试框架。基于内置的容错能力和延迟容忍机制，解决传统测试中常见的不稳定性和等待问题。Maestro基于声明式语法，支持在yaml...

Ai项目

1年前

04,9150

OLMo 2 32B – Ai2 推出的最新开源语言模型

OLMo 2 32B是什么 OLMo 2 32B 是 Allen Institute for AI（Ai2）推出的最新开源语言模型，是 OLMo 2 系列的重要成果。拥有 320 亿参数，是首个在多技...

Ai项目

1年前

04,7100

InternVL – OpenGVLab 推出的多模态大模型

InternVL是什么 InternVL 是上海人工智能实验室 OpenGVLab 推出的多模态大模型，专注于视觉与语言任务。采用 ViT-MLP-LLM 架构，通过视觉模块（如 InternViT...

Ai项目

1年前

06,0000

Umi-OCR – 免费 OCR 文字识别工具，支持截图、批量图片排版解析

Umi-OCR是什么 Umi-OCR 是免费开源的离线 OCR 文字识别软件。无需联网，解压即用，支持截图、批量图片、PDF 扫描件的文字识别，能识别数学公式、二维码，可生成双层可搜索 PDF。内置多...

Ai项目

1年前

05,4400

Orpheus TTS – 开源AI语音合成系统，支持多种语音风格

Orpheus TTS是什么 Orpheus TTS 是基于 Llama-3b 架构的开源文本到语音（TTS）系统。Orpheus TTS 支持生成自然、富有情感且接近人类水平的语音，具备零样本语音克...

Ai项目

1年前

04,9600