Ai项目 | AI工具导航 | 前沿AI技术资源 | AGI导航 | ChatGPT插件 | RPA自动化 | 智能体 | AGI工具 | AI硬件 | 第75页

CogVideoX-2 – 智谱 AI 推出的文本到视频生成模型

CogVideoX-2是什么 CogVideoX-2是智谱 AI 推出的文本到视频生成模型，基于先进的 3D 变分自编码器（VAE），将视频数据压缩到原本的 2%，减少资源使用，同时确保视频帧之间的连...

Ai项目

3周前

6,6700

CogView4 – 智谱开源的AI文生图模型，支持生成汉字

CogView4是什么 CogView4 是智谱推出的开源文生图模型，具有60亿参数，支持原生中文输入和中文文字生成。模型在 DPG-Bench 基准测试中综合评分排名第一，达到开源文生图模型的最先进...

Ai项目

3周前

4,8100

llmware – 专为企业级应用设计的开源统一框架

llmware是什么 llmware是为企业级应用设计的统一框架，适用于构建基于小型、专门化模型的RAG（Retrieval-Augmented Generation）流程。llmware支持私有部署...

Ai项目

3周前

5,5900

FilmAgent – 哈工大联合清华推出的AI电影自动化制作工具

FilmAgent是什么 FilmAgent是哈尔滨工业大学（深圳）的研究团队开发的基于多智能体协作框架的虚拟电影制作工具，通过自动化流程实现虚拟3D空间中的端到端电影制作。模拟传统电影工作室的工作流...

Ai项目

3周前

4,7950

Whisper Input – 开源AI语音输入工具，支持多语言实时转录和翻译

Whisper Input是什么 Whisper Input 是开源的语音输入工具，基于 Python 和 OpenAI 的 Whisper 模型开发。通过简单的快捷键操作（如按下 Option 键开...

Ai项目

3周前

5,4500

Fast3R – Meta 联合密歇根大学推出的多视图3D重建方法

Fast3R是什么 Fast3R是Meta和密歇根大学的研究人员提出的新型的多视图3D重建方法，基于Transformer架构，能在一个前向传播过程中处理1000多张图像，实现高效且可扩展的3D重建...

Ai项目

3周前

4,7350

Tarsier2 – 字节跳动推出的视觉理解大模型

Tarsier2是什么 Tarsier2是字节跳动推出的先进的大规模视觉语言模型（LVLM），生成详细且准确的视频描述，在多种视频理解任务中表现出色。模型通过三个关键升级实现性能提升，将预训练数据从1...

Ai项目

3周前

4,7250

VideoLLaMA3 – 阿里达摩院推出的多模态基础模型

VideoLLaMA3是什么 VideoLLaMA3 是阿里巴巴开源的前沿多模态基础模型，专注于图像和视频理解。基于 Qwen 2.5 架构，结合了先进的视觉编码器（如 SigLip）和强大的语言生成...

Ai项目

3周前

5,5150

Baichuan-Omni-1.5 – 百川智能开源的全模态理解模型

Baichuan-Omni-1.5是什么 Baichuan-Omni-1.5是百川智能开源的全模态模型。支持文本、图像、音频和视频的全模态理解，具备文本和音频的双模态生成能力。模型在视觉、语音及多模态...

Ai项目

3周前

5,1900

TeleAI-t1-preview – 中国电信推出的复杂推理大模型

TeleAI-t1-preview是什么 TeleAI-t1-preview是中国电信人工智能研究院发布的“复杂推理大模型”，具备强大的逻辑推理与数学推导能力。通过强化学习训练方法，引入探索、反思等思...

Ai项目

3周前

5,4500