Ai项目 | AI工具导航 | 前沿AI技术资源 | AGI导航 | ChatGPT插件 | RPA自动化 | 智能体 | AGI工具 | AI硬件 | 第29页

3D-Speaker – 阿里通义推出的多模态说话人识别任务开源项目

3D-Speaker是什么 3D-Speaker是阿里巴巴通义实验室语音团队推出的多模态开源项目，基于结合声学、语义、视觉信息，实现高精度的说话人识别和语种识别。3D-Speaker提供工业级模型、训...

Ai项目

2周前

5,4200

LeviTor – 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术

LeviTor是什么 LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术，结合深度信息和K-means聚类点控制视频中3D物体的轨迹，无需显式的3D轨迹跟踪。LeviTor用高...

Ai项目

2周前

4,4500

AgentScope – 阿里开源的多智能体开发平台

AgentScope是什么 AgentScope是阿里巴巴集团开源的多智能体开发平台，帮助开发者轻松构建和部署多智能体应用。AgentScope提供高易用性、高鲁棒性和分布式支持，内置多种模型API和...

Ai项目

2周前

7,7650

MetaMorph – 统一多模态理解与生成大模型，基于VPiT 预测多模态 token

MetaMorph是什么 MetaMorph是多模态大模型（MLLM），通过指令微调（Instruction Tuning）实现视觉理解和生成。它提出了一种名为Visual-Predictive In...

Ai项目

2周前

5,4200

VisionFM – 通用眼科AI大模型，具备少样本多种疾病诊断能力

VisionFM是什么 VisionFM（伏羲慧眼）是多模态多任务的视觉基础模型，专为通用眼科人工智能而设计。通过预训练3.4百万张来自560,457个个体的眼科图像，覆盖广泛的眼科疾病、成像模态、设...

Ai项目

2周前

7,0850

INFP – 音频驱动的生成逼真面部表情和头部姿态的AI框架

INFP是什么 INFP是音频驱动的头部生成框架，专为双人对话交互设计。能自动在对话音频引导下进行角色的转换，无需手动分配角色和角色切换。INFP包括两个阶段：基于动作头部模仿阶段和音频引导动作生成阶...

Ai项目

2周前

6,6700

PromptWizard – 微软开源的 AI 提示词自动化优化框架

PromptWizard PromptWizard是微软推出的自动化提示优化框架，改进大型语言模型（LLMs）在特定任务中的表现。基于自我演变和自我适应机制，PromptWizard用反馈驱动的批评和...

Ai项目

2周前

5,2500

RWKV-7 – RWKV系列的最新大模型架构版本，有强大的上下文学习能力

RWKV-7是什么 RWKV-7是RWKV系列的最新大模型架构版本，超越了传统的attention和linear attention范式，具有更灵活的状态演化能力，能在相同算力消耗下解决attenti...

Ai项目

2周前

4,9300

StyleStudio – 文本驱动的风格迁移模型，能将参考图像的风格与文本提示内容融合

StyleStudio是什么 StyleStudio是西湖大学AI实验室、复旦大学、南洋理工大学和香港科技大学（广州）联合推出的，文本驱动的风格迁移模型，能将参考图像的风格与文本提示的内容融合。Sty...

Ai项目

2周前

4,9550

OpenAI o3 – OpenAI推出的新一代最强推理模型

OpenAI o3是什么 OpenAI o3模型是继o1之后的新一代推理模型，是 OpenAI 首次将图像推理融入思维链的模型，能直接在思维链中思考图像。用户可以上传模糊、颠倒或低质量的图像，模型依然...

Ai项目

2周前

4,9700