HART – 麻省理工学院推出的自回归视觉生成模型 HART是什么 HART(Hybrid Autoregressive Transformer)是麻省理工学院研究团队推出的自回归视觉生成模型。能直接生成1024×1024像素的高分辨率图像,质量媲美扩... Ai项目 2周前7,1600
EDTalk – 上海交大联合网易推出高效解耦的情感说话头像合成模型 EDTalk是什么 EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型,能实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一段音频和参考视频,就能驱动图片中的人物说话,支持自定义... Ai项目 2周前7,1500
Scenethesis – 英伟达推出的交互式3D场景生成框架 Scenethesis是什么 Scenethesis 是 NVIDIA 推出的创新框架,用在从文本生成交互式 3D 场景。框架结合大型语言模型(LLM)和视觉感知技术,基于多阶段流程实现高效生成,用 ... Ai项目 2周前7,1400
DeepSeek R1-Zero – DeepSeek推出的开源推理模型,基于纯强化学习训练 DeepSeek R1-Zero是什么 DeepSeek R1-Zero 是 DeepSeek 团队开发的完全依赖纯强化学习(RL)训练的推理模型,未使用任何监督微调(SFT)数据。在推理任务上表现出... Ai项目 2周前7,1250
Sky-T1 – NovaSky 开源的推理 AI 模型,可从零开始复现该模型 Sky-T1是什么 Sky-T1是加州大学伯克利分校Sky Computing实验室的研究团队NovaSky发布的开源推理AI模型,名为Sky-T1-32B-Preview。是首个开源推理模型,训练数... Ai项目 2周前7,1050
VisionFM – 通用眼科AI大模型,具备少样本多种疾病诊断能力 VisionFM是什么 VisionFM(伏羲慧眼)是多模态多任务的视觉基础模型,专为通用眼科人工智能而设计。通过预训练3.4百万张来自560,457个个体的眼科图像,覆盖广泛的眼科疾病、成像模态、设... Ai项目 2周前7,0850
ERA-42 – 星动纪元推出的端到端原生机器人大模型 ERA-42是什么 ERA-42是北京星动纪元推出的端到端原生机器人大模型,与自研的五指灵巧手星动XHAND1结合,能完成100多种复杂灵巧操作任务。ERA-42无需预编程,具备快速学习新技能的能力... Ai项目 2周前7,0800
Gemini 2.0 Flash – Google推出的多模态 AI 模型 Gemini 2.0 Flash是什么 Gemini 2.0 Flash是Google推出的多模态AI模型,结合文本理解和图像生成能力。根据自然语言输入生成高质量的图像,支持多轮对话式的图像编辑,保持... Ai项目 12个月前07,0750
video-subtitle-master – 开源AI字幕生成工具,支持批量为视频或音频生成字幕 video-subtitle-master是什么 video-subtitle-master 是能批量为视频或音频生成字幕的工具,基于开源项目 VideoSubtitleGenerator 开发,支持... Ai项目 12个月前07,0700
II-Agent – Intelligent Internet开源的通用AI Agent框架 II-Agent是什么 II-Agent 是开源的Agent框架,通过与大型语言模型(LLM)的交互,简化和提升跨多个领域的工作流程。具备多种核心功能,包括研究与事实核查、内容生成、数据分析与可视化... Ai项目 2周前7,0550