DreamActor-M1 – 字节跳动推出的 AI 图像动画框架 DreamActor-M1是什么 DreamActor-M1是字节跳动推出的先进AI图像动画框架,能将静态人物照片转化为生动的动画视频。采用混合引导机制,结合隐式面部表示、3D头部球体和3D身体骨架等... Ai项目 1年前05,0600
Mini DALL·E 3 – 北京理工联合上海 AI Lab等高校推出的交互式文生图框架 Mini DALL·E 3是什么 Mini DALL·E 3 是北京理工大学、上海AI Lab、清华大学和香港中文大学联合推出的交互式文本到图像(iT2I)框架。基于自然语言与用户进行多轮对话,实现高... Ai项目 1年前06,3050
MoCha – Meta 联合滑铁卢大学推出的端到端对话角色视频生成模型 MoCha是什么 MoCha AI 是 Meta 和滑铁卢大学联合开发的端到端对话角色视频生成模型。能根据文本或语音输入生成带有同步语音和自然动作的完整角色动画。MoCha 采用语音-视频窗口注意力机... Ai项目 1年前06,2750
DeepSeek-GRM – DeepSeek 联合清华推出的通用奖励模型 DeepSeek-GRM是什么 DeepSeek-GRM是DeepSeek和清华大学研究者共同提出的通用奖励模型(Generalist Reward Modeling)。通过点式生成式奖励建模(Poi... Ai项目 1年前05,1400
OlympicArena – 上海交大联合 AI Lab 等推出的多学科认知推理基准测试框架 OlympicArena是什么 OlympicArena是上海交通大学、上海AI Lab、苏州大学和上海交通大学生成式人工智能实验室(GAIR Lab)联合推出的多学科认知推理基准测试框架。Olymp... Ai项目 1年前04,3950
AbletonMCP – AI音乐制作工具,基于MCP支持音轨创建与修改 AbletonMCP是什么 AbletonMCP 是开源项目,基于模型上下文协议(MCP) 将 Ableton Live 与 Claude AI 连接,实现 AI 辅助音乐制作。AbletonMCP ... Ai项目 1年前04,3650
BabelDOC – 开源 AI PDF 翻译工具,专为科学论文翻译设计 BabelDOC是什么 BabelDOC 是开源的智能 PDF 翻译工具,专为科学论文翻译设计。能在原文旁生成翻译文本,形成双语对照,无需切换窗口,方便阅读。能完整保留数学公式、表格和图形,不破坏原文... Ai项目 1年前04,6750
Llama 4 – Meta 开源的多模态系列AI模型,重夺开源王座 Llama 4是什么 Llama 4 是 Meta 开源的多模态系列AI模型。首次采用混合专家(MoE)架构,在训练和推理时计算效率更高。Llama 4 目前有 Scout 和 Maverick 两个... Ai项目 1年前04,5800
OmniTalker – 阿里推出的实时文本驱动说话头像生成框架 OmniTalker是什么 OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术,能同时处理文本、图像、音频和视频等多种模态输入,以流式方式生成自然语音响应。核心架构为 Thinker... Ai项目 1年前05,3700
Seedream 3.0 – 字节推出的 AI 图片生成模型,精准生成复杂中文内容 Seedream 3.0是什么 Seedream 3.0(即梦3.0)是字节跳动推出的AI图片生成模型,模型支持原生 2K 分辨率图像输出,快速生成高品质图像,仅需 3 秒。模型在小字生成与排版、美感... Ai项目 1年前04,6150