Seedream 2.0 – 字节豆包推出的原生中英双语图像生成模型 Seedream 2.0是什么 Seedream 2.0 是字节跳动豆包大模型团队推出的原生中英双语图像生成模型,解决现有模型在文本渲染、文化理解等方面的不足。模型通过自研的双语大语言模型(LLM)作... Ai项目 12个月前04,4100
PP-DocBee – 百度飞桨推出的文档图像理解多模态大模型 PP-DocBee是什么 PP-DocBee是百度飞桨(PaddlePaddle)团队推出的专注于文档图像理解的多模态大模型。基于ViT+MLP+LLM架构,具备强大的中文文档解析能力,能高效处理文字... Ai项目 12个月前04,9850
BEHAVIOR Robot Suite – 李飞飞团队开源的机器人家庭任务自动化框架 BEHAVIOR Robot Suite是什么 BEHAVIOR Robot Suite(BRS)是斯坦福大学李飞飞团队推出的用在学习全身操作完成日常家务任务的框架。基于分析家务活动,确定机器人需要具... Ai项目 12个月前05,8750
MM-StoryAgent – 上海交大联合阿里开源的多智能体故事绘本视频生成框架 MM-StoryAgent是什么 MM-StoryAgent 是上海交通大学X-LANCE实验室和阿里巴巴集团联合推出的开源多模态、多智能体框架,用在生成沉浸式的有声故事绘本视频。基于结合大型语言模型... Ai项目 12个月前04,9600
Deep Research Web UI – 开源 AI 研究助手,逐步深入挖掘研究主题 Deep Research Web UI是什么 Deep Research Web UI 是开源的 AI 研究助手工具,帮助用户高效地进行深度研究。通过 AI 驱动的迭代搜索,逐步深入挖掘指定主题,以... Ai项目 12个月前06,9900
Gemma 3 – 谷歌最新推出的开源多模态 AI 模型 Gemma 3是什么 Gemma 3 是谷歌最新推出的开源人工智能模型,专为开发者设计,支持多种设备上的人工智能应用开发。支持超过 35 种语言,具备分析文本、图像及短视频的能力,提供四种不同尺寸的模... Ai项目 12个月前07,8400
Reka Flash 3 – Reka AI 推出的开源推理模型 Reka Flash 3是什么 Reka Flash 3 是 Reka AI 推出的开源推理模型,拥有 21 亿参数。支持多模态输入,包括文本、图像、视频和音频,可处理最多 32k 个令牌的上下文长度... Ai项目 12个月前05,2600
子曰翻译2.0 – 网易有道推出的最新翻译大模型 子曰翻译2.0是什么 子曰翻译2.0是网易有道推出的最新翻译大模型,模型在数据、算法和评估三个关键维度进行了系统性升级,实现了翻译质量、效率和鲁棒性的质的飞跃。 在数据层面,有道收集清洗了数千万高质量... Ai项目 12个月前04,5000
Motion Anything – 腾讯联合京东等高校推出的多模态运动生成框架 Motion Anything是什么 Motion Anything 是澳大利亚国立大学、悉尼大学、腾讯、麦吉尔大学、京东等机构推出的多模态运动生成框架,根据文本、音乐或两者的组合生成高质量、可控的人... Ai项目 12个月前05,1050
AI-Researcher – 香港大学推出的开源自动化科学研究工具 AI-Researcher是什么 AI-Researcher 是香港大学数据科学实验室推出的开源自动化科学研究工具,基于大型语言模型(LLM)代理实现从研究想法到论文发表的全流程自动化。AI-Rese... Ai项目 12个月前04,8700