LiveCC – 字节联合新加坡国立大学开源的实时视频解说模型 LiveCC是什么 LiveCC 是新加坡国立大学Show Lab 团队联合字节跳动推出的实时视频解说模型,基于自动语音识别(ASR)字幕进行大规模训练。LiveCC像专业解说员一样快速分析视频内容... Ai项目 2周前5,5700
OpenMath-Nemotron – 英伟达开源的数学推理系列模型 OpenMath-Nemotron是什么 OpenMath-Nemotron是英伟达推出的系列开源数学推理模型,专门用在解决复杂数学问题,包括奥林匹克级别的难题。模型基于大规模数据集OpenMathR... Ai项目 2周前7,0100
Kimi-Audio – Moonshot AI 开源的音频基础模型 Kimi-Audio是什么 Kimi-Audio 是 Moonshot AI 推出的开源音频基础模型,专注于音频理解、生成和对话任务。在超过 1300 万小时的多样化音频数据上进行预训练,具备强大的音... Ai项目 2周前4,6650
Firefly Image Model 4 – Adobe 推出的图像生成模型 Firefly Image Model 4是什么 Firefly Image Model 4 是 Adobe 最新推出的图像生成模型,是目前最快、最具控制性和最逼真的 Firefly 图像模型,支持生... Ai项目 2周前6,4900
Step1X-Edit – 阶跃星辰开源的通用图像编辑框架 Step1X-Edit是什么 Step1X-Edit 是阶跃星辰团队推出的通用图像编辑框架,能缩小开源图像编辑模型与闭源模型(如 GPT-4o 和 Gemini2 Flash)之间的性能差距。Step... Ai项目 2周前5,2500
WebSSL – Meta联合纽约大学等机构推出的视觉自监督学习系列模型 WebSSL是什么 WebSSL(Web-scale Self-Supervised Learning)是Meta、纽约大学等机构推出的视觉自监督学习(SSL)系列模型,基于大规模网络数据(如数十亿图... Ai项目 2周前6,0050
Paper2Code – AI论文自动转为代码的多智能体框架 Paper2Code是什么 Paper2Code 是韩国科学技术院和DeepAuto.ai联合推出的多 Agent 大语言模型(LLM)框架,支持将机器学习领域的科学论文自动转换为可运行的代码仓库。P... Ai项目 2周前4,9100
EmaFusion – AI初创公司 Ema 推出的多模型融合技术 EmaFusion是什么 EmaFusion 是人工智能初创公司 Ema 推出的多模型融合技术,为企业级 AI 应用提供高效、灵活且低成本的解决方案。通过动态结合 100 多种语言模型,根据任务需求智... Ai项目 2周前4,8300
Lyria 2 – DeepMind 推出的 AI 音乐生成模型 Lyria 2是什么 Lyria 2 是谷歌 DeepMind 推出的第三代 AI 音乐生成模型,作为 Vertex AI 平台的核心组件,具备高保真音频生成能力,能输出 48kHz、24-bit 的... Ai项目 2周前7,2000
Concept Lancet – 宾夕法尼亚大学推出的图像编辑框架 Concept Lancet是什么 Concept Lancet(CoLan)是宾夕法尼亚大学的研究团队推出的零样本、即插即用的图像编辑框架。Concept Lancet基于在潜在空间中对图像进行稀疏... Ai项目 2周前5,8850