Step-R1-V-Mini – 阶跃星辰最新推出的多模态推理模型 Step-R1-V-Mini是什么 Step-R1-V-Mini 是阶跃星辰最新推出的多模态推理模型。支持图文输入和文字输出,具备良好的指令遵循和通用能力,能高精度感知图像完成复杂推理任务。模型在视觉... Ai项目 5个月前02,5400
Gemini 2.5 Flash – 谷歌推出的最新 AI 推理模型 Gemini 2.5 Flash是什么 Gemini 2.5 Flash 是 Google 推出的高效、低延迟的最新 AI 模型,基于 Gemini 2.5 模型构建。Gemini 2.5 Flash... Ai项目 5个月前02,5400
cobalt – 开源的流媒体下载工具,支持全平台视频、音频和图片下载 cobalt是什么 cobalt是开源的流媒体下载工具,提供纯净、简洁无广告的体验。cobalt支持全平台视频、音频和图片下载,包括主流视频网站、社交媒体和音乐平台。cobalt提供个性化设置,支持多... Ai项目 5个月前2,5350
3DIS-FLUX – 浙大联合哈佛推出的多实例生成框架 3DIS-FLUX是什么 3DIS-FLUX是基于深度学习的多实例生成框架,通过解耦实例合成实现高质量的图像生成。结合3DIS框架的深度驱动场景构建和FLUX模型的扩散变换器架构,分为两阶段:首先生成... Ai项目 5个月前2,5350
pdf-craft – 开源 PDF 转 Markdown 工具 pdf-craft是什么 pdf-craft 是用在将 PDF 文件转换为其他格式(如 Markdown、EPUB)的工具,专注于处理扫描书籍的 PDF 文件。pdf-craft 支持提取正文内容,过... Ai项目 5个月前02,5350
RLCM – 康奈尔大学推出的优化文本到图像一致性模型的框架 RLCM是什么 RLCM(Reinforcement Learning for Consistency Model)是康奈尔大学推出用在优化文本到图像生成模型的框架,基于强化学习方法微调一致性模型适应... Ai项目 5个月前2,5300
ConceptMaster – 高保真多概念视频定制生成的创新 AI 框架 ConceptMaster是什么 ConceptMaster是用于多概念视频定制的创新框架,能在无需测试时调优的情况下,在扩散Transformer模型上生成高质量且概念一致的定制视频。框架通过学习解... Ai项目 5个月前2,5300
TimesFM 2.0 – 谷歌研究团队开源的时间序列预测模型 TimesFM 2.0是什么 TimesFM 2.0是谷歌研究团队推出的开源时间序列预测模型。具备强大的预测能力,可处理长达2048个时间点的单变量时间序列,支持任意预测时间跨度。模型采用仅解码器架构... Ai项目 5个月前2,5300
百聆 – AI语音对话助手,端到端时延低至800ms 百聆是什么 百聆(Bailing)是开源的语音对话助手,基于语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)技术实现与用户的自然语音对话,实现类GPT-4o的对话效... Ai项目 5个月前2,5300
HMA – MIT联合Meta等推出的机器人动作视频动态建模方法 HMA是什么 HMA(Heterogeneous Masked Autoregression)是麻省理工学院、Meta和伊利诺伊大学香槟分校开源的,用在建模机器人动作视频动态的方法。HMA基于异构预训... Ai项目 5个月前02,5300