Asyncflow v1.0 – Podcastle 推出的 AI 文本转语音模型 Asyncflow v1.0是什么 Asyncflow v1.0 是播客平台 Podcastle 推出的 AI 文本转语音模型。支持超过 450 种语音选项,能为文本内容生成高质量的语音朗读,适用于多... Ai项目 12个月前05,4250
Umi-OCR – 免费 OCR 文字识别工具,支持截图、批量图片排版解析 Umi-OCR是什么 Umi-OCR 是免费开源的离线 OCR 文字识别软件。无需联网,解压即用,支持截图、批量图片、PDF 扫描件的文字识别,能识别数学公式、二维码,可生成双层可搜索 PDF。内置多... Ai项目 12个月前05,4200
Voyage Multimodal-3 – Voyage AI 推出的多模态嵌入模型 Voyage Multimodal-3是什么 Voyage Multimodal-3 是 Voyage AI 推出的先进的多模态嵌入模型,能处理交错的文本和图像,并从 PDF、幻灯片、表格等截图中捕捉... Ai项目 2周前5,4100
DynaSaur – Adobe 推出的大语言模型代理框架 DynaSaur是什么 DynaSaur是Adobe Research推出的大型语言模型(LLM)代理框架,突破传统LLM代理系统受限于预定义动作集合的限制。框架支持代理动态创建和组合动作,基于生成和... Ai项目 2周前5,4100
LLaVA-Rad – 微软推出的小型多模态模型,专注于临床放射学报告生成 LLaVA-Rad是什么 LLaVA-Rad是微软研究院推出的小型多模态模型,专注于临床放射学报告生成。是LLaVA-Med项目的分支,特别是胸部X光(CXR)成像。基于LLaVA-Med的基础架构和... Ai项目 12个月前05,4050
Smallpond – DeepSeek开源的轻量级数据处理框架 Smallpond是什么 Smallpond是DeepSeek推出的基于 DuckDB 和 3FS 构建的轻量级数据处理框架,专为高性能和大规模数据处理设计。Smallpond支持处理 PB 级数据集... Ai项目 12个月前05,4050
Agent K v1.0 – 华为诺亚方舟实验室联合伦敦大学推出的端到端自主数据科学智能体 Agent K v1.0是什么 Agent K v1.0 是华为诺亚方舟实验室与伦敦大学学院团队联合推出的端到端自主数据科学智能体,能自动化、优化和泛化处理多种数据科学任务。Agent K v1.0基... Ai项目 2周前5,4000
RAIN – 视频流制作实时动画生成和真人表情移植解决方案 RAIN是什么 RAIN(Real-time Animation Of Infinite Video Stream)是创新的实时动画解决方案,基于消费级硬件,如单个RTX 4090 GPU,实现无限视... Ai项目 2周前5,4000
X-Dyna – 字节联合斯坦福等高校推出的动画生成框架 X-Dyna是什么 X-Dyna 是基于扩散模型的动画生成框架,基于驱动视频中的面部表情和身体动作,将单张人类图像动画化,生成具有真实感和环境感知能力的动态效果。核心是 Dynamics-Adapte... Ai项目 2周前5,4000
Baichuan-Audio – 百川智能开源的端到端语音交互模型 Baichuan-Audio是什么 Baichuan-Audio是百川智能推出的端到端音频大语言模型,支持无缝集成音频理解和生成功能,实现支持高质量、可控的实时中英双语对话。Baichuan-Audi... Ai项目 12个月前05,4000