Zerox – 开源的OCR工具,零样本识别多种格式文件 Zerox是什么 Zerox是开源的本地化高精度OCR工具,基于GPT-4o-mini模型,无需提前训练实现零样本识别。Zerox支持PDF、DOCX、图片等多种格式文件,擅长处理扫描版文档及复杂布局... Ai项目 5个月前2,4850
豆包大模型1.5 – 字节跳动推出的最新版大模型 豆包大模型1.5是什么 豆包大模型1.5 是字节跳动推出的最新版本大模型。采用大规模稀疏MoE架构,等效于7倍激活参数的Dense模型性能,综合得分在知识、代码、推理、中文等多个测评基准上优于GPT... Ai项目 5个月前2,4850
Hunyuan3D 2.0 – 腾讯推出的大规模 3D 资产生成系统 Hunyuan3D 2.0是什么 Hunyuan3D 2.0 是腾讯推出的大规模 3D 资产生成系统,专注于从文本和图像生成高分辨率的 3D 模型。系统采用两阶段生成流程:首先生成无纹理的几何模型,再... Ai项目 5个月前02,4850
Agent Development Kit – 谷歌开源的 AI Agent 开发与部署框架 Agent Development Kit是什么 Agent Development Kit(ADK)是谷歌开源的首个AI智能体开发工具包,是一个代码优先的Python工具包,简化复杂AI代理的构建... Ai项目 5个月前02,4850
Index-AniSora – B站开源的动漫视频生成模型 Index-AniSora是什么 Index-AniSora 是哔哩哔哩开源的先进动漫视频生成模型,模型支持一键生成多种动漫风格的视频,涵盖番剧片段、国创动画、VTuber 内容等。模型包含超过 10... Ai项目 4个月前2,4800
Parakeet TDT 0.6B – 英伟达开源的自动语音识别模型 Parakeet TDT 0.6B是什么 Parakeet TDT 0.6B 是英伟达推出的开源自动语音识别(ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其... Ai项目 4个月前2,4800
LTX Video – Lightricks推出的开源AI视频生成模型 LTX Video是什么 LTX Video是Lightricks推出的开源AI视频生成模型,能在4秒内生成5秒的高质量视频,速度超过观看速度。基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性... Ai项目 5个月前2,4800
FreeScale – 无需微调的推理框架,提升扩散模型生成能力首次实现8K分辨率图像 FreeScale是什么 FreeScale是南洋理工大学、阿里巴巴集团和复旦大学推出无需微调的推理框架,提升预训练扩散模型生成高分辨率图像和视频的能力。FreeScale基于处理和融合不同尺度的信息... Ai项目 5个月前2,4800
INFP – 音频驱动的生成逼真面部表情和头部姿态的AI框架 INFP是什么 INFP是音频驱动的头部生成框架,专为双人对话交互设计。能自动在对话音频引导下进行角色的转换,无需手动分配角色和角色切换。INFP包括两个阶段:基于动作头部模仿阶段和音频引导动作生成阶... Ai项目 5个月前2,4800
WiseDiag – 杭州智诊科技推出全球领先的医疗大模型 WiseDiag是什么 WiseDiag 是杭州智诊科技推出的全球领先的医疗大模型,专注于基于人工智能技术提升医疗服务的效率和质量。模型具有 730 亿参数和 32k 的上下文长度,基于超过 3 万亿... Ai项目 5个月前02,4800