EyeDiff – 文本到图像扩散模型,自然语言生成多模态眼科图像 EyeDiff是什么 EyeDiff是文本到图像的扩散模型,基于自然语言提示生成多模态眼科图像,提高常见和罕见眼病的诊断准确性。模型在多个大规模数据集上训练,能准确捕捉关键病变特征,并与文本提示高度一... Ai项目 4周前4,8550
SmoothCache – Roblox 和女王大学推出用于DiT的通用推理加速技术 SmoothCache是什么 SmoothCache 是用在Diffusion Transformers (DiT)模型的通用推理加速技术,是 Roblox 和女王大学的研究团队推出。基于分析相邻扩散... Ai项目 4周前4,8550
Add-it – 英伟达推出无需训练的图像编辑技术 Add-it是什么 Add-it是NVIDIA推出的无需训练的图像编辑技术,能根据文本指令在图像中添加对象。这项技术基于扩展扩散模型的注意力机制,整合场景图像、文本提示和生成图像的信息,实现结构一致性... Ai项目 4周前4,8550
LongDocURL – 中科院联合淘天集团推出的多模态长文档理解基准数据集 LongDocURL是什么 LongDocURL是中国科学院自动化研究所和阿里巴巴淘宝天猫集团联合发布的多模态长文档理解基准数据集。专注于评估模型在处理长文档、复杂元素和多样化任务中的理解、推理和定位... Ai项目 4周前4,8550
KuaiMod – 快手推出的自动化短视频质量判别框架 KuaiMod是什么 KuaiMod 是快手推出的基于多模态大模型的短视频质量判别框架,能高效识别和过滤有害及低质量内容。框架借鉴普通法(Common Law)体系,基于案例驱动的方式动态更新审核策略... Ai项目 4周前4,8500
Multi-Speaker – AudioShake 推出的多说话人声分离模型 Multi-Speaker是什么 Multi-Speaker是AudioShake推出的全球首个高分辨率多说话人分离模型。支持将音频中的多个说话人精准分离到不同轨道,解决传统音频工具在处理重叠语音时的... Ai项目 12个月前04,8500
Qwen-Agent – 阿里通义开源的 Agent 应用开发框架 Qwen-Agent是什么 Qwen-Agent是基于通义千问模型(Qwen)的开源Agent开发框架,支持开发者用Qwen模型的指令遵循、工具使用、规划和记忆能力构建智能代理应用。Qwen-Agen... Ai项目 4周前4,8450
优云智算 – UCloud 旗下 GPU 算力租赁平台 优云智算是什么 优云智算是UCloud优刻得旗下的GPU算力租赁平台,专注于为AI应用提供高效、灵活的算力资源。支持按需租赁,满足不同项目需求。平台拥有丰富的镜像社区,提供多种AI场景的容器镜像,如L... Ai项目 4周前4,8450
Awesome MCP Servers – 开源的MCP资源聚合平台,覆盖多个垂直领域 Awesome MCP Servers是什么 Awesome MCP Servers 是开源项目,汇集各种基于 Model Context Protocol (MCP) 的服务器。Awesome MC... Ai项目 12个月前04,8450
千影 QianYing – 巨人网络推出的有声游戏生成大模型 千影 QianYing是什么 千影 QianYing是巨人网络推出的有声游戏生成大模型,包含游戏视频生成大模型YingGame和视频配音大模型YingSound。YingGame面向开放世界游戏,是巨... Ai项目 4周前4,8400