MultiFoley – Adobe 联合密歇根大学推出的音效生成系统 MultiFoley是什么 MultiFoley是Adobe Research和密歇根大学共同推出的音效生成系统,能基于文本、音频和视频的多模态控制生成Foley声音效果。系统支持用户根据文本提示、参... Ai项目 2周前6,0400
NSFW Detector – 开源 AI 不适宜内容检测工具,支持识别图像、PDF、视频文件 NSFW Detector是什么 NSFW Detector(Not Safe For Work,简称 NSFW)是开源的检测不适宜内容工具,NSFW Detector能识别图像、PDF、视频文件中的... Ai项目 2周前4,9400
Magic Copy – 开源的AI抠图工具,在浏览器中自动识别图像进行抠图 Magic Copy是什么 Magic Copy是开源的AI抠图工具,支持Chrome浏览器扩展,基于Meta的Segment Anything Model技术,从图像中自动识别并提取前景对象,将对象... Ai项目 2周前4,6650
Agent-E – 基于AutoGen代理框架构建的AI浏览器自动化系统 Agent-E是什么 Agent-E是基于AutoGen代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。Agent-E基于自然语言交互,能执行填写表单、搜索排序电商产品、定位网页内容、管理网... Ai项目 2周前4,8950
Delta-CoMe – 清华联合 OpenBMB 等高校开源的新型增量压缩算法 Delta-CoMe是什么 Delta-CoMe是清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法,一个80G的A100 GPU能轻松加载多达50个7B模型... Ai项目 2周前6,2250
FlagevalMM – 智源开源的多模态模型评测框架 FlagevalMM是什么 FlagEvalMM是北京智源人工智能研究院开源的多模态模型评测框架,能全面评估处理文本、图像、视频等多种模态的模型,支持多种任务和指标。框架采用评测与模型推理解耦的设计... Ai项目 2周前5,7850
GLM-Edge – 智谱开源的端侧大语言和多模态系列模型 GLM-Edge是什么 GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型,包含GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V... Ai项目 2周前5,0550
TryOffDiff – AI虚拟试穿技术,单张穿着者图片生成标准化服装图像 TryOffDiff是什么 TryOffDiff(VTOFF)是基于扩散模型的新型虚拟试穿技术,用高保真服装重建实现虚拟试穿,专注于从单张穿着者照片生成标准化的服装图像。与传统的Virtual Try... Ai项目 2周前4,9600
GLM-PC – 智谱推出的电脑智能体,基于CogAgent视觉多模态模型构建 GLM-PC是什么 GLM-PC是智谱推出的基于多模态大模型CogAgent的电脑智能体。能像人类一样“观察”和“操作”计算机,协助用户高效完成各类电脑任务,如文档处理、网页搜索、信息整理、社交互动等... Ai项目 2周前4,7600
Generative Omnimatte – 谷歌联合马里兰大学等机构推出的视频分解技术 Generative Omnimatte是什么 Generative Omnimatte 是 Google DeepMind 等机构推出的视频编辑技术,能将视频智能分解为多个透明背景的RGBA图层,每... Ai项目 2周前6,2050