Inf-DiT – 清华联合智谱 AI 推出的超高分辨率图像生成模型 Inf-DiT是什么 Inf-DiT 是清华大学、智谱AI 推出基于扩散模型的图像上采样方法,能生成超高分辨率图像。Inf-DiT引入单向块注意力机制(UniBA),将生成过程中的空间复杂度从 O(N... Ai项目 5个月前2,4700
MatterGen – 微软推出的无机材料生成模型 MatterGen是什么 MatterGen是微软推出的创新生成模型,专门用在设计无机材料。基于独特的扩散过程,逐步细化原子类型、坐标和周期晶格,生成跨越周期表的稳定、多样化的无机材料。MatterG... Ai项目 5个月前2,4700
Step-1o Vision – 阶跃星辰推出的原生端到端视觉理解模型 Step-1o Vision是什么 Step-1o Vision 是阶跃星辰最新研发的原生端到端多模态生成与理解一体化模型中的视觉版本。专注于视觉任务,具备强大的图像识别、感知、推理和指令跟随能力,能... Ai项目 5个月前2,4700
Baichuan-Omni-1.5 – 百川智能开源的全模态理解模型 Baichuan-Omni-1.5是什么 Baichuan-Omni-1.5是百川智能开源的全模态模型。支持文本、图像、音频和视频的全模态理解,具备文本和音频的双模态生成能力。模型在视觉、语音及多模态... Ai项目 5个月前2,4700
Baichuan-Audio – 百川智能开源的端到端语音交互模型 Baichuan-Audio是什么 Baichuan-Audio是百川智能推出的端到端音频大语言模型,支持无缝集成音频理解和生成功能,实现支持高质量、可控的实时中英双语对话。Baichuan-Audi... Ai项目 5个月前02,4700
ART – 微软联合清华和北大等推出的多层透明图像生成技术 ART是什么 ART(Anonymous Region Transformer) 是新型的多层透明图像生成技术,能根据全局文本提示和匿名区域布局直接生成多个独立的透明图层(支持 RGBA 格式),图层... Ai项目 5个月前02,4700
ObjectMover – 港大联合 Adobe 推出的新型图像编辑模型 ObjectMover是什么 ObjectMover 是香港大学和 Adobe Research 联合提出的新型图像编辑模型,解决图像中物体移动、插入和移除时出现的光照、阴影不协调以及物体失真等问题... Ai项目 5个月前02,4700
DynaMem – 纽约大学和Hello Robot推出的动态空间语义记忆系统 DynaMem是什么 DynaMem是纽约大学和Hello Robot推出的动态空间语义记忆系统,专为开放世界中的移动操作设计。基于维护一个特征点云作为机器人记忆,处理环境中的动态变化,如物体的添加和... Ai项目 5个月前2,4650
Voice-Pro – 开源AI音频处理工具,集成转录、翻译、TTS等一站式服务 Voice-Pro是什么 Voice-Pro是开源的多功能音频处理工具,集成语音转文字(STT)、文本转语音(TTS)、实时翻译、YouTube视频下载和人声分离等多种功能。工具支持超过100种语言... Ai项目 5个月前2,4650
MiniRAG – 港大推出高效部署小语言模型的新型 RAG 系统 MiniRAG是什么 MiniRAG是香港大学推出的新型检索增强型生成(RAG)系统,专为在资源受限的场景下高效部署小型语言模型(SLMs)设计。MiniRAG基于两个关键技术实现这一目标:一是语义感... Ai项目 5个月前2,4650