InvSR – 开源图像超分辨率模型,高清修复老旧照片 InvSR是什么 InvSR是创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。用大型预训练扩散模型中丰富的图像先验,改善超分辨率的效果。InvSR的核心在于深度噪声预测器,预测器能估计出... Ai项目 2个月前1,1600
CLEAR – 新加坡国立大学推出的线性注意力机制,生成8K图像时提速6.3倍 CLEAR是什么 CLEAR是新加坡国立大学推出新型线性注意力机制,能提升预训练扩散变换器(DiTs)生成高分辨率图像的效率。基于将每个查询的注意力限制在局部窗口内,CLEAR实现了对图像分辨率的线性... Ai项目 2个月前1,3250
DisPose – 北大等多所高校推出的增强人物图像控制动画质量的技术 DisPose是什么 DisPose是北京大学、中国科学技术大学、清华大学和香港科技大学的研究团队共同推出的,提高人物图像动画质量的控制技术,基于从骨骼姿态和参考图像中提取有效的控制信号,无需额外的密... Ai项目 2个月前1,9300
OCTAVE – Hume AI推出的语音语言模型 OCTAVE 是什么 OCTAVE(Omni-Capable Text and Voice Engine)是Hume AI推出的新一代语音语言模型,结合EVI 2模型和OpenAI、Elevenlab... Ai项目 2个月前1,4400
Granite 3.1 – IBM 推出的新版语言模型 Granite 3.1是什么 Granite 3.1是IBM推出的新一代语言模型,具有强大的性能和更长的上下文处理能力。Granite 3.1模型家族有 4 种不同的尺寸和 2 种架构:密集模型2B和... Ai项目 2个月前1,4250
Sketch2Sound – Adobe 联合西北大学推出的AI音频生成技术 Sketch2Sound是什么 Sketch2Sound是Adobe 研究院和西北大学推出的AI音频生成技术,能基于声音模仿和文本提示生成高品质音效。Sketch2Sound从声音模仿中提取响度、亮度... Ai项目 2个月前1,2600
OmniAudio-2.6B – Nexa AI推出的端侧多模态音频语言模型 OmniAudio-2.6B是什么 OmniAudio-2.6B是Nexa AI推出的音频语言模型,专为边缘部署设计,能实现快速且高效的音频文本处理。OmniAudio-2.6B是具有2.6亿参数的多... Ai项目 2个月前1,3000
DreamOmni – 港中文、字节等机构共同推出的统一图像生成和编辑模型 DreamOmni是什么 DreamOmni 是香港中文大学、字节跳动和香港科技大学共同推出的统一图像生成和编辑模型。模型整合文本到图像(T2I)生成和多种编辑任务,包括指令式编辑、修复、拖拽编辑和参... Ai项目 2个月前1,6550
QVQ – 阿里通义开源的视觉推理模型 QVQ是什么 QVQ是阿里基于Qwen2-VL-72B构建的开源多模态推理模型,结合视觉理解和复杂问题解决能力,提升人工智能的认知能力。QVQ在视觉推理任务中展现出增强的能力,尤其在需要复杂分析思维的... Ai项目 2个月前1,3150
Open Notebook – 开源 AI 笔记工具,自动将多格式笔记转换成博客 Open Notebook是什么 Open Notebook是开源、注重隐私的谷歌NotebookLM替代工具,能帮助用户管理研究工作流程,生成AI辅助笔记,并与内容互动。Open Notebook支... Ai项目 2个月前1,5000