OmniAudio-2.6B – Nexa AI推出的端侧多模态音频语言模型 OmniAudio-2.6B是什么 OmniAudio-2.6B是Nexa AI推出的音频语言模型,专为边缘部署设计,能实现快速且高效的音频文本处理。OmniAudio-2.6B是具有2.6亿参数的多... Ai项目 5个月前2,4300
ArtCrafter – 清华联合鹏城实验室和联想共同推出的文本到图像风格迁移框架 ArtCrafter是什么 ArtCrafter是清华大学、鹏城实验室和联想研究院共同推出的文本到图像风格迁移框架,基于扩散模型,解决传统方法在风格表达、内容一致性和输出多样性方面的局限。ArtCra... Ai项目 5个月前2,4300
AIMv2 – 苹果开源的多模态自回归预训练视觉模型 AIMv2是什么 AIMv2是苹果公司开源的多模态自回归预训练视觉模型,通过图像和文本的深度融合提升视觉模型的性能。采用创新的预训练框架,将图像划分为非重叠的图像块,将文本分解为子词令牌,然后将两者拼... Ai项目 5个月前02,4300
EXAONE 3.5 – LG 推出的开源AI模型,擅长长文本处理降低模型幻觉问题 EXAONE 3.5是什么 EXAONE 3.5是LG AI研究院推出的开源AI模型,包含24亿、78亿和320亿参数的三个版本。EXAONE 3.5擅长长文本处理,在基准测试中表现优异,特别是在实际... Ai项目 5个月前2,4250
DiTCtrl – 港中文联合腾讯等机构推出的多提示视频生成方法 DiTCtrl是什么 DiTCtrl是基于多模态扩散变换器(MM-DiT)架构的多提示视频生成方法,是香港中文大学和腾讯等机构联合推出的。DiTCtrl能在无需额外训练的情况下,实现多个文本提示之间的... Ai项目 5个月前2,4250
PartGen – 牛津大学联合 Meta AI 推出的3D对象生成和重建框架 PartGen是什么 PartGen是先进的3D对象生成和重建框架,是牛津大学的视觉几何小组和Meta AI共同推出的。PartGen能识别并生成由有意义部分组成的3D对象,3D对象能基于文本提示、图... Ai项目 5个月前2,4250
IndexTTS – B 站推出的文本转语音模型,支持拼音纠正汉字发音 IndexTTS是什么 IndexTTS 是 B 站推出的工业级可控文本转语音(TTS)系统。基于 XTTS 和 Tortoise 模型开发,结合了 GPT 风格的生成技术,能将文本高效转化为自然流畅... Ai项目 5个月前02,4250
Piece it Together – Bria AI等机构推出的图像生成框架 Piece it Together是什么 Piece it Together (PiT)是Bria AI等机构推出的创新图像生成框架,专门用在从部分视觉组件生成完整的概念图像。基于特定领域的先验知识... Ai项目 5个月前02,4250
OlympicArena – 上海交大联合 AI Lab 等推出的多学科认知推理基准测试框架 OlympicArena是什么 OlympicArena是上海交通大学、上海AI Lab、苏州大学和上海交通大学生成式人工智能实验室(GAIR Lab)联合推出的多学科认知推理基准测试框架。Olymp... Ai项目 5个月前02,4250
Seedream 3.0 – 字节推出的 AI 图片生成模型,精准生成复杂中文内容 Seedream 3.0是什么 Seedream 3.0(即梦3.0)是字节跳动推出的AI图片生成模型,模型支持原生 2K 分辨率图像输出,快速生成高品质图像,仅需 3 秒。模型在小字生成与排版、美感... Ai项目 5个月前02,4250