Large Action Models – 微软推出的行动大模型开发框架 Large Action Models是什么 Large Action Models(LAMs)是微软推出大型行动模型的开发框架,能执行真实世界行动的智能系统,LAMs超越传统LLMs(Large L... Ai项目 2个月前1,5500
Leffa – Meta 开源的图像生成框架,精确控制人物的外观和姿势 Leffa是什么 Leffa(Learning Flow Fields in Attention)是 Meta AI推出的用在可控人物图像生成框架,基于在注意力机制中引入流场学习,精确控制人物的外观和... Ai项目 2个月前1,1250
LatentLM – 微软联合清华推出的多模态生成模型 LatentLM是什么 LatentLM是微软研究院和清华大学共同推出的多模态生成模型,能统一处理离散数据(如文本)和连续数据(如图像、音频)。模型用变分自编码器(VAE)将连续数据编码为潜在向量,引... Ai项目 2个月前1,7350
Lyra – SmartMore联合多所高校推出的增强多模态交互能力 Lyra是什么 Lyra是香港中文大学、SmartMore和香港科技大学推出的高效多模态大型语言模型(MLLM),专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型、多模态LoRA模块... Ai项目 2个月前1,0750
Manga Image Translator – 开源漫画图片文字翻译工具,多语言翻译无缝嵌入原图 Manga Image Translator是什么 Manga Image Translator是开源的漫画图片文字翻译工具,能一键翻译漫画和图片中的文字。Manga Image Translator... Ai项目 2个月前1,2600
Ivy-VL – AI Safeguard联合卡内基梅隆和斯坦福开源的轻量级多模态模型 Ivy-VL是什么 Ivy-VL是AI Safeguard联合卡内基梅隆大学和斯坦福大学推出的轻量级多模态AI模型,专为移动端和边缘设备设计。模型拥有3B参数量,相较于其他多模态大模型,显著降低计算资... Ai项目 2个月前1,2150
ColorFlow – 清华和腾讯共同推出的图像序列着色模型 ColorFlow是什么 ColorFlow是清华大学和腾讯ARC实验室共同推出的图像序列着色模型,能精细化地保持图像序列中个体身份的同时进行着色。基于检索增强、上下文学习和超分辨率技术,ColorF... Ai项目 2个月前1,3400
NodeTool – AI工作流可视化构建器,拖放节点设计复杂工作流 NodeTool是什么 NodeTool是开源的AI工作流可视化构建器。NodeTool集成广泛的AI工具和模型,基于简单、可视化的界面,让用户无需编码即可快速原型设计和测试。NodeTool支持在本... Ai项目 2个月前1,2600
VMB – 中科院联合多所高校机构推出增强多模态音乐生成的框架 VMB是什么 VMB(Visuals Music Bridge)是中国科学院信息工程研究所、中国科学院大学网络空间安全学院、上海人工智能实验室、上海交通大学等机构推出的多模态音乐生成框架,能从文本、图... Ai项目 2个月前1,0400
豆包视觉理解模型 – 豆包推出视觉理解模型,具备识别和推理能力 豆包视觉理解模型是什么 豆包视觉理解模型是豆包推出的先进AI大模型,具备视觉识别和理解推理能力。豆包视觉理解模型具备强大的视觉定位能力,支持多目标、小目标及通用目标的框定位和点定位,支持进行定位计数... Ai项目 2个月前1,3200