DreamOmni – 港中文、字节等机构共同推出的统一图像生成和编辑模型 DreamOmni是什么 DreamOmni 是香港中文大学、字节跳动和香港科技大学共同推出的统一图像生成和编辑模型。模型整合文本到图像(T2I)生成和多种编辑任务,包括指令式编辑、修复、拖拽编辑和参... Ai项目 5个月前2,6850
SPRIGHT – 专注于空间关系的大型视觉语言数据集 SPRIGHT是什么 SPRIGHT(SPatially RIGHT)是亚利桑那州立大学 、Intel 实验室 、Hugging Face 、华盛顿大学等机构联合推出的,专注于空间关系的大型视觉-语言... Ai项目 5个月前2,6800
Weebo – AI语音聊天机器人,实时响应用户语音指令和问题 Weebo是什么 Weebo是实时语音聊天机器人,基于Whisper Small、Llama 3.2和Kokoro-82M技术驱动。能通过语音识别和生成技术,与用户进行自然流畅的对话,提供实时的语音交... Ai项目 5个月前2,6800
VidSketch – 浙江大学推出的视频动画生成框架 VidSketch是什么 VidSketch 是浙江大学 CAD&CG 国家重点实验室和软件学院推出的创新视频生成框架,根据手绘草图和简单文本提示生成高质量的视频动画。VidSketch基于... Ai项目 5个月前02,6800
DINO-XSeek – IDEA 研究院推出的多模态目标检测模型 DINO-XSeek是什么 DINO-XSeek 是 IDEA 研究院推出的多模态目标检测模型,结合视觉感知和自然语言理解能力。DINO-XSeek基于复杂的语言描述精准定位图像中的目标,识别目标的属... Ai项目 5个月前02,6750
Gemini Diffusion – 谷歌推出的文本扩散模型 Gemini Diffusion是什么 Gemini Diffusion是谷歌推出的实验性文本扩散模型。与传统自回归模型逐词生成文本不同,基于逐步细化噪声生成输出,能快速迭代纠正错误,让Gemini ... Ai项目 4个月前2,6700
EMOVA – 华为诺亚方舟联合多所高校共同推出的多模态全能处理模型 EMOVA是什么 EMOVA(EMotionally Omni-present Voice Assistant)是多模态全能模型,是香港科技大学、香港大学和华为诺亚方舟实验室等机构共同推出的。EMOV... Ai项目 5个月前2,6700
TÜLU 3 – Ai2 推出的系列开源指令遵循模型 TÜLU 3是什么 TÜLU 3是艾伦人工智能研究所(Ai2)推出的一系列开源指令遵循模型,包括8B和70B两个版本,未来计划推出405B版本。模型在性能上超越Llama 3.1 Instruct版本... Ai项目 5个月前2,6700
Kiln AI- 开源 AI 原型设计和数据集协作开发工具,微调专属模型 Kiln AI是什么 Kiln AI是开源的 AI 开发工具,能简化大型语言模型(LLM)的微调、合成数据生成和数据集协作。Kiln AI提供直观的桌面应用程序,支持 Windows、MacOS 和 ... Ai项目 5个月前02,6700
MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法 MultiBooth是什么 MultiBooth是清华大学深圳国际研究生院、 Meta、香港科技大学等机构推出的多概念图像生成方法,能从文本中生成包含多个用户指定概念的图像。MultiBooth将生成... Ai项目 5个月前2,6650