NVLM – 英伟达推出的多模态大型语言模型 NVLM是什么 NVLM是NVIDIA推出的前沿多模态大型语言模型(LLMs),在视觉-语言任务上达到与顶尖专有模型(如GPT-4o)和开放访问模型(如Llama 3-V 405B和InternVL ... Ai项目 2个月前1,3200
Promptriever – 信息检索模型,支持自然语言提示响应用户搜索需求 Promptriever是什么 Promptriever 是约翰斯·霍普金斯大学和Samaya AI联合推出的新型检索模型,能像语言模型一样接受自然语言提示,用直观的方式响应用户的搜索需求。Promp... Ai项目 2个月前1,6450
LongLLaVA – 香港中文大学推出的多模态上下文混合架构大语言模型 LongLLaVA是什么 LongLLaVA是的多模态大型语言模型(MLLM),是香港中文大学(深圳)的研究人员推出。基于混合架构,结合Mamba和Transformer模块,提高处理大量图像数据的效... Ai项目 2个月前1,5100
Devika – 开源的AI编程工具,理解和执行复杂的人类指令 Devika 是什么 Devika是开源的AI编程工具,能理解并拆分复杂指令,基于集成AI搜索和网页浏览能力搜集信息,编写代码实现目标。Devika支持多种AI模型,具备高级规划推理能力,能进行上下文... Ai项目 2个月前1,0400
iDP3 – 斯坦福大学联合多所高校推出的改进型3D视觉运动策略 iDP3是什么 iDP3(Improved 3D Diffusion Policy)是斯坦福大学联合多所高校推出的改进型3D视觉运动策略(如三维扩散策略),提升人形机器人在多样化环境中的自主操作能力... Ai项目 2个月前1,7150
Proactive Agent – 清华联合面壁智能开源的新一代主动Agent交互范式 Proactive Agent是什么 Proactive Agent是清华大学联合面壁智能等团队推出的新一代主动Agent交互范式 ,具备主动性,能预测用户需求并在没有直接指令的情况下采取行动。Pro... Ai项目 2个月前1,5900
EMOVA – 华为诺亚方舟联合多所高校共同推出的多模态全能处理模型 EMOVA是什么 EMOVA(EMotionally Omni-present Voice Assistant)是多模态全能模型,是香港科技大学、香港大学和华为诺亚方舟实验室等机构共同推出的。EMOV... Ai项目 2个月前1,2650
OminiControl – AI图像生成框架,实现图像主题控制和空间精确控制 OminiControl是什么 OminiControl是高度通用且参数高效的图像生成框架,为扩散变换器模型如FLUX.1设计,实现对图像生成过程的精细控制。OminiControl支持主题驱动控制和... Ai项目 2个月前1,3250
Talker-Reasoner – 谷歌DeepMind推出的双思维AI代理架构 Talker-Reasoner是什么 Talker-Reasoner是谷歌DeepMind推出的双思维AI代理架构,借鉴人类的认知理论,将代理分为两个模块:Talker和Reasoner。Talker... Ai项目 2个月前1,6300
Diffusion Self-Distillation – 斯坦福大学推出的零样本定制图像生成技术 Diffusion Self-Distillation是什么 Diffusion Self-Distillation(扩散自蒸馏,简称DSD)是斯坦福大学吴佳俊团队推出的零样本定制图像生成技术,用预训... Ai项目 2个月前1,3700