WorldCraft – 港科大推出的3D虚拟世界创建和定制系统 WorldCraft是什么 WorldCraft是香港科技大学推出的基于大型语言模型(LLM)代理的3D世界创建和定制系统,用在创建和定制逼真的3D虚拟世界。基于自然语言交互,让用户能轻松生成复杂的室... Ai项目 12个月前06,4750
UI-TARS – 字节跳动推出的开源原生 GUI 代理模型 UI-TARS是什么 UI-TARS是字节跳动推出的新一代原生图形用户界面(GUI)代理模型,通过自然语言实现对桌面、移动设备和网页界面的自动化交互。具备强大的感知、推理、行动和记忆能力,能实时理解动... Ai项目 2周前6,4500
iDP3 – 斯坦福大学联合多所高校推出的改进型3D视觉运动策略 iDP3是什么 iDP3(Improved 3D Diffusion Policy)是斯坦福大学联合多所高校推出的改进型3D视觉运动策略(如三维扩散策略),提升人形机器人在多样化环境中的自主操作能力... Ai项目 2周前6,4450
Phantom – 字节跳动推出的主体一致视频生成框架 Phantom是什么 Phantom是字节跳动智能创作团队推出的用在主体一致视频生成(Subject-to-Video, S2V)的框架。基于跨模态对齐技术,结合文本和图像提示,从参考图像中提取主体元... Ai项目 12个月前06,4350
DreamO – 字节联合北大推出的图像定制生成框架 DreamO是什么 DreamO 是字节跳动创作团队联合北京大学深圳研究生院电子与计算机工程学院联合推出的用在图像定制生成的统一框架,基于预训练的扩散变换器(DiT)模型实现多种图像生成任务的灵活定制... Ai项目 2周前6,4250
NVLM – 英伟达推出的多模态大型语言模型 NVLM是什么 NVLM是NVIDIA推出的前沿多模态大型语言模型(LLMs),在视觉-语言任务上达到与顶尖专有模型(如GPT-4o)和开放访问模型(如Llama 3-V 405B和InternVL ... Ai项目 2周前6,4200
豆包视觉理解模型 – 豆包推出视觉理解模型,具备识别和推理能力 豆包视觉理解模型是什么 豆包视觉理解模型是豆包推出的先进AI大模型,具备视觉识别和理解推理能力。豆包视觉理解模型具备强大的视觉定位能力,支持多目标、小目标及通用目标的框定位和点定位,支持进行定位计数... Ai项目 2周前6,4200
aisuite – 吴恩达发布开源Python库,一个接口调用多个大模型 aisuite是什么 aisuite是开源的Python库,吴恩达(Andrew Ng)发布的,旨在提供一个统一的接口来调用多个大型语言模型(LLM)服务。支持包括OpenAI、Anthropic、A... Ai项目 2周前6,4100
Promptriever – 信息检索模型,支持自然语言提示响应用户搜索需求 Promptriever是什么 Promptriever 是约翰斯·霍普金斯大学和Samaya AI联合推出的新型检索模型,能像语言模型一样接受自然语言提示,用直观的方式响应用户的搜索需求。Promp... Ai项目 2周前6,4050
Baichuan-M1-14B – 百川智能推出的行业首个开源医疗增强大模型 Baichuan-M1-14B是什么 Baichuan-M1-14B是百川智能推出的行业首个开源医疗增强大模型,医疗能力超越了更大参数量的Qwen2.5-72B,与o1-mini相差无几。专为医疗场景... Ai项目 2周前6,4050