DeepSeek R1-Zero – DeepSeek推出的开源推理模型,基于纯强化学习训练 DeepSeek R1-Zero是什么 DeepSeek R1-Zero 是 DeepSeek 团队开发的完全依赖纯强化学习(RL)训练的推理模型,未使用任何监督微调(SFT)数据。在推理任务上表现出... Ai项目 5个月前2,9750
UniFluid – 谷歌联合麻省理工推出的多模态图像生成与理解框架 UniFluid是什么 UniFluid 是谷歌 DeepMind 和麻省理工学院联合推出的,统一的自回归框架,用在联合视觉生成和理解任务。基于连续视觉标记处理多模态图像和文本输入,生成离散文本标记和... Ai项目 5个月前02,9750
WebDreamer – 基于大语言模型模拟网页交互增强网络规划能力的框架 WebDreamer是什么 WebDreamer是俄亥俄州立大学和Orby AI研究团队推出的基于模型规划的网络智能体,基于大型语言模型(LLMs),特别是GPT-4o,作为世界模型预测网站上的交互结... Ai项目 5个月前2,9650
PersonaMagic – 高保真人脸定制技术,根据肖像无缝生成新角色 PersonaMagic是什么 PersonaMagic 是创新的高保真人脸定制技术,通过阶段调节的文本条件策略实现个性化图像生成。基于简单多层感知机(MLP)网络学习一系列动态嵌入,在特定时间步间隔... Ai项目 5个月前2,9650
GEN3C – NVIDIA 联合多伦多大学等推出的生成式视频模型 GEN3C是什么 GEN3C 是NVIDIA、多伦多大学和向量研究所推出的新型生成式视频模型,基于精确的相机控制和时空一致性生成高质量的 3D 视频内容。GEN3C构建基于点云的 3D 缓存指导视频生... Ai项目 5个月前02,9650
Gemma 3 QAT – 谷歌推出的最新开源模型,Gemma 3 量化版 Gemma 3 QAT是什么 Gemma 3 QAT(Quantization-Aware Training)是谷歌推出的最新一代开源模型,是Gemma 3 的量化优化版本。通过量化感知训练技术,Ge... Ai项目 5个月前02,9650
Sa2VA – 字节跳动等机构开源的多模态大语言模型 Sa2VA是什么 Sa2VA是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型,是SAM2和LLaVA结合而成,能实现对图像和视频的密集、细粒度理解。Sa2VA基于统一的任... Ai项目 5个月前02,9600
Vanna – 开源AI检索生成框架,自动生成精确的SQL查询 Vanna是什么 Vanna是开源的Python RAG(Retrieval-Augmented Generation)框架,能帮助用户基于大型语言模型(LLMs)为其数据库生成精确的SQL查询。Va... Ai项目 5个月前2,9500
VideoMaker – 浙大联合腾讯和华为推出的零样本定制视频生成框架 VideoMaker是什么 VideoMaker是浙江大学、腾讯和华为诺亚方舟实验室共同开发的创新项目,基于视频扩散模型(VDM)的零样本定制视频生成框架。与传统方法不同,VideoMaker无需额外... Ai项目 5个月前2,9450
Lumina-Video – 上海 AI Lab 和港中文推出的视频生成框架 Lumina-Video是什么 Lumina-Video是上海 AI Lab 和香港中文大学推出的视频生成框架,基于Next-DiT架构,针对视频生成中的时空复杂性进行优化。基于多尺度Next-DiT... Ai项目 5个月前02,9400