Vidu Q1 – 生数科技推出的高可控视频大模型

Vidu Q1是什么

Vidu Q1 是清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军教授团队推出的高可控视频大模型。支持生成1080p高清视频，画质细腻，细节丰富，能满足5秒视频的生成需求。首尾帧功能升级后，仅需两张图即可生成电影级的自然运镜效果。Vidu Q1具备精准音效控制功能，支持在时间轴上标注音效类型与时长，同步精度可达±0.1秒。模型优化了多主体细节可控能力，用户可以通过上传参考图和文字指令，精准调整视频中主体的位置、大小和运动轨迹。能针对模糊区域进行局部超分重建，4K视频放大8倍仍无马赛克。在海外权威视频生成评测榜单VBench-1.0和VBench-2.0中分别以总分87.41%和60.98%的成绩登顶，超越了Runway、OpenAI Sora等模型。在国内SuperCLUE的图生视频榜单中，Vidu Q1也以动漫风格63.52分、写实风格67.78分拿下双榜第一。

Vidu Q1的主要功能

高清画质与分辨率：支持生成1080p分辨率的高清视频，画质细腻，细节逼真。
首尾帧功能：用户仅需上传两张图，可生成电影级的运镜效果，首尾帧衔接流畅自然，镜头语言更有“电影感”。
音效生成：新增“一句话生成音效”功能，能根据提示词生成背景音乐和音效，支持精细控制每段音频的出现时间点，可分段控制、自由叠加，声音与画面完美贴合。
极“质”风格：动漫风格更稳定流畅，角色动作和情绪表达更到位。
视频质量与语义一致性：在VBench-1.0的视频质量、语义一致性等维度上，Vidu Q1达到SOTA（State of the Art）水平，生成的视频在表面真实性与内在真实性上表现出色。
常识推理与物理理解：在VBench-2.0的常识推理与物理规律理解两大维度上，Vidu Q1也表现出色，展现出领先的理解与生成能力。
精准调整主体属性：用户可通过上传参考图和文字指令，框选视频中的任意角色或物体，精准调整其位置（坐标轴定位）、大小（百分比缩放）、运动轨迹（自定义路径曲线）及动作细节（如“抬手15度”“眨眼频率2秒/次”）。实测显示，同一指令生成10次视频时，角色偏移误差小于5像素，而传统模型通常超过200像素。
多主体一致性：在多主体场景中，Vidu Q1 能保持主体间的一致性，确保视频中多个角色或物体的动作、位置等协调统一，这对于制作复杂的多主体视频内容（如动画、影视短剧等）非常关键。
音效时间轴控制：用户可在时间轴上打点标注音效类型与时长，如0:00-0:03秒设置风声（强度70%），0:04-0:05秒设置玻璃破碎声（左声道优先）。Vidu Q1 的音效同步精度可达±0.1秒，相比传统AI音效随机匹配，大大增强了视频的沉浸感与感染力。
局部超分重建：针对模糊区域进行局部超分重建，4K视频放大8倍仍无马赛克。可手动调节光影强度、材质纹理、景深虚化等，进一步提升视频的视觉质量。

Vidu Q1的技术原理

技术架构：Vidu Q1 基于扩散模型（Diffusion Model）和 U-ViT 架构开发。U-ViT 结合了 Transformer 的可扩展性和长序列建模能力，能处理长达16秒的1080p视频。模型通过视频自编码器减少视频的空间和时间维度，实现高效的训练和推断。
多模态融合：Vidu Q1 融合了文本、图像和视频等多种模态的信息，通过灵活的多元输入实现了多角度、多主体、多元素的一致性生成。使 Vidu Q1 能生成具有高度一致性和动态性的视频。
自动生成与标注：为了应对大规模视频训练数据的标注问题，Vidu Q1 使用了高性能的视频标题生成器来自动标注训练视频。在推断过程中，应用了重新标题技术，将用户输入重新表述为更适合模型的形式。
可控视频生成的拓展：Vidu Q1 进行了其他可控视频生成的实验，包括边缘检测到视频生成、视频预测和主体驱动生成等。实验展示了 Vidu Q1 在不同应用场景中的潜力。

Vidu Q1的评测效果

Vidu Q1在海外权威视频生成评测榜单VBench Leaderboard的VBench-1.0和VBench-2.0榜单中登顶，分别以总分87.41%和60.98%的成绩超越了Runway、Sora、LumaAI等国内外视频生成模型，拿下文生视频赛道榜单双第一。
在VBench-1.0的视频质量、视频语义一致性以及VBench-2.0的常识推理、物理理解等综合维度上达到SOTA（State of the Art，即当前最先进的模型）水平，表现出色。
在VBench 2.0的评测中，Vidu Q1在常识推理与物理规律理解两大维度摘得第一，展现出领先的理解与生成能力。
Vidu Q1在国内权威通用大模型综合性测评基准SuperCLUE发布的图生视频专项榜单中，以动漫风格63.52、写实风格67.78的成绩拿下双榜单第一，展现了其在专项应用层面强劲而稳定的图生视频能力。

如何使用Vidu Q1

注册与登录：访问 Vidu 的官网，点击注册或登录。
模型选择：左上角选择Vidu Q1模型。
文生视频：输入文字，描述想要生成的内容，进行个性化设置，可选择试用清晰度1080p。
图生视频：上传图片和尾帧参考图片，输入图片描述想要生成的内容。进行个性化设置，支持选择清晰度1080p。
参考生视频：暂不支持Vidu Q1模型，可切换使用2.0模型。
创作视频：设置完成后，点击创作，获取生成的视频，进行调整。

Vidu Q1的应用场景

影视制作：Vidu Q1 可快速生成高质量的视频内容，大大缩短制作周期并降低成本。多镜头生成能力和对时空一致性的把控，为特效制作、场景剪辑等提供了便利。
广告宣传：Vidu Q1 能快速生成多种风格和主题的视频广告，满足不同客户的需求。可根据用户的兴趣和行为数据，实现精准投放和个性化推荐，提高广告的转化率和效果。
动画制作：Vidu Q1 的多主体一致性控制能力在动画制作中具有重要价值，能确保角色在不同视角下的细节一致性，减轻动画师的工作负担。