Gen-2

7个月前更新 8,700 0 0

Runway最新推出的AI视频生成模型,不用文本,一张图,Gen-2就能生成视频。

收录时间:
2025-04-26

Gen-2介绍

Runway最新推出的AI视频生成模型,不用文本,一张图,Gen-2就能生成视频。

Gen-2

好玩到停不下来!

这意味着,一部大片,只需要图片就够了,岂不是人人都能成为好莱坞导演。

这不,已经有网友用Gen-2,结合PS修图,MusicGen、AudioLDM等工具配音,做出了「机器人总动员」翻版影片。

有人把Midjourney和Gen-2混搭,视频画面高级质感简直让人惊掉下巴。

Gen-2

有人用时4小时,制作了一部「火焰之旅」预告片,没有任何提示,只是图像!

有了Gen-2,重拍一部「狮子王」,绝对是不可想象的!
Gen-2

手把手教程

首先通过网页https://research.runwayml.com/gen2注册登录runway的账号,进入runway的编辑界面.

点击左侧的Generate Video。

Gen-2 Gen-2

然后点击屏幕中间的Gen-2:Text to Video进入Gen-2。

Gen-2

在左边的区域上传一张照片,小编这里用的是一张由Midjourney生成的机器人的照片。

Gen-2

提示词:Futuristic machine who is a kind robot who wants to save his planet from his human friends, cinematic, digital illustration, stylized, deep depth of field, high definition, –ar 16:9 –v 5.2

然后什么Prompt都不用输入,上传完照片之后就直接点击Generate。大概1分钟之后,一段4秒钟的视频就生成了。

Gen-2

图中的机器人瞬间就动了起来!

数据统计

数据评估

Gen-2浏览人数已经达到8,700,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:Gen-2的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找Gen-2的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于Gen-2特别声明

本站智能信息网提供的Gen-2都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由智能信息网实际控制,在2025年4月26日 下午10:51收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,智能信息网不承担任何责任。

相关导航

秒创

秒创

秒创是什么秒创(原一帧秒创)是基于秒创AIGC引擎的AI内容创作平台,为200万+创作者提供包括文字续写、文字转语音、文生图、图文转视频、AI成片、数字人播报等创作服务,产品包括秒创数字人、秒创AI帮写、秒创图文转视频、秒创AI视频、秒创AI语音、秒创AI作画等。秒创可以做什么?1. 秒创数字人智能数字人播报平台,输入文案,一键生成“真人”营销视频。AI数字人是以数字孪生等AI技术为基础,1:1还原真人形象、动作、神态、声音,无限逼近真人的数字分身。甚至还可以1:1还原真人形象+1:1还原真人音色,定制专属于您的数字人形象和声音,帮助您快速完成企业和个人IP打造,助力营销增长。2. 秒创图文转视频作为国内领先的智能内容创作平台,输入文案,智能匹配,AI将根据语意自动匹配画面,快速实现从文案到视频的制作,不仅支持文案、文章链接输入,同时也支持PPT文件导入,一键进行视频制作。画面匹配、智能配音、智能字幕等功能,AI都能完美实现。高效产出内容的同时,支持非常灵活的细节调整,文稿、音乐、配音、粗剪、LOGO、字幕、语速等功能,一应俱全。海量在线素材,可任意替换选择,一键图文成片。3. 秒创AI帮写智能文案写作平台,输入灵感,文思泉涌,出“手”成章。秒创提供短视频、营销、直播、风格文案4大类型AI帮写模板,全方位满足用户需求,甚至能直接输出直播脚本,大大提升运营和主播同学的效率。短视频内容、营销文案,秒创AI帮写统统都能帮你搞定。4. 秒创AI作画智能绘画生成平台,输入idea,灵感涌现,释放想象。只需输入作画文本关键词,描述出想要AI作画的场景画面,选择修饰词、艺术风格、艺术家风格,只需一键AI就可以自动生成精美绝伦的绘画作品。5. 秒创文字转语音秒创拥有独有的AI智能配音技术,一键输入文本自动完成配音,囊括全网热门发音人,56种AI配音可供选择,中文英文任意切换,输出的内容像真人一样,为创作者提供丰富的选择空间。AIGC创作平台秒创,依托强大的AI技术,识别文字语义,自动分镜头匹配素材,实现“自动化视频剪辑”,一键成片,一天轻松制作100条”高质量原创视频“。6.PPT转视频PPT转视频是秒创推出的新功能支持用户上传本地的PPT和PPTX文件,能将静态的幻灯片内容瞬间转化为动态的视频。备注解析成文案:用户可以在PPT的备注栏中输入文本,这些文本将被自动识别并转化为视频中的文案内容。矩阵化视频生成:通过智能技术,秒创平台能够将PPT内容矩阵化,生成视频,同时保留PPT中的所有文字和图片,使视频内容更加专业和精准。7.AI视频AI视频功能进行全面升级,新增了文生图与图生视频两大特性,支持多样的视频时长及比例选择。文字描述或图片素材转化为视频:提供文字描述或图片素材,转化为视觉作品。多种视频比例选项:平台提供了16:9、9:16、4:3等多种视频比例选项,适应不同场景下的应用需求。快速生成与一致性保证:确保输出内容的专业性和连贯性。秒创的产品价格目前秒创免费使用是完全没问题的,当然会员可享受更多权益。如果您对秒创有更高的使用需求,可以开通付费版,AI工具集专属渠道优惠18.8元(注册后7天内有效),截止时间2023.12.31。秒创的应用场景自媒体内容创作:自媒体作者可以用秒创平台将文字文章快速转化为吸引人的视频内容,提高粉丝互动和内容传播效果。企业营销推广:企业可以用秒创平台快速生成产品介绍、品牌宣传等营销视频,提升品牌形象和市场影响力。教育培训:教育机构和个人教师可以用秒创平台将教学资料转换为生动的视频课程,提升学习体验和教学效果。新闻媒体:新闻机构可以利用创平台快速将文字新闻转化为视频报道,适应现代受众的信息获取习惯。个人创作:普通用户可以用秒创平台简单易用的视频创作工具,实现个人创意的快速可视化。社交媒体运营:社交媒体运营者可以用秒创平台快速生成适合各平台的视频内容,提高账号活跃度和影响力。
OpenBMB:清华团队支持发起的大规模预训练语言模型库与相关工具

OpenBMB:清华团队支持发起的大规模预训练语言模型库与相关工具

OpenBMB全称为Open Lab for Big Model Base,旨在打造大规模预训练语言模型库与相关工具, 加速百亿级以上大模型的训练、微调与推理,降低大模型使用门槛,与国内外开发者共同努力形成大模型开源社区, 推动大模型生态发展,实现大模型的标准化、普及化和实用化,让大模型飞入千家万户。OpenBMB开源社区由清华大学自然语言处理实验室和智源研究院语言大模型加速技术创新中心共同支持发起。 发起团队拥有深厚的自然语言处理和预训练模型研究基础,近年来围绕模型预训练、提示微调、模型压缩技术等方面在顶级国际会议上发表了数十篇高水平论文。
Hedra

Hedra

Hedra是什么Hedra是由原斯坦福大学的研究团队成立的数字创作实验室推出的AI对口型视频生成工具,专注于将人工智能技术应用于人物角色视频的生成。用户可以上传任意人物的照片和语音,Hedra会根据这些输入生成动态视频,其中人物的唇形、表情和姿态都能与语音内容完美同步。Hedra支持文本和图片生成视频,目前在免费公测中,提供无限时长的视频生成能力,单个视频最长可达30秒(开放预览版),并且每60秒的输入可以生成90秒的视频。Hedra的主要功能文本和图片生成视频:Hedra的核心功能之一是能够将用户的文本和图片输入转化为动态视频。用户上传一张人物的照片和相应的语音文件,Hedra的AI技术会分析语音的节奏、音调和强度,然后精确地调整视频中人物的唇形和面部表情,以匹配语音的节奏和情感。这使得生成的视频看起来非常自然,就像人物在实时说话或唱歌一样。无限时长视频生成:Hedra在开放预览期间提供了无限时长的视频生成能力,用户可以创建更长、更复杂的视频内容。虽然目前单个视频最长的视频长度限制为30秒,但这已经足够用于制作许多类型的短视频内容,如社交媒体帖子、广告、音乐视频等。高效率视频制作:Hedra的算法优化了视频生成的流程,提高了制作效率。用户输入60秒的语音和文本,Hedra可以生成长达90秒的视频。这种效率的提升对于需要快速制作大量视频内容的用户来说非常有用。表情同步:Hedra的AI技术能够确保视频中人物的表情和唇形与输入的语音内容精确同步,包括基本的发音同步,以及更细微的表情变化,如微笑、皱眉或惊讶,从而传达更丰富的情感和语境。多样化角色支持:Hedra不仅限于生成单一角色的视频,支持多样化的角色创建(人类、动漫、动物、石像等),每个角色都可以具有独特的表情、动作和语音。虚拟世界构建:Hedra计划推出的Worlds功能将是一个创新的步骤,允许用户构建和探索自己的虚拟世界。这些世界可以包含多个角色、环境和交互元素,为用户的故事讲述提供无限的可能。创意控制:Hedra提供了一个高度创意的控制面板,用户可以在这个面板上调整角色的外观、动作、语音和环境设置。用户能够精确地实现他们的创意愿景,无论是制作教育视频、商业广告还是艺术作品。跨平台使用:Hedra的设计考虑了用户的便利性,支持在多种设备上使用,包括桌面电脑和移动设备。这种跨平台的支持使用户可以在任何地方、任何时间进行创作,不受设备限制。如何使用Hedra访问Hedra的官方网站(hedra.com),点击Try Beta然后进行登录/注册登录成功后在Audio分栏导入音频或生成音频,并选择音色然后在Character分栏上传角色图片或者输入提示词生成角色最后在Video分栏处点击Generate Video等待生成视频即可生成后的视频可点击下载或进行分享常见问题Hedra是免费的吗?Hedra目前处于免费公测中,不限总时长生成。Hedra基于什么大模型?Hedra基于该公司自研的Character-1角色生成模型。Hedra可生成时长多少秒的视频?Hedra目前单次最长可生成30秒的角色视频。Hedra支持生成哪些画面比例的视频?Hedra目前支持生成1:1画面比例的视频,即将推出16:9的比例。
Gemma

Gemma

Gemma是什么Gemma是由谷歌DeepMind和谷歌的其他团队开发的一系列轻量级、先进的开放AI模型,基于与Gemini模型相同的技术,旨在帮助开发者和研究人员构建负责任的AI应用。Gemma模型系列包括两种权重规模的模型:Gemma 2B 和 Gemma 7B,提供预训练和指令微调版本,支持多种框架,如JAX、PyTorch和TensorFlow,以在不同设备上高效运行。6月28日,第二代模型Gemma 2已发布。Gemma的官方入口Gemma的官网主页:https://ai.google.dev/gemma?hl=zh-cnGemma的Hugging Face模型:https://huggingface.co/models?search=google/gemmaGemma的Kaggle模型地址:https://www.kaggle.com/models/google/gemma/code/Gemma的技术报告:https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf官方PyTorch实现GitHub代码库:https://github.com/google/gemma_pytorchGemma的Google Colab运行地址:https://colab.research.google.com/github/google/generative-ai-docs/blob/main/site/en/gemma/docs/lora_tuning.ipynbGemma的主要特性轻量级架构:Gemma模型设计为轻量级,便于在多种计算环境中运行,包括个人电脑和工作站。开放模型:Gemma模型的权重是开放的,允许用户在遵守许可协议的情况下进行商业使用和分发。预训练与指令微调:提供预训练模型和经过指令微调的版本,后者通过人类反馈强化学习(RLHF)来确保模型行为的负责任性。多框架支持:Gemma支持JAX、PyTorch和TensorFlow等主要AI框架,通过Keras 3.0提供工具链,简化了推理和监督微调(SFT)过程。安全性与可靠性:在设计时,Gemma遵循Google的AI原则,使用自动化技术过滤训练数据中的敏感信息,并进行了一系列安全评估,包括红队测试和对抗性测试。性能优化:Gemma模型针对NVIDIA GPU和Google Cloud TPUs等硬件平台进行了优化,确保在不同设备上都能实现高性能。社区支持:Google提供了Kaggle、Colab等平台的免费资源,以及Google Cloud的积分,鼓励开发者和研究人员利用Gemma进行创新和研究。跨平台兼容性:Gemma模型可以在多种设备上运行,包括笔记本电脑、台式机、物联网设备和云端,支持广泛的AI功能。负责任的AI工具包:Google还发布了Responsible Generative AI Toolkit,帮助开发者构建安全和负责任的AI应用,包括安全分类器、调试工具和应用指南。Gemma的技术要点模型架构:Gemma基于Transformer解码器构建,这是当前自然语言处理(NLP)领域最先进的模型架构之一。采用了多头注意力机制,允许模型在处理文本时同时关注多个部分。此外,Gemma还使用了旋转位置嵌入(RoPE)来代替绝对位置嵌入,以减少模型大小并提高效率。GeGLU激活函数取代了标准的ReLU非线性激活,以及在每个Transformer子层的输入和输出都进行了归一化处理。训练基础设施:Gemma模型在Google的TPUv5e上进行训练,这是一种专为机器学习设计的高性能计算平台。通过在多个Pod(芯片集群)上进行模型分片和数据复制,Gemma能够高效地利用分布式计算资源。预训练数据:Gemma模型在大量英语数据上进行预训练(2B模型大约2万亿个token的数据上预训练,而7B模型则基于6万亿个token),这些数据主要来自网络文档、数学和代码。预训练数据经过过滤,以减少不想要或不安全的内容,同时确保数据的多样性和质量。微调策略:Gemma模型通过监督式微调(SFT)和基于人类反馈的强化学习(RLHF)进行微调。这包括使用合成的文本对和人类生成的提示响应对,以及基于人类偏好数据训练的奖励模型。安全性和责任:Gemma在设计时考虑了模型的安全性和责任,包括在预训练阶段对数据进行过滤,以减少敏感信息和有害内容的风险。此外,Gemma还通过了一系列的安全性评估,包括自动化基准测试和人类评估,以确保模型在实际应用中的安全性。性能评估:Gemma在多个领域进行了广泛的性能评估,包括问答、常识推理、数学和科学问题解答以及编码任务。Gemma模型与同样规模或更大规模的开放模型进行了性能对比,在MMLU、MBPP等18个基准测试中,有11个测试结果超越了Llama-13B或Mistral-7B等模型。开放性和可访问性:Gemma模型以开源的形式发布,提供了预训练和微调后的检查点,以及推理和部署的开源代码库。这使得研究人员和开发者能够访问和利用这些先进的语言模型,推动AI领域的创新。常见问题Gemma一词的含义是什么?Gemma在拉丁语中的意思是“宝石”。Gemma是开源的吗?Gemma是开源开放的大模型,用户可在Hugging Face查看和下载其模型。Gemma模型的参数量是多少?Gemma目前提供20亿和70亿参数量的模型,后续还会推出新的变体。
DeepFloyd IF:StabilityAI旗下的DeepFloyd团队推出的图片生成模型

DeepFloyd IF:StabilityAI旗下的DeepFloyd团队推出的图片生成模型

DeepFloyd IF是由StabilityAI旗下的DeepFloyd研究团队推出的开源的文本到图像生成模型,IF是一个基于级联方法的模块化神经网络。IF是由多个神经模块(处理特定任务的独立神经网络)构建的,在一个架构内联合起来产生协同效应。IF以级联方式生成高分辨率图像:从产生低分辨率样本的基础模型开始,然后由一系列的升级模型提升,以创造令人惊叹的高分辨率图像。IF的基础和超分辨率模型采用扩散模型,利用马尔可夫链步骤将随机噪声引入数据中,然后再反转过程,从噪声中生成新的数据样本。IF在像素空间内操作,而不是依赖潜伏图像表征的潜伏扩散(如稳定扩散)。
Jan(Jan.ai)

Jan(Jan.ai)

Jan(Jan.ai)是一个免费开源的本地运行大模型并进行AI聊天对话的工具,可帮助用户在本地电脑(Windows、Mac、Linux)上安装、部署、运行并使用开源版本的ChatGPT替代大模型,如LLaMa、Mistral、Phi-2等20多个模型,也支持输入自己的OpenAI API Key以运行GPT。相较于AI工具集此前介绍的Ollama,该工具提供了对话UI和API服务器,适合开发者、研究人员或AI爱好者本地体验开源的大模型。Jan的主要功能本地运行开源大模型:支持LlaMa、Mistral、Phi-2、DeepSeek、Yi等20多个模型,可手动导入也可以在模型库下载模型简洁好用的聊天界面:软件界面清爽简洁、直观易用,直接在本地与开源大模型快速进行对话聊天支持多个平台:Jan支持在Windows、Mac(Intel、M1/M2/M3)和Linux等操作系统运行,后续还将推出移动端APP。内置API服务器:与OpenAI API兼容,可通过API获取模型信息、下载、启动、停止模型及聊天等如何使用Jan访问Jan的官网(jan.ai),选择对应的电脑操作系统版本,点击Download进行下载然后安装并打开软件,在软件界面的左下角点击Download your first model进入模型库Hub界面,选择你感兴趣的模型进行下载,下载完成后点击Use使用该模型在对话界面输入你的描述即可与你选择的模型进行对话啦Jan还在持续开发中,后续会支持移动端APP、创建AI助理、推理引擎、插件扩展等功能。
Vozo

Vozo

Vozo是什么Vozo是一款多功能AI视频编辑工具,支持一键脚本重写、自动配音、文本驱动的语音编辑、多角色口型同步、专业多语言翻译和自动视频优化,为用户提供高效、灵活的视频创作解决方案。Vozo简化了视频编辑过程,为内容创作者提供了广阔的创意空间,支持视频内容的国际化和个性化传播,推动视频内容创作和分发进入一个多元化、个性化的新时代。Vozo的主要功能智能视频重写与重配音:Vozo能根据用户给出的提示自动重写视频脚本,并生成与原视频声音相似的配音,视频内容可以快速适应不同的语境和风格。文本驱动的语音编辑:用户可直接通过编辑文本来调整视频的解说,无需重新录制音频,同时可以选择合适的口音、语调和情感,以匹配视频内容的需要。多角色口型同步:Vozo采用先进技术实现视频中多个角色的口型同步,确保对话看起来自然流畅,增强了视频的真实感和沉浸感。专业视频翻译:支持将视频内容翻译成多种语言和方言,翻译准确度高,帮助创作者轻松实现内容的国际化,拓宽受众范围。自动视频优化:Vozo能够自动调整视频的裁剪、重构和比例,适应不同社交平台的格式要求,确保视频在各个平台上都能以最佳状态呈现。如何使用Vozo下载和安装:访问Vozo的官网(vozo.ai)下载Vozo应用程序,并按照指示完成安装。注册和登录:安装完成后,打开Vozo应用程序,注册账户或使用现有账户登录。导入视频:登录后,导入需要编辑的视频文件。智能视频重写与重配音:选择视频后,使用智能视频重写功能,输入新的脚本提示。Vozo将根据提示自动生成新的配音,可以预览并调整以确保配音与视频内容匹配。多角色口型同步:如果视频中有多个角色对话,可以使用口型同步功能,确保每个角色的口型与配音同步。导出和分享:编辑完成后,预览整个视频,确认无误后导出视频文件。Vozo提供多种视频格式和质量选项供选择。导出后,可将视频分享到社交媒体或其他平台。Vozo的应用场景视频内容的二次创作:Vozo允许用户通过简单的提示词来重写视频脚本,并自动生成与原声相似的配音,将经典视频转化为病毒营销视频或喜剧效果 。广告和营销:广告公司可利用Vozo快速创建针对不同受众的多版本广告,提高创意效率 。多语言视频制作:Vozo支持将视频翻译成30多种语言和方言,翻译准确度高达98.9%,帮助营销人员和电商将产品视频翻译成多种语言,扩大全球市场影响力 。视频配音和文本编辑:可直接通过编辑文本来修改视频解说,无需重新录音,系统提供多种口音、语调和情感选项,提高视频内容的灵活性和表现力 。多角色口型同步:Vozo采用先进技术,能为视频中的多个角色实现自然流畅的口型同步,确保对话看起来真实自然。视频格式自动优化:Vozo能自动裁剪、重构和调整视频比例,以适应不同社交平台的要求,确保内容在各种平台上都能以最佳格式呈现。

暂无评论

none
暂无评论...