Gen-2介绍
Runway最新推出的AI视频生成模型,不用文本,一张图,Gen-2就能生成视频。
好玩到停不下来!
这意味着,一部大片,只需要图片就够了,岂不是人人都能成为好莱坞导演。
这不,已经有网友用Gen-2,结合PS修图,MusicGen、AudioLDM等工具配音,做出了「机器人总动员」翻版影片。
有人把Midjourney和Gen-2混搭,视频画面高级质感简直让人惊掉下巴。
有人用时4小时,制作了一部「火焰之旅」预告片,没有任何提示,只是图像!
有了Gen-2,重拍一部「狮子王」,绝对是不可想象的!

手把手教程
首先通过网页https://research.runwayml.com/gen2注册登录runway的账号,进入runway的编辑界面.
点击左侧的Generate Video。
然后点击屏幕中间的Gen-2:Text to Video进入Gen-2。
在左边的区域上传一张照片,小编这里用的是一张由Midjourney生成的机器人的照片。

提示词:Futuristic machine who is a kind robot who wants to save his planet from his human friends, cinematic, digital illustration, stylized, deep depth of field, high definition, –ar 16:9 –v 5.2
然后什么Prompt都不用输入,上传完照片之后就直接点击Generate。大概1分钟之后,一段4秒钟的视频就生成了。
图中的机器人瞬间就动了起来!
数据统计
数据评估
关于Gen-2特别声明
本站智能信息网提供的Gen-2都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由智能信息网实际控制,在2025年4月26日 下午10:51收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,智能信息网不承担任何责任。
相关导航
Hedra是什么Hedra是由原斯坦福大学的研究团队成立的数字创作实验室推出的AI对口型视频生成工具,专注于将人工智能技术应用于人物角色视频的生成。用户可以上传任意人物的照片和语音,Hedra会根据这些输入生成动态视频,其中人物的唇形、表情和姿态都能与语音内容完美同步。Hedra支持文本和图片生成视频,目前在免费公测中,提供无限时长的视频生成能力,单个视频最长可达30秒(开放预览版),并且每60秒的输入可以生成90秒的视频。Hedra的主要功能文本和图片生成视频:Hedra的核心功能之一是能够将用户的文本和图片输入转化为动态视频。用户上传一张人物的照片和相应的语音文件,Hedra的AI技术会分析语音的节奏、音调和强度,然后精确地调整视频中人物的唇形和面部表情,以匹配语音的节奏和情感。这使得生成的视频看起来非常自然,就像人物在实时说话或唱歌一样。无限时长视频生成:Hedra在开放预览期间提供了无限时长的视频生成能力,用户可以创建更长、更复杂的视频内容。虽然目前单个视频最长的视频长度限制为30秒,但这已经足够用于制作许多类型的短视频内容,如社交媒体帖子、广告、音乐视频等。高效率视频制作:Hedra的算法优化了视频生成的流程,提高了制作效率。用户输入60秒的语音和文本,Hedra可以生成长达90秒的视频。这种效率的提升对于需要快速制作大量视频内容的用户来说非常有用。表情同步:Hedra的AI技术能够确保视频中人物的表情和唇形与输入的语音内容精确同步,包括基本的发音同步,以及更细微的表情变化,如微笑、皱眉或惊讶,从而传达更丰富的情感和语境。多样化角色支持:Hedra不仅限于生成单一角色的视频,支持多样化的角色创建(人类、动漫、动物、石像等),每个角色都可以具有独特的表情、动作和语音。虚拟世界构建:Hedra计划推出的Worlds功能将是一个创新的步骤,允许用户构建和探索自己的虚拟世界。这些世界可以包含多个角色、环境和交互元素,为用户的故事讲述提供无限的可能。创意控制:Hedra提供了一个高度创意的控制面板,用户可以在这个面板上调整角色的外观、动作、语音和环境设置。用户能够精确地实现他们的创意愿景,无论是制作教育视频、商业广告还是艺术作品。跨平台使用:Hedra的设计考虑了用户的便利性,支持在多种设备上使用,包括桌面电脑和移动设备。这种跨平台的支持使用户可以在任何地方、任何时间进行创作,不受设备限制。如何使用Hedra访问Hedra的官方网站(hedra.com),点击Try Beta然后进行登录/注册登录成功后在Audio分栏导入音频或生成音频,并选择音色然后在Character分栏上传角色图片或者输入提示词生成角色最后在Video分栏处点击Generate Video等待生成视频即可生成后的视频可点击下载或进行分享常见问题Hedra是免费的吗?Hedra目前处于免费公测中,不限总时长生成。Hedra基于什么大模型?Hedra基于该公司自研的Character-1角色生成模型。Hedra可生成时长多少秒的视频?Hedra目前单次最长可生成30秒的角色视频。Hedra支持生成哪些画面比例的视频?Hedra目前支持生成1:1画面比例的视频,即将推出16:9的比例。
豆包大模型
豆包大模型是什么豆包大模型是字节跳动推出的AI大模型家族,包括 豆包PixelDance、豆包Seaweed 视频生成、文生图、图生图、同声传译、角色扮演、语音合成、声音复刻、语音识别、Function Call和向量化等多个模型。豆包大模型具备强大的语言理解、生成和逻辑能力,能进行个性化创作、情绪丰富的语音合成、高精度语音识别、多风格图像生成和顶级的视频生成。豆包大模型通过火山引擎提供服务,支持企业和开发者构建智能化应用,推动AI技术在多种业务场景中的落地。豆包大模型的性能在多个评测中表现优异,例如在包括MMLU、BBH、GSM8K和HumanEval在内的11个业界公认的基准测试集中,Doubao-pro-4k模型的总体得分达到了76.8分,在代码能力、专业知识和指令遵循等方面的显著进步。豆包大模型的主要功能通用模型:字节跳动自研LLM模型,支持128K长文本,全系列可精调,具备更强的理解、生成、逻辑等综合能力,适配问答、总结、创作、分类等丰富场景。视频生成:通过精准语义理解、强大动态及运镜能力创作高质量视频,支持文本和图片生成两种模式。角色扮演:创作个性化角色,具备上下文感知和剧情推动能力,适合虚拟互动和故事创作。语音合成:生成自然生动的语音,能表达多种情绪,适用于文本到语音转换。声音复刻:快速克隆声音,高度还原音色和自然度,支持跨语种迁移,用于个性化语音合成。语音识别:准确识别和转录语音,支持多语种,适用于语音命令和转录服务。文生图:将文本转换为图像,擅长图文匹配和中国文化元素创作,用于图像生成和视觉内容创作。图生图:基于现有图像生成新图像,支持风格变换、扩图、重绘和涂抹等创意操作。同声传译:提供超低延时且自然高质量的实时翻译,支持跨语言同音色翻译,打破沟通中的语言壁垒。Function Call:准确识别和抽取功能参数,适合复杂工具调用和智能交互。向量化:提供向量检索能力,支持LLM知识库的核心理解,适用于多语言处理。豆包大模型的功能特点豆包通用模型Pro:字节跳动自研的高级语言模型,支持128K长文本处理,适用于问答、总结、创作等多种场景。豆包通用模型Lite:轻量级语言模型,提供更低的成本和延迟,适合预算有限的企业使用。豆包·视频生成模型:利用先进的语义理解技术,将文本和图片转化为引人入胜的高质量视频内容。豆包·语言识别模型:具备高准确率和灵敏度,能够快速准确地识别和转写多种语言的语音。豆包·Function Call模型:专为复杂工具调用设计,提供精确的功能识别和参数抽取能力。豆包·文生图模型:将文字描述转化为精美图像,尤其擅长捕捉和表现中国文化元素。豆包·语音合成模型:能够合成自然、生动的语音,表达丰富的情感和场景。豆包·向量化模型:专注于向量检索,为知识库提供核心理解能力,支持多种语言。豆包·声音复刻模型:仅需5秒即可实现声音的1:1克隆,提供高度相似的音色和自然度。豆包·同声传译模型:实现超低延迟的实时翻译,支持跨语言同音色翻译,消除语言障碍。豆包·角色扮演模型:具备个性化角色创作能力,能够根据上下文感知和剧情推动进行灵活的角色扮演。豆包大模型的产品官网产品官网:volcengine.com/product/doubao如何使用豆包大模型确定需求:明确项目或业务需求,比如是否需要文本生成、语音识别、图像创作、视频生成等。选择合适的模型:根据需求选择合适的豆包大模型,例如文生图模型、语音合成、视频生成模型等。注册和访问火山引擎:访问火山引擎官网注册账户,是字节跳动的云服务平台,提供豆包大模型的服务。申请访问权限:在火山引擎平台上申请使用豆包大模型的权限,填写相关信息和使用场景。API接入:获取相应的API接口信息,包括API的端点、请求方法和必要的认证信息。开发和测试:根据API文档开发应用程序,将豆包大模型集成到你的业务流程中。进行充分测试,确保模型的输出符合预期。部署应用:在测试无误后,将集成了豆包大模型的应用部署到生产环境。监控和优化:监控应用的性能和模型的效果,根据反馈进行优化。豆包大模型的产品定价大语言模型按tokens使用量付费:Doubao-lite-4k(包括分支版本lite-character):上下文长度4K、输入0.0003元/千tokens、输出0.0003元/千tokens、后付费、免费额度50万tokens。Doubao-lite-32k:上下文长度32K、输入0.0003元/千tokens、输出0.0006元/千tokens后付费、免费额度50万tokens。Doubao-lite-128k:上下文长度128K、输入0.0008元/千tokens、输出0.0010元/千tokens后付费、免费额度50万tokens。Doubao-pro-4k(包括分支版本pro-character、pro-functioncall):上下文长度4K、输入0.0008元/千tokens、输出0.0020元/千tokens后付费、免费额度50万tokens。Doubao-pro-32k:上下文长度32K、输入0.0008元/千tokens、输出0.0020元/千tokens后付费、免费额度50万tokens。Doubao-pro-128k:上下文长度128K、输入0.0050元/千tokens、输出0.0090元/千tokens后付费、免费额度50万tokens。按模型单元付费:独占的算力资源,更加独立可控Doubao-lite-4k、Doubao-lite-32k:可承载性能(TPS)3000、按小时60元/个、包月28000元/个。Doubao-lite-128k:可承载性能(TPS)4500、按小时240元/个、包月112000元/个。Doubao-pro-4k、Doubao-pro-32k:可承载性能(TPS)3200、按小时160元/个、包月80000元/个。Doubao-pro-128k:可承载性能(TPS)3500、按小时1200元/个、包月550000元/个。视觉模型豆包-文生图模型-智能绘图:推理服务、0.2元/次、后付费、免费额度200次。语音大模型Doubao-语音合成:推理服务、5元/万字符、后付费、免费额度5000字符。Doubao-声音复刻:推理服务、8元/万字符、后付费、免费额度5000字符。向量模型Doubao-embedding:最长输入长度4K、输入0.0005元/千tokens、后付费、免费50万tokens。模型精调按tokens使用量(训练文本*训练迭代次数)计费,训练完成后出账。Doubao-lite-4k、Doubao-lite-32k、Doubao-lite-128k:LoRA定价0.03元/千tokens、后付费。Doubao-pro-4k、Doubao-pro-32k、Doubao-pro-128k:LoRA定价0.05元/千tokens、后付费。更多模型及定价信息,可访问豆包大模型官网获取最新信息。豆包大模型的应用场景内容创作与媒体:使用文生图、图生图、视频生成模型生成文章配图、漫画、海报、短视频等视觉内容。语音合成模型为视频、动画制作配音。客户服务:通过角色扮演模型提供虚拟客服和聊天机器人服务。使用语音识别和语音合成模型改善语音客服系统。教育与培训:文生图模型辅助教学材料的制作,如生成教学插图。角色扮演模型创建个性化学习体验和虚拟教师。娱乐与游戏:在游戏中使用角色扮演模型创建非玩家角色(NPC)的对话和行为。用语音合成模型为游戏角色提供自然的语言交流。智能助手:结合语音识别和语音合成模型,开发智能个人助理。用文生图模型生成个性化的推荐内容。市场与广告:用文生图模型自动生成广告创意和营销素材。用通用模型分析消费者反馈,优化广告文案。企业自动化:通过Function Call模型自动化复杂的工作流程和工具调用。用向量化模型进行高效的信息检索和知识管理。搜索与推荐:用向量化模型改善搜索引擎的准确性和响应速度。结合通用模型为用户推荐相关内容或产品。法律与金融:用通用模型进行合同分析、案件研究和合规检查。用语音识别模型转录会议记录和访谈内容。
Ollama
Ollama是一个用于在本地计算机上运行大型语言模型的命令行工具,允许用户下载并本地运行像Llama 2、Code Llama和其他模型,并支持自定义和创建自己的模型。该免费开源的项目,目前支持macOS和Linux操作系统,未来还将支持Windows系统。此外,Ollama还提供了官方的Docker镜像,由此使用Docker容器部署大型语言模型变得更加简单,确保所有与这些模型的交互都在本地进行,无需将私有数据发送到第三方服务。Ollama在macOS和Linux上支持GPU加速,并提供了简单的命令行界面(CLI)以及用于与应用程序交互的REST API。该工具对于需要在本地机器上运行和实验大语言模型的开发人员或研究人员来说特别有用,无需依赖外部云服务。Ollama安装包获取获取Ollama安装包,扫码关注回复:OllamaOllama支持的模型Ollma提供一个模型库,用户可以自行选择安装想要运行的模型,目前支持40+的模型,还在持续增加中,以下是可以下载的开源模型示例:模型参数大小文件大小下载运行命令DeepSeek-R11.5B、7B、14B、32B等12-320GBollama run deepseek-r1Neural Chat7B4.1GBollama run neural-chatStarling7B4.1GBollama run starling-lmMistral7B4.1GBollama run mistralLlama 27B3.8GBollama run llama2Code Llama7B3.8GBollama run codellamaLlama 2 Uncensored7B3.8GBollama run llama2-uncensoredLlama 2 13B13B7.3GBollama run llama2:13bLlama 2 70B70B39GBollama run llama2:70bOrca Mini3B1.9GBollama run orca-miniVicuna7B3.8GBollama run vicuna
文心大模型
百度推出的产业级知识增强大模型
Noisee AI
Noisee AI是由月之暗面Moonshot AI旗下的公司Tranquillitatis, Inc.推出的一个AI音乐视频MV生成工具,用户可以上传音频文件或提供音频链接,如来自Suno、YouTube、Soundcloud等,AI将生成与音乐节奏和风格相匹配的30秒至60秒的视频内容。Noisee AI支持自定义关键词、音乐时间段和参考图片,以创造个性化的音乐视频。Noisee AI的使用过程简单,无需专业视频编辑技能,适合音乐分享、个人项目或营销推广等多种应用场景。Noisee AI的功能特色音乐视频生成: Noisee AI的核心功能是将音频转换成视觉内容。用户上传的音频文件或提供的音频链接,都会被AI分析并转换成具有相应节奏和风格的音乐视频。多种音源支持: 平台支持多种音源输入,包括流行的音乐平台链接(如Suno、YouTube、Udio、Soundcloud等)和本地音频文件,用户能够轻松地将自己喜欢的音乐或自己的作品转换成视频。自定义选项: 用户可以根据自己的喜好对生成的视频进行个性化定制。通过输入自定义关键词,用户可以指导AI生成特定主题或风格的视频。此外,用户还可以指定音乐中的特定时间段,让AI专注于视频中的特定部分。如果需要,用户还可以提供参考图片,以保持视频风格的一致性。智能编辑: Noisee AI利用先进的算法能够根据用户输入的风格、节奏和曲风等自动匹配音乐的节奏和节拍,智能地调整视频效果,确保生成的视频与音乐完美同步,提供流畅且吸引人的视觉体验。视频分享: 生成的音乐视频可以被分享到各种社交媒体平台或用于个人项目,为用户提供了一个展示自己音乐品味和创意的途径,同时也为音乐人提供了一个宣传自己作品的工具。如何使用Noisee AI用户可通过在线网页版或Discord使用Noisee AI:在线网页版访问Noisee AI的官方网站(noisee.ai),点击Create Video进行登录/注册登录成功后进入创作界面,输入音乐在线链接或上传本地音频文件等待音频解析完成,选择音频时段输入提示词,选择参考图片和视频比例最后点击Generate等待音乐视频生成即可Discord服务器加入Noisee的Discord服务器:https://discord.com/invite/noisee-ai切换到#generate-mv节点,输入/imagine指令,添加音乐的在线链接输入提示词描述、选定音频时段、选择参考图片和视频比例最后点击Submit提交后等待视频生成即可Noisee AI的产品定价免费版:每日提供免费100秒普通速度的音乐视频生成、无图片样式参考功能、同时生成1个视频Creator创作者版:每月20美元,提供每月1000秒的优先快速音乐视频生成,快速生成额度用完后每日还提供200秒普通速度的视频生成,支持上传风格参考图片、同时进行3个视频生成队列具体请产品Noisee AI的付费订阅页面:https://noisee.ai/subscriptionNoisee AI的适用人群音乐爱好者:对音乐有浓厚兴趣,喜欢探索音乐与视觉艺术结合的个人,可以使用Noisee AI将喜爱的音乐转换成视频,增加音乐的观赏性。独立音乐人和乐队:需要为自己的作品制作音乐视频,但可能缺乏专业视频制作技能或预算的艺术家,可以利用Noisee AI快速生成音乐视频,用于作品宣传或社交媒体分享。社交媒体影响者:希望在社交平台上分享有创意的内容以吸引关注和增加粉丝的博主或视频创作者,可以使用Noisee AI制作独特的音乐视频来提升内容的吸引力。视频编辑和制作人:虽然具备专业技能,但在需要快速制作或原型设计时,可以使用Noisee AI作为一个工具来加速音乐视频制作流程。技术开发者和AI爱好者:对人工智能和机器学习技术感兴趣,想要了解和体验AI在音乐视频生成领域应用的技术开发者和爱好者。常见问题Noisee AI是免费的吗?Noisee AI提供免费版,用户每天可免费生成100秒时长的音乐视频。Noisee AI支持转换哪些在线平台的音乐?Noisee AI目前支持Suno、Udio、YouTube、Stable Audio、SoundCloud等在线平台的音乐。Noisee AI支持生成时长多少秒的音乐视频?Noisee AI单次支持生成时长30到60秒的音乐视频。Noisee AI生成的视频版权归属于谁?对于付费用户,若在拥有音乐版权的同时拥有自己制作的视频的所有权;对于免费用户,Noisee保留用户制作的视频的所有权,但用户可以将这些视频用于非商业目的。Noisee AI支持生成哪些画面比例的视频?Noisee AI支持生成9:16、16:9、4:3、1:1等画面比例的视频。
Jan(Jan.ai)
Jan(Jan.ai)是一个免费开源的本地运行大模型并进行AI聊天对话的工具,可帮助用户在本地电脑(Windows、Mac、Linux)上安装、部署、运行并使用开源版本的ChatGPT替代大模型,如LLaMa、Mistral、Phi-2等20多个模型,也支持输入自己的OpenAI API Key以运行GPT。相较于AI工具集此前介绍的Ollama,该工具提供了对话UI和API服务器,适合开发者、研究人员或AI爱好者本地体验开源的大模型。Jan的主要功能本地运行开源大模型:支持LlaMa、Mistral、Phi-2、DeepSeek、Yi等20多个模型,可手动导入也可以在模型库下载模型简洁好用的聊天界面:软件界面清爽简洁、直观易用,直接在本地与开源大模型快速进行对话聊天支持多个平台:Jan支持在Windows、Mac(Intel、M1/M2/M3)和Linux等操作系统运行,后续还将推出移动端APP。内置API服务器:与OpenAI API兼容,可通过API获取模型信息、下载、启动、停止模型及聊天等如何使用Jan访问Jan的官网(jan.ai),选择对应的电脑操作系统版本,点击Download进行下载然后安装并打开软件,在软件界面的左下角点击Download your first model进入模型库Hub界面,选择你感兴趣的模型进行下载,下载完成后点击Use使用该模型在对话界面输入你的描述即可与你选择的模型进行对话啦Jan还在持续开发中,后续会支持移动端APP、创建AI助理、推理引擎、插件扩展等功能。
HeyGen数字人
HeyGen数字人官网数字人虚拟主播制作,比D-ID更强大的
笔魂AI绘画
笔魂AI是一款以自主研发的HanVision国产大模型为核心的AI绘画设计创新工具,您仅需简单文本输入,即可发挥无限创意,旨在满足商业和娱乐用途的多样化绘画需求,提供高效且高质量的图像生成服务。
暂无评论...

