gpt制作的短视频 Veo3逼真脱口秀火爆全网，视频生成的GPT时刻到了吗？

用户投稿 2025年08月13日 20:10:04 75 0

Veo3逼真脱口秀火爆全网，视频生成的GPT时刻到了吗？

“如果AI生成的角色拒绝相信他们是AI生成的，会怎么样？”

近日，海外博主用谷歌最新视频模型Veo 3生成的一些人物视频火了。在这些视频中，有一群人集体高呼抗议“We're not prompts（我们不是提示词）”，还有一位男士举着手机自拍，背景是美妙的高山峡谷，他指着身后，“你想说我背后的完美创造物，仅仅是0和1的结果，一串二进制代码，再无其他？这不合理。”

当然台词和剧本是人创作的，但由AI生成的这些人物和场景都极具真实感，无论是光线在人脸上投下的阴影与高光，还是人物的长相、口型，在阳光下眯起眼睛的神态都极为自然。配合Veo 3新的原生音频生成功能，人们再一次惊呼“真实不存在了”。

事实是否真的如此，视频生成的GPT时刻终于来了吗？第一财经记者采访的Veo 3的使用者们并不这么认为。AI Talk主理人、AIGC创作者汗青提到，Veo 3确实是很好的技术，但并没有网传那么夸张，例如视频生成质量有提升但不惊艳，价格不低，现阶段对实际生产帮助还不大。

AIGC创作领域的KOL@尾鳍Vicky对第一财经表示，Veo 3的文生效果是很好，但图生效果与国内第一梯队产品差不多，而在AI创作中，图生视频是更重要的工作流模式，综合价格看还未达到使用者的预期。

是时候和好莱坞说再见了？

Veo 3是谷歌在近日的I/O大会上发布的一系列更新之一，在当时一众眼花缭乱的产品线更新中，并不特别突出，但目前已经超过了其基座模型、智能眼镜更新，成为讨论度最高的产品。

Veo 3最大的迭代是，新增了原生音频生成功能，即模型在生成视频的同时能生成环境音和人物对话等，走出了此前视频生成的“无声时代”。从谷歌的演示看，无论是城市街道的车流声、公园中的鸟鸣，甚至是角色对话，均可通过文本提示生成。

在发布新视频模型的同时，谷歌也发布了针对电影制作人的视频创作工具FLOW。汗青认为，Veo 3配合FLOW的剪辑功能，是AI影像新一代工作流的雏形。

Veo 3发布后，汗青第一时间进行了测试，他用大概两个多小时生成了一条一分半钟的短片《前行列车》，包括影像在内，所有的配音、音效、对口型工作均由Veo 3完成。记者观察到，无论是画面、长镜头的镜头运动、人物表情和神态都非常有电影的质感。

汗青认为，Veo 3的优势是真正原生多模态，原来的工作流是生成图像、生成动画、生成配音/音效/音乐，最后对口型，但Veo 3的工作流是：文字生成动画，全部搞定。

“Veo 3生成的视频，会根据你的要求自动配上音乐和音效，提示词里如果有台词，甚至连配音和对口型都做完了。这应该是本次模型最大的亮点之一。在这个新的多模态范式里，你不用再单独去折腾音乐和找配音、对口型了。”汗青表示，这种一次性生成的体验，不是一站式生成，价值不言而喻，如果体验打磨到位，会大大降低创作的门槛，提升效率。

国外也不乏赞美的声音。海外AI影片制作者@PJ Ace在X上表示，自己曾经拍摄过价值50万美元的药品广告，但现在不到一天的时间内就用500美元的 Veo 3积分完成了一个一分多钟广告视频，“现在花 50 万美元的理由是什么？（此前）拍这样的广告，从剧本到最终剪辑，我和50个工作人员得花两个多月的时间。”

有网友评论表示，从上面提及的这些数字来看，一部时长3小时的AI制作的电影成本约为 9 万美元，“是时候和好莱坞说再见了”。 @PJ Ace认为，AI制作相比好莱坞便宜了10到20倍。

这次出圈的脱口秀视频是海外博主@Hashem Al-Ghaili用Veo 3制作的，他用谷歌的Veo 3做了一个测试，“想象一下，如果AI角色意识到他们生活在模拟环境中会是什么样子”。

谷歌DeepMind首席执行官哈萨比斯（Demis Hassabis）转发了这一视频，并表示，Veo 3在建模直观物理方面的表现令人惊叹，在他看来，这对世界的计算复杂性有着重要的意义。他透露，Veo 3的逼真效果源于其对复杂物理现象的推断能力。

在帖子下面，科技圈名人马斯克也现身称赞，认为Veo 3“Nice work（干得漂亮）”。

在磐霖资本风险合伙人陈利人看来，一个高中生用Veo 3生成的短片就能在TikTok获得百万播放量，画面质量堪比漫威电影预告片，这就像数码相机终结柯达对影像的垄断，GitHub让程序员不必挤进硅谷才能创造伟大产品。“当工具将专业创作能力赋予普通人，垄断文化生产的传统中心将失去存在的必要性。”

I/O大会之前，谷歌组织了一次媒体沟通会，第一财经记者曾问及谷歌的产品经理David，他们是如何实现Veo视频模型的质量提升的，他回复称，团队通过早期版本的实践，了解了需要改进的方向、适用的架构、数据类型，以及如何为模型提供准确、高质量和充足的数据，所有这些经验都融入了迭代过程，这才有了Veo模型的惊喜。

也有业内人士认为，谷歌模型的进展离不开“数据金矿”YouTube，凭借海量的视频资源，谷歌可以轻松训练AI模型，生成效果自然远超竞争对手。哈萨比斯近日在播客节目中提到Veo 3表示，在视频模型方面，“我们对数据质量管理非常严格”。

GPT时刻到了吗

尽管Veo 3的视频生成质量有提升，但长期接触视频生成产品的AI创作者们并不觉得这是“GPT时刻”。

汗青认为，从生成效果上看Veo 3有提升但并不惊艳，“相比Veo 2，效果低于我的预期。”而在真实度这方面，他提到，Veo系列本来就是天花板，此前发布的Veo 2真实性已经很强，Veo 3是向前又走了一步。

与此同时，视频生成的瑕疵还有很多，例如，在火出圈的视频中，一个“方头小孩”明显生成失误，还有被采访的女孩说话时，嘴型与发音略有偏差。汗青体验发现，偶尔出现没有音频的现象，一致性很难把控等等。

汗青用Veo 3生成了一个女主和蜘蛛侠一起做播客访谈的视频，可以看到其仿真度非常高，但背后LOGO的“AI.TALK”一直没能显示正确。

汗青也尝试了在8秒的生成长度中能容纳对话的上限能力，发现在台词较多的时候，会出现丢台词、对话主体混乱（A说了B的话）之类的问题，同时对中文的支持并不好，大部分情况下都会出错。这些都是Veo 3需要不断完善的，远远达不到完美。

汗青肯定了Veo 3音画同出的方式，确实大幅度提升了创作效率，但目前体验下来很多效果远远不够理想，“它的意义是提出一个很有价值的方向，并且比Sora实现得要好得多，但千万别指望现在就能用它做大量的商业生产。”

实际上，第一财经问及视频生成现阶段的挑战时，David也表示，这个领域仍处于早期阶段，视频生成的首要挑战是非常基础的问题——指令遵循。用户提出需求后，是否能得到预期的结果，这也是谷歌在持续改进的方向。

对于创作者来说，除开这些瑕疵点，Veo 3最大问题是文生工作流模式和昂贵的价格。

@尾鳍Vicky与多个视频生成平台都有合作，她表示，Veo 3主要是文生效果很好，但从现阶段真实的商业化生产场景来说，文生视频并不是主要生产力。实际上创作者们“干活”用即梦、可灵、PixVerse、Vidu较多。

AI影视出现至今，AI创作者们有一个业内基本遵循的工作流范式，即以图像为核心，按图像去生成视频、再去音频融合（配音口型），最后剪辑，这是基本流程，而文生视频的流程，不确定性更高。因此当一个新模型不支持图生视频时，则意味着创作者们无法将其用于生产流程。

“即便是Veo 3的出现，我也不认为AI创作基本流程在短期内会有太大的变化，因为控图比控视频的成本低太多了。”汗青也认为，传统的工作流在效率上存在很大的提升空间，Flow的发布让人们看见这种可能性正在形成，不过，还有很长的路要走。

Veo 3另一个问题是价格。目前要使用Veo 3，首先需要谷歌美区账号，同时订阅谷歌最贵的AI ultra套餐，费用高达每月249.99美元（约为人民币1800元），这比OpenAI旗下最贵套餐ChatGPT Pro还贵近50美元。不过，目前首次使用AI ultra的用户在前三个月可以享受50%的特别优惠，现价暂时是124.99美元每月（约为人民币900元）。

但如果用于商业流程，AI ultra套餐也并不够用。汗青介绍，目前每个8秒的Veo 3视频需要150积分，ultra的套餐只赠送12500积分/月，超出部分需要加油包，100个积分1美元，算下来大约1个8秒的镜头就需要1.5美元。

“套餐里这点积分拿来做商业项目是肯定不够的，一般都要涉及加油包的购买。由于文生视频的不可控性，成片率并不高。”汗青表示，以他做的《前行列车》为例，这条一分半的视频，用了6000-7000积分，花费在70美元左右。

从整体上来看，汗青认为Flow和Veo 3是有里程碑意义的一次发布，但绝不推荐大部分人目前重度使用它，除非是氪金玩家，或者有明确商业回报的项目。“恼人的瑕疵非常多，远谈不上完美，也很贵。但意义是让我们看到了新的AI影像工作流的雏形。”

(本文来自第一财经)

AI虚拟主播爆火！每日自动上传游戏实况视频，年入百万美金，播放量超7亿次

智东西

编译 | 金碧辉

编辑 | 程茜

智东西7月3日消息，据外媒CNBC昨天报道，荷兰创业者、游戏主播约尔迪·范登布舍（Jordi van den Bussche）最近创建的蓝色形象的虚拟主播“Bloo”在YouTube收获250万订阅 与7亿次 观看，年收入突破百万美元 。

虚拟主播Bloo（左）、Bloo的创建者约尔迪·范登布舍（右）（图源：CNBC）

范登布舍在YouTube主频道“kwebbelkop”拥有900万订阅用户 ，范登布舍的团队通过ElevenLabs、ChatGPT等AI工具实现视频配音、缩略图制作等全流程自动化。

虚拟主播“Bloo”通过真人动作捕捉驱动，每日自动生成多语言游戏实况视频，能替代人类主播完成游戏实况录制、多语种配音、视频剪辑全流程。

真人可以通过动作捕捉设备实时驱动虚拟形象的表情与肢体动作，比如直播场景，同时由AI系统自动生成多语言配音、视频剪辑及频道运营。

虚拟主播Bloo的演示画面（图源：CNBC）

同时，西班牙的一家内容工厂，由三个人构成的“金手团队”（GoldenHand）也在推动AI视频量产体系：团队通过全自动化流水线日均生成80条视频 ，精准投放65岁 以上银发群体，单频道月收益超3000美元 （折合人民币约为2.17万元）。

在2023年，金手团队推出SaaS工具TubeChef，用户支付18美元 （折合人民币约为130.14元）/月可自动生成10条AI视频 。

一、虚拟主播技术突破，五分钟生成个性化视频

范登布舍在CNBC采访中透露：“人类是当前模式的缺陷。”当前主流虚拟主播多采用“人控模式”（Puppeteering），真人通过动作捕捉驱动虚拟形象，如Bloo的创作者需实时操控角色表情与语音。

人控模式单视频制作需4小时 ，其中包含2小时动捕校准，全AI生成视频因缺乏即兴互动与情感波动，点击率骤降37% 。

但技术正快速进化，专注于AI视频的创作公司Hedra开发的Character-3系统已实现AI生成5分钟时长 的完整剧情视频，其最新融资3200万美元 （折合人民币约为2.31亿元）用于研发实时自动化虚拟人。

Hedra的产品Character-3允许用户制作由AI驱动的可实时动画人物（图源：CNBC）

AI生成的虚拟网红虚拟歌手米拉·索菲亚（Milla Sofia）的AI音乐单条视频在TikTok获得数十万点击量；喜剧演员乔纳森·拉舒沃（Jon Lajoie）的《宝宝脱口秀》是一个超写实AI婴儿角色参与的脱口秀节目，通过AI技术生成婴儿形象并模拟对话，内容幽默荒诞，其中有一个超逼真的动画婴儿对着麦克风说话。

AI技术生成的逼真的婴儿对着麦克风说话（图源：CNBC）

谷歌Veo 3借助V2A技术，将视频像素转为语义信号，结合文本生成同步音频，能精准匹配环境音效、人物对白，实现唇形同步。但因其动用超200亿条YouTube视频训练模型，已被警告或触发平台知识产权危机，面临创作者集体诉讼风险。

二、西班牙团队建AI视频工厂，日产量80条瞄准银发市场

西班牙“金手团队”通过全AI视频流水线实现“去人化生产”，即剥离真人出镜与手动剪辑环节，以GPT-4生成2000字脚 本为起点，经MidJourney自动配图、ElevenLabs语音合成、AI剪辑工具输出成片，最终在旗下18个 “无面孔频道”日均发布80条视频 。

在外媒看来，“金手团队”的商业逻辑在于精准锁定65岁以上银发受众，通过AI批量生成怀旧故事与健康知识等内容单条爆款获百万流量，并推出SaaS平台TubeChef以18美元（折合人民币约为130元）/月订阅价向第三方提供同等产能，而团队人力仅聚焦于每日筛选60-80 个创意原型。

有创作者坦言：“构思每日60-80个爆款创意才是真正挑战，AI反让我更专注创造力。”

三、AI内容洪水淹没平台，用户怒斥“创意已死”

低质AI内容泛滥正触发从用户到技术专家的全链条反弹，社交媒体X上“反AI垃圾内容”声浪高涨，用户直斥“AI图像无处不在，毫无创意和意义，令人失望”。

网友在X平台上的发帖（图源：X平台）

Meta生成式AI顾问、AI政策顾问亨利·阿杰德（Henry Ajder）在CNBC采访中透露“数字污染时代已不可避免，即便内容信息量充足且对部分人具有娱乐性或实用性，我们正步入一个无法区分人类创作与AI生成的时代”。

全AI生成内容的技术瓶颈在虚拟主播Bloo的实验中凸显，其纯AI制作视频点击率下降37% ，创作者约尔迪·范登布舍向CNBC透露：“当前AI缺乏人类即兴互动与情感波动的能力 ”，仅当技术实现更快、更好、更廉价三重突破时才会完全替代人工操作。

“金手团队”的实践进一步印证此矛盾，该团队通过AI工具链日均生产80条视频主攻老年市场，但未标注的AI生成内容正加剧平台虚假信息风险。

在外媒看来，技术检测机制滞后于内容生产规模，从深度伪造检测机构Vermillio透露的数据来看，YouTube的Content ID系统对AI合成音轨的识别误报率达34%，而Meta顾问阿杰德警告称“当平台失去区分人作与AI的能力时，版权体系与信息真实性将同步崩塌”。

2024年7月，牛津大学在《自然》（Nature）子刊发表的研究成果透露，若持续使用AI生成内容训练新模型，算法认知偏差率会提升41% 。研究团队通过多轮实验，发现模型在迭代过程中会逐渐偏离真实数据分布，出现“模型崩溃”现象，生成内容的可信度和多样性大幅降低。

结语：虚拟主播爆发背后：AI视频工具的成本收益账与版权质量坎

虚拟主播的爆发印证了AI视频工具平民化趋势：清华系公司生数科技Vidu覆盖200国用户，使动画制作人力成本降至传统四分之一；谷歌Veo 3以1808元月费降低创作门槛，但技术普及加速内容通胀，导致平台单视频广告收益从千元级缩水至几十元量级。

随着用户使用YouTube内容训练模型，恐触发平台创作者集体诉讼；初创公司Hedra等新技术入场，致低质AI视频泛滥，虚拟内容生产正引发平台知识产权与质量管控的双重危机。

来源：CNBC

chatgpt做短视频靠谱吗?

还比较靠谱。微软推出一个全新集成ChatGPT核心技术的Bing搜索引擎和Edge浏览器,一夜之间市值狂飙5450亿。那么,ChatGPT真的是如此革命性的产品吗?前沿科技领...

gpt可以剪辑视频吗?

不可以。GPT是一种自然语言生成的算法,无法处理视频剪辑等复杂任务。GPT是对“GenerativePre-trainedTransformer”的缩写,即预训练转换器。它是由OpenAI开.....

chatgpt可以生成带货视频吗?

可以生成带货视频。1.因为chatgpt是一种人工智能技术,已经可以生成各种类型的内容,视频也不例外。2.对于带货视频这种商品宣传形式,chatgpt可以通过对商品的分...

GpT可以做动漫视频吗?

是的,GPT可以用于制作动漫视频。GPT是一种基于人工智能的它可以生成文本和对话,而动漫视频通常需要脚本和对话来驱动故事情节。通过使用GPT,可以生成动漫角色...

gpt可以做动画科普视频吗?

gpt可以生成动画。先定脚本文案,这个完全可以用gpt进行批量生产,输入简单的文案指示要求,等待个几分钟就能自动生成动画。gpt生成动画再利用万彩微影【图文...

gpt如何分析视频内容?

GPT通过分析视频的音频和图像内容来理解视频内容。对于音频内容,GPT会将其转换成文本,然后使用自然语言处理技术来理解对话和声音背后的含义。对于图像内容,G...

chatgpt能导入视频吗?

该Chatbot是基于文本生成的AI助手,能够回答用户提出的问题,并进行一定的对话。至于能否导入视频,ChatGPT本身没有涉及到这方面的功能,因为它的输入和输出都...

gpt看视频做总结是把视频拆解成帧吗?

不是,在GPT中观看视频并做总结时,并不是把视频拆解成帧。相反,它是通过强大的自然语言处理能力,对视频进行文本化分析和理解,同时应用深度学习技术生成自然...

如何利用Sora通过做视频赚钱?-ZOL问答

其一,售卖教程;其二,购入股票;其三,制作导航。这三件套经众多产品验证,普通人...都不用你去学,照着官方操作指南念,或参照大神做的图文教程,以视频形式呈现出来...

gpt40帮剪辑了视频但是我看不了是怎么回事?

首先,需要确定您是否真的使用的是GPT-40。目前,GPT-40尚未发布,因此您可能使用的是其他版本的GPT模型。如果使用的是GPT-40,则需要检查您的视频剪辑是否符合...

本文地址： http://rdfzbda.com/article/5a28f6a2.html

文章来源：用户投稿