美国Sora新版本震撼发布留给中国的时间不多了-墙外头条

“改变世界的产品”来了。钛媒体AGI获悉，北京时间12月10日凌晨，美国OpenAI公司推出 AI 文生视频模型Sora的新版本Sora Turbo，称其比2月预览的Sora模型更快，可生成最高1080p分辨率、最长20秒视频，支持用户输入文字或上传图像，并上线全新UI界面，以便对生成视频进行修改、创建、扩展、循环、混合，或用文本生成全新的内容。

OpenAI称，Sora Turbo将免费提供给ChatGPT Plus和Pro用户，Plus用户每月最多可以生成50个480p分辨率视频，每月20美元（约合人民币145元）；Pro订阅者则最多可生成500个视频，并支持20秒时长、1080p分辨率，可下载无水印版视频，对应每月费用200美元（约合1450元）。

作为OpenAI的重要世界模拟器，你可以看到，上面这组Sora演示画面能够实现一致性和动作连贯性，流畅度也比之前Sora预览版高很多。

OpenAI CEO奥尔特曼（Sam Altman）表示，“视频对 OpenAI 来说很重要，我想分享三点：首先，我们热衷于为创作者打造工具。这种创造文化对我们至关重要，也是我们希望人类利用 AI 的方式之一。在早期测试者中，我们观察到一种新型的协作创作动态，这不仅有趣，而且显示了 AI 创意工具的潜在使用模式；第二，我们不希望这个世界只是科技。如果 AI 系统主要通过文本来与人互动，我认为我们错过了一些重要的东西。我们希望我们的 AI 能理解并生成视频，我认为这将深刻改变我们使用计算机的方式；第三，这对我们的AGI路线图至关重要。视频将是一个重要的环境，我们或AI将在这里学习到很多关于如何实现我们在世界上所需的目标。”

国内对于此次Sora Turbo的发布看法不一。

多位 AI 行业人士向钛媒体App表示，这是改变下一个 AI 视频生成领域的新契机。也有 AI 视频领域技术专家王海（匿名）对钛媒体App坦言，“此前先机都已经被OpenAI‘清零’，今天对于国产AI视频生成行业来说可能是一场‘噩梦’。”

事实上，随着Sora预览版公布，过去300多天引爆了全球 AI 视频创业热潮，国外Runway、Pika、HeyGen都曾声称可以超越Sora，字节、快手、阿里、腾讯等互联网科技巨头也纷纷公布 AI 视频产品，使用者超过百万；智谱、生数、爱诗科技、智象未来等AI 视频初创公司则已经开始从产品转向商业化。AI 短剧导演陈坤曾透露，AI使得的制作周期从通常的3-6个月缩短到了2个月，成本达到传统制作流程的1/4以下。

生数科技联合创始人、CEO唐家渝早前向钛媒体App表示，“整体上来讲，我们（中国）追赶Sora肯定比追赶GPT-4容易一些。今年一定能达到Sora目前版本的效果，很难说是三个月还是半年（笑），但这件事我们的信心还是非常足的。”

一场与Sora的中美 AI 视频生成竞争已经爆发。

生成一个视频0.75元、市场规模将超180亿，视频大模型正加速竞赛“为什么AI视频生成这种产品，优爱腾（优酷、爱奇艺、腾讯视频）和B站不做，却被快手可灵做了出来？”

早前一场私下讨论中，有投资人对一位即将做 AI 视频生成的创业者进行上述质询。他认为，这轮 AI 视频生成的机会已经与传统互联网视频领域有很大不同，优酷、爱奇艺、腾讯视频都不再做 AI 视频领域，但影视行业却看到了发展需求。

2024年2月，OpenAI发布视频生成模型Sora，首次由 AI 生成了长达1分钟的多镜头长视频，输入寥寥数语便能生成效果炸裂视频，镜头感堪比电影，震惊全球。

随后，全球掀起了一场关于Sora的讨论风暴，犹如两年前的ChatGPT爆火，大量 AI 公司以做“中国版Sora”为目标，众多企业、教授、互联网大厂都下场参与其中。

清华大学计算机科学与技术系博世AI教授、生数科技创始人兼首席科学家朱军，曾任字节跳动AI Lab总监、爱诗科技创始人王长虎，前京东集团副总裁、加拿大工程院外籍院士、智象未来创始人梅涛，新加坡国立大学校长青年教授、潞晨科技创始人尤洋等人都已进入 AI 视频这一“红海”赛道当中创业。

事实上，红杉资本2023年发布的一篇关于生成式 AI 发展进程的预测报告中表明，在历经文生文、文生图的升级迭代后，底层大模型技术迭代放缓，因此，视频方向将是 AI 领域需要重点关注的方向之一，因为视频杂糅了文本、语音、图像等多维度内容，有更多的想象空间。

所谓生成式 AI 视频生成，就是通过计算机视觉、机器学习、ViT架构等多种AI技术手段，可实现视频内容生成过程的自动化。

无论是文生视频，还是图生视频、视频生视频，AI 驱动的视频生成工具的使用不断增加，将有助于增强视频制作工作流程，为影视、游戏、培训与教育、营销与广告、社交媒体等领域发展提供更多增长空间。

据Fortunebusinessinsights数据，2024年，全球 AI 视频生成市场规模预计达6.148亿美元，预计到2032年，整个市场规模将超过180亿元，增至25.629亿美元（约合人民币186.36亿元），年复合增长率19.5%，市场前景广阔。

早在Sora发布之前，2023年1月起，Runway、Genmo、英伟达、Pika等海外公司都迅速公布 AI 视频生成和多模态技术产品。而随着Sora爆火，AI+视频技术和产品正在迅猛升级迭代，诸如电影、广告、视频剪辑、视频流媒体平台、UGC 创作平台、短视频综合平台等众多行业有望受益。

截至目前，国内 AI 视频生成参与方主要分为三类：

智谱、生数科技（清华系）、爱诗科技、智象未来HiDream（中科大系）等初创公司和产业链上下游企业；快手、字节跳动、腾讯、阿里等拥有短视频和 AI 技术的互联网科技龙头；TeleAI、智源等央国企搭建的AI研究院和新型研发机构。在这其中，智谱、生数、爱诗科技、智象未来这些初创公司都已经从技术迭代转向了商业化变现，而快手、腾讯、阿里都已逐步为C端提供服务，像腾讯已表达“不急于商业化”的态度。

商业化层面，AI视频生成提供To C端、To B端服务两种。如今，不少AI产品已经开始进军海外，并且推出了较为完备的会员付费体系，快速进行商业化变现。

C端层面，快手可灵、字节即梦、智谱清影、生数Vidu都提供每月的付费服务，或者是有一定限额免费生成AI视频；而B端层面，快手可灵、字节即梦（火山引擎）、生数Vidu、爱诗科技、智象未来等都提供API接口和相关解决方案服务。

以爱诗科技为例。

爱诗科技销售负责人王平（化名）告诉钛媒体App，其主要售卖长达5秒的PixVerse V3和V2.5版本，V2.5版本价格低至每次调用API价格为0.75元/张，一次生成5张左右，也就是3.75元；V3版本提供2倍的价格，即每次调用API价格为1.5元/张，也是一次生成5张，也就是7.5元一次，如果有新功能价格则增加一倍。

同时，爱诗科技需要与企业签订电子版合作协议，预付费价格包括1.5万元/3万元/12万元几个档位，最高可享受8折优惠，如果有新功能价格则增加一倍，当然这也包括一些合同时间限制。

王平强调，爱诗科技这种价格档位是行业里面最低的，低于其他竞争对手（生数、可灵）的报价，但性能效果和其他同行差不多。

唐家渝透露，目前生数Vidu To B版本向每位客户（API）的每月使用费可以从10万到100万元，大部分是预付费方式，客户包括影视、互联网、营销广告等领域；而To C端，Vidu提供免费版和3种收费机制，按月度订阅，标准版、高级版、尊享版价格依次为19.99美元、59.99美元、199.99美元（约合人民币145.22元、435.80元、1452.83元），按年订阅价格95.99美元起，可去水印和商用，并且拥有更多新功能。

同样是清华系的智谱AI，公布支持生成6秒时长的 AI 视频生成产品“清影”，目前也已经公开测试和开源，付费模式层面，如果加速时间，付费5元，解锁一天（24小时）的高速通道权益；付费199元，解锁一年的付费高速通道权益。

然而，由于技术尚未足够成熟，目前市面上的文生视频模型仍然存在一些缺陷。

例如，生成视频在画质、细节、真实感等方面仍与真实视频存在差距，且用户对视频生成过程的控制能力有限，只能通过修改文本提示来间接影响视频生成效果，而文本与视频的语义匹配度不足，也会导致生成效果不及用户预期。

此外，国内 AI 视频生成产业链依然不成熟，面临算力稀缺、数据需要多轮训练等情况。而且，AI 视频成本也很高，整个经济下行导致市场需求低于预期，很多企业已经把商业化转向了KA级大客户和大项目，但这种大型项目回款较难，所以生数、智谱等 AI 企业都在其中寻找“商业化平衡”。

钛媒体App则了解到，有一家国内 AI 视频生成公司于去年成立，就已经从企业客户处获得4000万元的收入，今年预计该公司销售收入将超过1亿元，原因是他们盯上了一块更大的蛋糕：AI 短剧市场。

短剧近年来太火，打开App Store应用商店，榜首基本被短剧应用霸占。用户就爱这种几分钟的“快餐”，剧情快，看着过瘾。市场规模方面，2023年，短剧就已经到了373.9亿元，比前年暴增267.65%，这一数字已经顶得上电影票房的七成了，今年预计还要突破500亿，直逼电影市场。

有行业人士私下向钛媒体AGI解释称，越南等东南亚市场拥有大量短视频和短剧市场需求，很多连续剧需要配音翻译、非事实性视频输出，这些都已需要 AI 视频技术的加持，目前AI短剧单一订单价格基本在数亿元规模。

多位 AI 领域行业人士表示，目前初创企业对于项目的商业“转化率”要求越来越高，而且对于商业化诉求极为强烈，有一些 AI 视频生成企业甚至进入到上游算力赛道、下游影视公司赛道进行议价，通过“打包”方式获得更大的机会点。

AI生成视频仍无法彻底替代影视行业“为什么美国的互联网大厂，没有每个人都做一个视频生成模型，而中国的腾讯、字节却在做？”最近，一位AI视频行业人士向钛媒体App吐槽称，国内 AI 视频生成领域也开始“卷”起来了，价格战、舆论战、销售战都在爆发，但微软、谷歌、Meta这些美国科技巨头却没有任何视频模型产品。

很显然，从算力、算法和数据成本角度考量，中国 AI 视频大模型公司正加速商业化，寻找到落地场景，已经与美国 AI 领域出现不同的“打法”。

智谱AI CEO张鹏则认为，AI生成视频无法彻底替代影视行业，真正进入电影尚需时日。“AI行业对多模态模型的探索还处于初级阶段。”

但 AI 视频“替代”之路正无限接近成为现实。

12月4日晚，谷歌DeepMind团队发布大型基础世界模型Genie 2，声称可以生成各种一致的世界，可玩时间长达一分钟，无论是视频生成效果，还是表现形式，都超出了普通AI视频生成的水平。

事实上，相对于OpenAI、Luma AI这些视频模型、多模态模型平台，谷歌、Meta等巨头都在瞄准一个 AI 未来的赛道：世界模型，而非多模态技术。而谷歌在今年5月发布的AI视频模型Veo如今已经开始内测。

此外，作为AI领域影响力最大的女性华人之一，斯坦福大学教授李飞飞于当地时间12月2日公布了其首个创业项目World Labs的成果——能用单张静态图片生成3D世界的AI产品。

在World Labs网站的演示里，由AI生成的场景均通过浏览器实时渲染而成，用户可以使用箭头键或键盘（WASD）键移动，然后单击并拖动鼠标实现交互，从而自由探索场景。World Labs的AI工具配备了可操控的滑块来调节模拟景深（DoF）与模拟推拉变焦（dolly zoom），当使用者将景深效果调至越强时，背景中的物体便会越发模糊，为整个视觉体验增添了更多层次感与真实感。

如今，AI 视频取代传统影视制作的潮流已势不可挡。今年6月，继好莱坞编剧在大罢工中要求限制AI撰写剧本之后，代表好莱坞演员权益的美国演员工会-美国电视和广播艺人联合会（SAG-AFTRA）表示，AI 在影视行业确有用武之地，但必须在演员同意并付费的前提下使用，譬如在计算机生成的动作、表情捕捉画面上，“AI应该是辅助、增强人类，而不是取代人类”。

因此，美国演员工会认为，应该在影视制作中约束 AI 的使用，以便保护好“人类员工”。就在今年12月，好莱坞级AI视频《Dream Machine》预告片公布，引发关注。

回到国内，今年2月3日，腾讯混元大模型宣布上线文生视频（text-to-video）能力，基于130亿参数，成为国内规模最大AI视频模型，并声称模型效果击败Runway Gen-3、Luma 1.6等；同日，中国电信公布文生视频产品。

如今，随着 Sora Turbo的发展，AI 视频生成这一新兴市场竞争将更为激烈。

留给“中国版Sora”们赶超的时间真的不多了。