OpenAI于2024年2月发布的由Sora生成的“东京街头漫步”画面
编者的话:2024年2月15日,一幅“女子在东京街头漫步”的演示画面惊艳全球,让人们看到了人工智能(AI)的无限可能。可仅仅两年多的时间,生成这一视频的大模型应用Sora却迎来了关停的命运——3月25日,发布Sora的美国人工智能公司OpenAI宣布将停止Sora视频生成服务。也正是在这短短两年时间里,全球文生视频行业迎来快速发展,相关大模型快速推出,赛道竞争也愈发激烈。作为OpenAI的里程碑产品,Sora为何会在此时宣布关停?这给全球相关大模型企业带来怎样的启示?中国的文生视频大模型竞争力又体现在哪里?
每天亏损约100万美元
就在上个月初,OpenAI首席执行官奥尔特曼来到洛杉矶参加奥斯卡派对时,他的公司距离向好莱坞电影公司授权其Sora视频生成工具仅剩几周时间。迪士尼高管们正在为双方合作带来的股价上涨而举杯庆祝,但他们不知道的是,在Sora推出后的几个月里,它已悄然成为OpenAI的一个不利因素,尤其是在这家初创公司为即将进行的首次公开募股做准备之际。
“奥尔特曼曾梦想通过该项目将公司进一步打造成AI时代的创意先锋,并且带来丰厚的收入,然而这一标志性项目以令人震惊的方式告终。”据美国《华尔街日报》报道,在ChatGPT大获成功之后,Sora被吹捧为AI领域下一个面向消费者的前沿产品。Sora是一款文生视频大模型,于2024年2月15日正式对外发布。2025年9月30日,OpenAI发布视频生成模型Sora 2并推出社交应用Sora,该应用程序可以根据用户的文本提示创建最长60秒的逼真视频。
然而据美国《华尔街日报》报道,这款应用程序并未如其开发者所设想的那样取得成功。它更像是人工智能的“垃圾”而非“魔法”。有数据显示,该应用上线后不久,全球用户数曾在一段时间内达到约100万的峰值,但在随后的几个月里,用户数降至50万以下。
Sora关停后,多家外媒在分析其背后原因时,将矛头主要指向了成本问题。据一位知情人士透露,Sora每天亏损约100万美元,原因在于大规模运行视频生成任务的成本高得惊人。美国《纽约时报》在一篇文章中分析说,去年,OpenAI营收约为130亿美元,但预计在未来4年还将花费约1000亿美元。对OpenAI来说,运营一个AI视频生成服务,尤其是一个没有收入来源的应用程序是一项巨大开支。
除了成本之外,此次关停Sora也暴露出OpenAI公司自身的业务和竞争力问题。《华尔街日报》分析认为,OpenAI正面临来自竞争对手Anthropic日益增大的压力,后者凭借多款产品,已成为当下美国企业AI服务的主要提供商。从业务板块看,Anthropic押注的产品比OpenAI少,避开了图像和视频生成产品,这也保证其能够将精力集中在重要盈利方面。如今,OpenAI和Anthropic两家公司都已朝着公开上市迈出步伐,竞争更加激烈。这也迫使OpenAI不得不及时抛弃亏损项目,调整战略重心。
至于Sora未来将用于何处?OpenAI表示,公司将继续在幕后使用该技术以训练人形机器人完成特定的任务。与此同时,OpenAI预计将把重点转向一款新的“超级应用程序”,该应用程序融合了所谓的“代理式”AI工具,能够自主为用户执行编写软件、分析数据和预订旅行等任务。
“中国大模型更具规模化应用潜力”
“Sora变得令人厌烦。”美国“商业内幕”网站在报道中提到,很多下载Sora的用户在一开始会对AI制作视频充满好奇与兴趣,但没过多久就失去了新鲜感。几乎在同一时期,Meta也尝试推出了一款基于AI技术的视频应用程序,结果同样令人失望。这引发了一个值得深思的问题:AI生成视频的商业价值究竟有多大,以及如何才能可持续发展下去?
尽管Sora在商业化道路上最终失败,但接受《环球时报》记者采访的多位专家均对未来AI视频大模型的商业化潜力表示看好。
上海外国语大学世界智库研究中心人工智能项目负责人张志鹏在接受《环球时报》记者采访时表示,生成式AI赛道的竞争已不再是单纯的算力角逐,而是涵盖市场场景、人才密度、数字基建与文化底蕴的全要素、系统性竞争。
张志鹏进一步分析说,有数据显示,Sora生成一段15秒左右的理想镜头需尝试5至10次,合计成本约800元人民币。相较之下,同样是生成15秒高质量镜头,中国主流文生视频大模型的试错成本已被压缩至150元人民币左右。这种成本优势让中国大模型更具规模化应用潜力,尤其受到中小企业青睐。
美国《福布斯》杂志也在一篇文章中称,Sora的关停,或许并非是OpenAI的战略失误,而是一个关于AI竞争中“场景数据优势”的故事。未来能够可持续发展的项目或者AI应用,将是那些有丰富场景数据,如客户互动、临床诊疗、物流网络等,并能在此基础上深度锚定与落地的项目。
伴随着Sora即将关停,全球文生视频行业迎来新的竞争格局。据美国《洛杉矶时报》近日报道,在OpenAI表示将关闭Sora一周之后,来自中国的可灵AI(Kling AI)、美国RunwayML 等同类大模型已经占据了优势地位。数据显示,可灵AI自3月20日至3月26日的全球周活跃用户数较前一周增长了4%。另外值得关注的是,在过去的一年里,谷歌、Meta以及美国富豪马斯克的xAI都在各自的聊天机器人中加入了文生视频功能,尽管这些公司并未单独披露这些功能的具体使用数据,但这也意味着赛道竞争更加激烈。报道中提醒,与OpenAI一样,如果这些竞争对手希望避免重蹈覆辙,就必须在用户需求与成本之间取得平衡。
张志鹏认为,庞大的市场为中国文生视频大模型构建“技术赋能场景、场景反哺技术”的商业闭环提供了土壤。他举例说:“中国拥有极为活跃的短视频和微短剧生态,为视频大模型提供了大规模工业化应用场地,使内容创作者和大模型开发者双方都能根据真实的受众反馈不断试错、快速迭代。”
市场进入多极化竞争
2023年,在文生视频刚刚起步时,一段AI生成的威尔·史密斯吃意大利面视频,因其质量之拙劣成功“出圈”,被认为是AI在视频生成领域能力有限的直观写照。
短短3年后,如今各大AI企业视频模型所生成的“吃面”视频已然真假难辨。谁生成的视频更真实成为各家企业模型水平的“试金石”。
英国广播公司近日在报道中提到 ,中国企业字节跳动开发的视频生成模型Seedance 2.0不仅能创造出这位明星享用意面的逼真影像,还衍生出史密斯大战意面怪物等视频——其观感堪比高成本电影。影视行业人士直言:“其生成复杂动作场景的逼真度已超越同类产品。”
而这背后,是近年来中国企业在文生视频领域从“跟跑者”到“领跑者”的身份转变。
清华大学新闻与传播学院、人工智能学院双聘教授沈阳很早之前便开始使用AI进行艺术创作,对中国及海外文生视频模型的发展有深刻体会。在接受《环球时报》记者采访时,他对这一领域的变化进行了梳理:2024年2月OpenAI发布Sora技术演示视频可以被视作该领域的“ChatGPT时刻”,标志着文生视频进入主流视野并引发资本与公众关注;在这之后,2024年初至年中,Sora凭借演示质量处于领先位置,Runway Gen-2/Gen-3、Luma Dream Machine、Pika等海外模型同步发展,主要在生成时长、一致性与镜头控制维度展开竞争。
“变化出现在2024年中至2025年。”沈阳告诉记者,这一时期中国相关大模型实现赶超。快手旗下的可灵、字节跳动的Seedance、生数科技的Vidu等中国企业模型产品在动作真实度、生成速度、成本控制及中文适配方面取得进展。而从2025年到2026年,市场进入多极化竞争阶段。美国企业谷歌的Veo 3.1在电影级光影与音频同步方面具备优势,Runway Gen-4侧重专业创意控制与工作流集成,而可灵3.0、Seedance 2.0、Vidu Q3等模型在性价比、长视频一致性、4K分辨率及平台生态融合上占据优势。
直到Sora的突然离场,犹如一声惊雷在文生视频行业中“炸响”。美国《福布斯》杂志分析称 ,Sora最终将作为一个警示路标被铭记,其短暂生命带来的重大实践教训在于揭示了AI视频的下一阶段,将不再由发布当天看起来最惊艳的应用决定,而更多地取决于谁能将这些模型整合到围绕版权、来源、存储、审批、搜索、版本控制和客户信任构建的持久工作流程中。
对此,沈阳表示,中国企业推出的与Sora功能类似、以视频生成为主的模型同样面临一致性、物理模拟、长视频连贯性及算力消耗等技术挑战。但他同时强调,中国企业依托本土平台生态形成了“生成—编辑—分发—变现”的完整闭环;中国企业模型的成本控制与迭代速度具备优势;此外,这些模型针对中文场景与用户需求进行了深度适配,已经建立起稳定的商业反馈机制。总体而言,Sora属于技术驱动的独立应用模式,而中国企业模型已融入内容生产生态系统,形成差异化发展路径。“可以认为,Seedance 2.0发布之后,这一领域开始进入到中国视频大模型初步领先的新阶段。”沈阳说。(本报记者 肖震冬 李迅典 本报特约记者 任 重)▲