第一拨靠Sora赚钱的人已经出现了!Sora的真正价值在哪?2024年2月16日,全球领先AGI创企OpenAI的最新文生视频大模型“Sora”悄然亮相。虽然未经提前预热,但Sora很快成为科技圈的重磅热点,引发360创始人周鸿祎、全球顶尖AI学者杨立昆等人下场讨论。
如同一石激起千层浪,在大部分人还沉浸在春节假期中时,Sora的亮相已让一些人看到了最新造富机遇的曙光。
有人已整理出了业务涉及文生视频的A股上市公司名单。不仅如此,在文生视频市场真正成熟之前,少部分嗅觉敏感的掘金者已经通过知识付费掘到了第一桶金。
「市界」注意到,虽然Sora目前仅对小部分用户开放、尚未开启公测,但围绕Sora相关功能的知识付费课程却几乎在同一时间“火”了起来。
此外,Sora的发布甚至带动了其他GPT相关知识付费课程的售卖。一位在知识星球出售个人GPT搭建教程的博主告诉「市界」,最近几天其感受到付费率明显提升。据其透露,其所售卖的课程早在2023年中就已上架,定价约为500元,自Sora发布后短短两天已经有十余名新会员通过知识星球、微信等不同渠道付费加入社群。
在一个Sora学习群中,一名群友透露:“今天还有个做短视频的老板给我打电话,问我有没有Sora的测试渠道……只能说现在这个触及到了太多人的饭碗了。”
在国内一家AI企业任职产品经理的蒙灵则调侃道:“年初五迎财神,没想到迎来的是OpenAI。”
目前,官方网站已展示48个精彩的视频demo,充分展现了Sora对细节的精准把握、对物理世界存在的深刻理解和丰富情感角色的创造能力。
此外,Sora还可根据文本提示、静态图片或补充现有视频的缺失帧生成视频内容。相较于其他AI视频模型,Sora生成的视频在质量上更为出色,避免了常见的“人工智能怪异”现象,为观众带来更加舒适的观看体验。
更令业内惊叹的是,Sora身上似乎开始出现“世界模型”的雏形。通过大量观察训练,它学会了许多关于真实世界的物理规律。
要知道,原先动画影视公司为让动物的数百万根毛发、皮肤纹理、衣物等细节在3D建模中表现得如现实场景般真实,为此专门成立研究部门,且投入了不菲的成本和时间才得以实现。而如今,Sora只需要一行描述、几次提示便能自动完成。现在,AI与现实之间的界限可能越来越模糊了。
比如,AI想象中的“龙年春节”,Sora能形成紧跟舞龙队伍抬头好奇的儿童,也能生成海量人物角色各种行为。
又如:一位24岁女性眨眼的极端特写,在魔法时刻站在马拉喀什,70毫米拍摄的电影,景深,鲜艳的色彩,电影效果。
还有:一朵巨大、高耸的人形云笼罩着大地。云人向大地射出闪电。
OpenAI的掌门人奥特曼(Altman)通过X网站邀请用户们向Sora投递他们的文字构想。随后,他公开展示了Sora依据这些文字描述创作的精彩视频片段。
连马斯克亦对Sora的能力表示赞叹,并预言:在接下来的几年中,人类将携手AI共同缔造出令人瞩目的杰作。数字经济应用实践专家骆仁童博士对此表示,Sora的诞生标志着人工智能技术的一大飞跃。它不仅展现了AI在解析和创造复杂视觉内容上的超凡实力,更对内容创作、娱乐产业以及影视制作等领域带来了前所未有的冲击与契机。
虽然OpenAI并非文生视频赛道的唯一的玩家,但该领域竞争激烈,众多参与者纷纷涌现。自去年下半年起,谷歌、Meta以及一些AI创业公司开始积极涉足这一市场。国内字节跳动也发布了Pixel Dance文生视频模型。阿里云的Animate Anyone和百度文心大模型也推出了类似的内测功能。
然而,尽管入局者众多,实际效果却不尽如人意。在Runway Gen2、Pika和PixVerse等AI视频工具仍在努力实现数秒内的连贯性时,Sora已经成功地将视频生成时长提升至1分钟,大大提高了视频的实用性。
Sora是如何实现其卓越性能的?OpenAI发布了一份关于Sora的技术报告,详细介绍了其技术原理和应用。
Sora的突破得益于LLM的成功经验,OpenAI通过引入视觉块嵌入代码(patches),这种高度可扩展且有效的视觉数据表示形式,大大提高了生成模型处理多样化视频和图像数据的能力。
在高维空间中,OpenAI首先将视频数据压缩到一个低维潜在空间,再将其分解为时空嵌入,将视频转化为一系列编码块。接着,OpenAI训练了一个专门用于降低视觉数据维度的网络,该网络将原始视频作为输入,输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩后的潜在空间中进行训练,并生成视频。
此外,OpenAI还训练了一个解码器模型,可以将这些潜在表示还原为像素级的视频图像。通过对压缩后的视频输入进行处理,研究人员能够提取出一系列的时空patches,这些patches在模型中类似于Transformer Tokens的角色。采用基于patches的表现形式,Sora能够适应不同分辨率、持续时间和宽高比的视频和图像,在生成新视频内容时,可以通过将这些随机初始化的patches按照需要的大小排列成网格,来控制最终视频的大小和形式。
虽然原理听起来复杂,但OpenAI所使用的新技术——视觉块嵌入代码(简称视觉块)实际上就像将一堆杂乱无章的积木整理好放入一个小盒子中。这样,即使面对众多积木,只要找到了这个小盒子就能轻松找到所需积木。
由于视频数据被转化为了一个个小方块的形式,当OpenAI向Sora提供一个新的视频任务时,他们会首先从该视频中提取出一些包含时间和空间信息的小方块,然后交给Sora让其根据这些信息生成新的视频。这样就可以像拼拼图一样,把视频重新组合起来。
这样做的好处是,计算机可以更快地学习和处理各种不同类型的图片和视频。随着Sora的训练越来越深入,OpenAI的研究人员还发现随着训练计算量的增加,样本质量得到了显著提高。
训练文本到视频生成系统需要大量带有文字标题的视频。OpenAI将在DALL·E 3中引入的重新标注技术应用到视频上,利用GPT将用户的简短提示转换成更长的详细说明,然后发送给视频模型,从而使得Sora能够生成高质量的视频。
除了可以从文字转化而来,Sora还能接受图片或已有视频的输入。这项功能让Sora能够完成各种图片和视频编辑任务,比如制作无缝循环视频、给静态图片添加动画效果、延长视频的播放时间等。
形成“SORA”字样的逼真云朵图像。
在一个装饰华丽的历史大厅里,一道巨大的海浪正准备冲击而来。
Open AI利用其大语言模型优势,将LLM和Diffusion结合训练,通过学习视频,理解现实世界的动态变化规律,并模拟、创造出新的视觉内容,由此产生的视频真实感十足。360董事长周鸿祎指出,现在所有文生图、视频的模型都在2D平面上对图形元素进行操作,并未适用物理定律。
业界专家普遍认为,应用层面的最终目标将是真正通用人工智能(AGI)时代的到来。Sora的技术文档指出,“我们的结果表明,视频生成模型有望向构建通用物理世界模拟器迈进”。这与Sam Altman筹集7万亿美元打造全球AI芯片基础设施的宏伟蓝图相呼应。
因为要实现通用人工智能,必须具备巨大的算力支持。近期有投资界人士透露,Open AI正在讨论新一轮融资,估值高达千亿美元。作为AI行业的领头羊,拥有重塑全球AI芯片行业雄心的Open AI,无疑将继续借助资本的力量不断壮大。
在这场AI公司和资本交织的游戏中,技术迭代始终是跳跃式的,不会给人们太多的时间适应。然而,OpenAI坚信Sora目前的实力表明,持续扩展视频模型是朝着开发能够模拟物理世界和数字世界及其内部物体、动物和人类的模拟器的一条充满希望的途径。
未来的世界和AI行业将驶向何方?现在还无法断言。但可以肯定的是,2024年必将是充满刺激和变革的一年。
《庆余年2》太子装傻的真正目的:太子行事冲动鲁莽,不顾皇谕,强行插手鉴查院司理理案件;未有确证,指认二皇子杀林珙,桩桩件件,显得鲁莽跋邑,毫无智慧,总之缺脑。