猎豹移动CEO傅盛解读Sora背后的技术突破
OpenAI 发布第一个文生视频大模型 Sora, 立刻引发了广泛的关注和探讨。2 月 19 日,猎豹移动董事长兼 CEO、猎户星空董事长傅盛受邀做客央视财经 2024 年的全新专栏直播节目《光华录》,与主持人周运、财经科技观察员、中国通信标准化协会互动媒体标准推进工作委员会的副主席包冉一道,围绕 Sora 展开一场对话。
在节目中,傅盛表示,Sora 的出现证明了文生视频技术已经可以达到以假乱真的程度,这是一个里程碑式的突破。他认为,虽然 Sora 是一次产品级的成功,但真正的大语言模型才是技术上的重大突破。傅盛解释说,Sora 能够达到以假乱真的效果,是因为大语言模型的出现复刻了人类的推理和直觉,使得 Sora 能够通过直觉把物理世界展现出来。
从技术的角度来看,傅盛认为,Sora 并没有在技术上有什么重大突破,而是采用了更大的算力和更好的工程化,“你可以把它理解成更好的工程化,采用了更大的算力,可以总结成一个成语叫熟能生巧。我们以前建模是为了通过一个物理引擎去模拟真实的世界,但是还有一种方式,不需要通过一个物理引擎,就算是一个普通人,天天画,就跟画鸡蛋一样,我一画就有了立体感,熟能生巧。我脑子里并没有物理方程式,但是因为我见了很多以后,我就形成直觉了。由于这次大语言模型的出现,把以前人的那种推理和直觉给复刻出来,所以这一次 Sora 从技术层面来说,也是特别得益于大语言模型的出现,使得它没有去建一个纯粹的物理模型,但是能够通过直觉把物理世界展现出来。”
在文生图领域,Sora 并不是简单地找了一个近似的人,而是创造出了一个全新的人物。这一点在文生图领域已经有了先例。比如,让 Sora 创造一个美女,这个人物在现实世界中可能从未出现过,但是看起来却符合观众的审美标准。此外,观察 OpenAI 发布的视频,可以发现其中一些地方有些取巧,或者说是故意让观众感到震惊。比如,水面倒影和雪的质感等。虽然我们认为最难的是光影效果,但对于大模型或者图像引擎来说,画一个普通鸡蛋和描绘晚上水面的倒影没有本质区别。我们之所以感觉到区别,是因为我们受限于使用的器材和我们的认知积累。换句话说,对于一个小孩来说,黑夜和白天在视觉上并没有本质区别。
傅盛认为“这相当于它又打开了一扇门”,“文成视频能做的这么好,很快很多人都会进入,我昨天还专门跟我们在美国的同事做了探讨,觉得它并不是一个独一无二的技术,未来会出现很多这样的工具。”
在讨论硬件层面时,傅盛提到,算力的成本在持续下降,类比汽车刚出现时汽油价格的下降。他表示,即使算法没有更新,算力的成本也会急剧下降。他还指出,今年出现的新 CPU 都会带有一个推理算力的子芯片,这种趋势将使得大模型的应用变得更加普及。
免责声明
凡本网注明“来源:XXX(非高科技网)”的内容,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
如有侵权等问题,请及时联系本网,本网将在第一时间删除:gkjnet@qq.com