Sora 思辩：Sora 到底懂不懂物理世界？_mgm高梅美线路·(中国)mgm美高梅79906官网

mgm高梅美线路

mgm美高梅79906

高端装备人工智能

MGM高梅美线路官网

人工智能

Sora 思辩：Sora 到底懂不懂物理世界？

发布时间：2024-04-07 16:22:03 来源：mgm美高梅79906 作者：MGM高梅美线路官网

　　Sora 发布至今，虽然仍未正式对外开放，但对其技术细节、切实影响的讨论从未停歇。讨论的背后，是为了探索人工智能的更本质问题。

　　对旧有视觉生成思路的检验和校正，是 Sora 带来的直观影响。在此基础上，Sora 所引发的思考，如多模态大模型和物理世界、AGI 技术实现路径等等，更值得深思。

　　问题之一是，Sora 的生成效果确实惊艳，较高分辨率和镜头多角度变换后的主体一致性，这种程度的生成效果是否意味着 Sora 是世界模型？在能够生成逼真视频的基础上，是否可以说 Sora 可以理解物理世界？

　　问题之二是，OpenAI 所坚信的大力出奇迹的 Scaling Law 边界在哪？纯数据驱动路线能不能实现 AGI ？

　　在此背景下，2024 年 3 月 20日，中国人民大学高瓴人工智能学院举办了一场关于 Sora 的思辩会，碰撞出诸多之前不曾考虑到的观点，同样可以引发行业内人士的深思。

　　文继荣院长在辩论会现场谈到，ChatGPT 出来后，学院拿出了「 All in 大模型」的决心；Sora 出现的2024年，全院也在商讨新的定位和前进路径，但无论如何终究会回到高瓴人工智能学院的 Slogan ：创造智能而有温度的未来。

　　我们认为 Sora 懂物理世界。根据 Sora 发布的视频，我们可以观察到，无论镜头怎么旋转，画面所呈现的时间连续性、空间角度切换后的不变性、光影的反射和变化都和物理世界规律相符。从这个角度来讲，如果这些不是物理规律，那是什么呢？

　　第二个角度我们强调的是：Sora 懂物理规律，而不是说懂物理学规律，物理规律和物理学规律不是一个概念。

　　基本的物理规律就是指大多数人在现实生活中的直接感受，比如自由落体，可以观察到一个球从高处往低处掉。可以看到 Sora 生成的绝大部分的视频都是满足日常生活中物理规律的运动。

　　今天的辩题是懂不懂物理世界，这个物理世界不是指物理学家的世界，而是我们绝大多数人懂得且感受到的一般的物理世界。

　　第三个角度是关于什么叫「懂」，或者说什么叫「学到」。有些人会从 Sora 不懂物理公式，或不懂严格的物理过程，判断 Sora 不懂物理世界，但这个懂一定是 AI 的懂吗？

　　这里需要回顾一下图灵测试。图灵测试就是指在测试者和被测试者被隔开的情况下，对两者进行随意提问，如果大多数人都无法区分两者的行为的话，就代表这一 AI 系统具备了智能，那从这个角度来说生成即智能、生成即智能、生成即智能（现场笑）。

　　只要 Sora 生成的东西，大家通过常理判断出来是真的，且没办法区分出是人还是 AI，我们认为它就是学到了，是懂的。

　　我为正方辩友被 Sora 的表象欺骗了深表遗憾（现场笑），同时也为对方辩友对物理规律的理解偏差表示遗憾。

　　首先来纠正下物理世界的基本定义。物理世界是指自然规律和物理学定律支配的世界，例如守恒、对称等等，它包括我们所有能观察到的物质还有运动的基本的现象，实际上是客观存在的这个宇宙。如果 Sora 能懂物理世界，那么它生成的视频必然就得懂相关的规律，能模拟、准确地来刻画这种规律，但显然 Sora 现在是达不到的。

　　其次，Sora 的基本运行的机制就是基于 Diffusion Transformer 对视频、语言的数据进行压缩，并且把它的分布给学习出来。然而，仅仅依靠视频、语言来去描述我们客观的三维世界显然是不足的，它是有很强的界限的。

　　许多介质的演化，比如说流体，需要特殊的状态量去把它描述出来才行，因此仅仅基于有限维的视频和语言的数据来训练模型，那它的表达能力实际上是不够的。即便生成出来的内容显得比较逼真，但是它和「真」完全是两个概念。

　　所以，还需理清一下逼真和真实概念之间的差别。Sora 生成的视频确实是很逼真的，但是它只是停留在视频的表象，缺乏实质。传统的生成动画的渲染技术也可以达到一样的效果，这并不能代表 Sora 具有模拟和理解现实世界的能力。

　　著名物理学家费曼说过一句话：What I cannot create ，I don‘t understand. 即，我不能生成的东西，我就不能理解。从数学的角度来看，这句话的逆否命题就是：我能够理解的，我就能生成。反过来看，是不是生成的就能理解呢？我认为是。

　　比如水浪表象的背后一定有一系列的波动方程，但人是不是通过这个方程去理解它？大部分的人真的懂动力学方程吗？不是。但是不是大多数人都理解水的物理形态呢？我认为是理解了的。

　　这个理解可以从两个层面去理解，一个是我们知道物体基于重力会下落，水会有一个波动的过程；另一个是，真正知道它背后运动的方程，那这个方程是不是人通过表象抽象出来的呢？

　　我认为绝大部分不是，比如牛顿抽象出重力学的方程的过程，是不是真的有一个苹果砸到脑袋上之后就突然蹦出一个方程？其实不是的。它从很早之前的各种各样的公式、论文中推导出来，绝对不是仅仅有视频就能把方程推导出来。

　　但从人理解物理世界的角度来说，我们跟 Sora 应该是完全一样的。所以我们认为 Sora 既然生成了，那么它就是理解了。

　　Sora 不能够理解物理世界的一个重要原因是，它企图从大量的非实验数据里面去发现物理规律。也就是说它不做实验，它只是被动地观察我们这个世界。

　　基于统计因果中的结论“非干预，不因果”：如果不能去实施干预，算法就不能发现统计因果规律。如果连统计的因果规律都不能发现的话，那么更不要说是物理的规律，物理规律的一个特征就是表述物理世界中各种现象的因果关系。

　　所以无论是 Sora 还是 ChatGPT，如果只是以现在这种形式被动地搜集数据，然后去训练一个大模型的话，它是可以被欺骗的，它所学到的内容只是「相关」，而不是「因果」。这是第一个论点。

　　第二点，从人类最近几百年发现物理规律的进程来看，科学发现不仅仅需要实际的数据和观察现象，更加需要人类反直觉的思考和假设。

　　亚里士多德的直觉观念“物体在不受力的情况下会保持静止”在现实生活中是一个非常正常、符合直觉的现象。这个错误的直觉观念的引导下，人类数个世纪都没有能够发现正确的物理学定律。直到伽利略、牛顿意识到物体在不受力的情况下会保持匀速直线运动这种反直觉的规律，这才创造了今天的物理学大厦。以直觉为主导的推理方法是靠不住的，基于直接观察的直觉结论并不总是可靠。

　　类似的例子还有很多，物理学里面有很多理想模型：像黑体，现实世界无论怎么观测都找不到一个真正的黑体。虽然我们在实际生活中永远观察不到，但是它对我们发现物理学的规律极其重要，如果没有这些理想化的假设，物理学的大厦无法建立起来。所以说，如果 Sora 仅仅是被动地观察世界，而没有办法进行类似人类的反直觉推理假设，它永远不能构建正确的物理规律。

　　可见，Sora 仅仅依托了它的直觉去拟合非实验的观测数据，不引入反直觉思考，不干预世界，它发现不了真正的物理规律。

　　对方辩友认为，要想掌握人类的物理规律，是需要一些反直觉的思考和假设，以及需要干预、验证物理世界。我方认为这样的观点完全错误地阐释了什么叫物理世界，因为这种观点太以人为中心了。其实这个世界无论有没有人，它都是物理世界，不能说只有人能理解的物理世界才叫物理世界。

　　说回到机器学习的核心，就是有了一些模型和未知的参数，同时在现实的数据上可以定义一个损失或者说人为地评价它，最后再进行一个优化。

　　物理学家基本上也采用这样的范式。他们先反直觉地发明一些公式，同时会加进来一些参数，接着在理想化的假设条件下做了一些实验的数据，干预了这个世界，然后得到一些数据，就可以去算公式有多大的损失，接着又进行了一个非常充分的、聪明的思考，从而优化这个模型。

　　而今天的神经网络，当增加宽度时相当于多段线性折线函数，可以趋近连续曲线，接着当它的层次加深的时候，它还可以表示更为复杂的函数，所以它比之前那些聪明的物理学家所知道的公式范围还要大。

　　如果神经网络这样的一个学习过程都不能被称为智能，难道人就是吗？为什么非要是人提出的公式、做的实验才叫智能呢？

　　再从机器学习的角度来说，对方辩友认为做了一些理想的假设、实验后，发现了一些所谓的放之四海而皆准、其实也并非的规律，难道不是传统机器学习的一种 feature engineering 吗？你其实只是发现了其中一条比较管用的feature，然后再做了一些实验来验证它是 99%或者更高的适用性，这是更为狭隘的对物理世界的刻画。

　　目前 Sora 的确还有一些反物理世界的现象存在。但更重要的是，「懂物理世界」和「精确地懂物理世界」并不是等同的。人也是同样的道理，难道说让一个人闭着眼睛在脑海中想 Sora 生成的这种两个海盗船在这咖啡杯里航行的画面，人就能够精确地模拟出来画面吗？

　　类比人类世界，人类的建筑师、画家，他们能画出这个世界、甚至能创造出这个世界的实体，但也并不代表他们真的懂物理世界。因为在人懂物理世界之前，比如原始时期，我们就可以用石头搭房子了、在石壁上画下壁画。

　　那个时候可能还都还不存在真正意义上的懂不懂物理世界这一回事，但是已经可以去创造相应的艺术作品或相应的客观实体。从这个角度来讲，我不认为现在 Sora 现在具备生成逼真视频的能力，就真的懂物理世界。

　　其次，人类对物理世界的理解跟掌握是有一套严格的方的，我们会去做假设、做观测，然后会通过实验最终实现对物理现象的反演。但目前能看到的是， Sora 这样的生成式模型的学习范式就是数据驱动。

　　喂给 Sora 数据之后，最多可以说它观测到了一些数据，且这些数据还不是在一个严格的实验环境下得到的。在这种条件下，如果说他能理解物理世界的话，也肯定是用一种超出我们认知范围内的方式在去理解。但是现阶段我们还没有看到任何的人工智能能够真正在通用性或者对世界的理解上真的能达到人的水平。

　　最后，我觉得Sora 之所以这么强大，也许正是因为它不懂物理世界。Sora 基于它的学习范式，它能够掌握统计规律，它能把有关联性的事物融合起来。比如它可以生成龟壳像水晶球一样的乌龟，包括在咖啡杯里战斗的海盗船，这是超现实的，这跟物理世界没有必然联系。

　　更早期的，以 stable diffusion 为代表的图像生成模型，可以生成太空上骑马、火星上骑马等画面，显然这些现象都不是符合我们所在的物理世界的规律的，并不是理解物理世界的一种表现。正是因为它不能理解物理世界，Sora才可以基于统计相关性构筑它自己的世界。所以说我认为 Sora 是不懂物理世界的。

　　有一种说法是，ChatGPT不懂文字或者不懂语言。但 OpenAI 首席科学家伊利亚依然认为，做 next token prediction，即能够预测下一个词、生成下一个词，这就是理解了语言。伊利亚也举了一个例子，喂给大模型一篇悬疑小说，指令是预测悬疑小说里边的凶手是谁。如果他能够准确地预测出这个凶手是谁，那他到底是不是懂这篇小说？是不是理解这篇小说？

　　图灵测试其实是工程的测试，就是说你没有通过图灵测试，你是没有这个能力，但是通过了你未必有这个能力。

　　以考试为例，如果一位同学没有通过一场考试，这说明这个同学没学懂，但是通过了这场考试并不代表你已经懂了，因为有可能通过用强记的方式把所有的知识记忆下来，所以图灵测试并不具有很强的说服力。

　　我恰恰觉得 Sora 是通过图灵测试。

上一篇：人工智能技术在医药研发的应用现状下一篇：AI专家说人工智能到底是个啥？专家极简概括！