虽然 Sora 火爆全球,其由 AI 视频生成的行程带来了巨大影响,但是否真正理解物理世界仍是一个谜。以下是最新的资讯,让我们一起来探讨 Sora 的物理理解能力。
Sora 的物理理解能力:
有人质疑 Sora 是否拥有物理引擎,甚至是世界模型。图灵奖得主 Yann LeCun、Keras 之父 Francois Chollet 等人正在深入研究讨论此问题。
最近,OpenAI 发布的视频生成模型 Sora 引起了全球关注。
【关注机器之心视频号,第一时间看到有趣的 AI 内容】
与以往只能生成几秒钟视频的模型不同,Sora 将生成视频的长度延长到了 60 秒。更重要的是,它不仅能够理解用户在提示中提出的要求,还能够把握物体在物理世界中的存在方式。
以经典的「海盗船在咖啡杯中缠斗」为例。为了使生成效果更加逼真,Sora 需要克服以下几个物理难题:
规模和比例的适应:将海盗船缩小到能够在咖啡杯中缠斗的尺寸,同时保持其细节和结构,是一个挑战。AI 需要理解并调整这些对象在现实生活中的相对尺寸,以使场景在视觉上看起来合理;
流体动力学:咖啡杯中的液体会影响海盗船的运动。AI 模型需要模拟液体动力学的效果,包括波浪、溅水和船只移动时液体的流动,这在计算上是复杂的;
光线和阴影的处理:为了使场景看起来更真实,AI 需要精确地模拟光线如何照射在这个小型场景中,包括咖啡的反光、船只的阴影,以及可能的透光效果;
动画和运动的真实性:海盗船的运动需要符合真实世界的物理规律,即使它们被缩小到咖啡杯中。这意味着 AI 需要考虑重力、浮力、碰撞以及船体结构在动态环境中的行为。
尽管生成效果仍然存在一些瑕疵,但我们可以明显感觉到,Sora 似乎理解了一些「物理」。英伟达高级研究科学家 Jim Fan 甚至断言,「Sora 是一个数据驱动的物理引擎」,「是一个可学习的模拟器,或者说『世界模型』」。