Sora模型争议背后，什么是杨力昆的世界模型

热搜大全 2024-02-28

杨力昆表示，现在的大语言模型是新一轮的炒作，目的都是为了创业公司融资。

类似于 ChatGPT 引起的关于 "AI 是否有意识 " 的讨论，OpenAI 的新模型 Sora 让更多人知道了 " 世界模型 " 的概念。不同的是，这一次，AI 圈内的头部科学家、研究者都参与进来，掀起了一场 "Sora 是不是世界模型 " 的大争议。

争议来自于 Sora 的技术报告，OpenAI 在报告中把 Sora 定义为可以生成视频的世界模型（World Simulators），并认为 Sora 的技术是打造通用世界模型的一种有前景的方法。

Sora模型争议背后，什么是杨力昆的世界模型

关于世界模型并没有一个标准的定义，但可以非常简单地理解它。一个第一次开车的成年人在过弯道的时候会自然地 " 知道 " 提前减速；儿童只需要学会一小部分（母语）语言，就掌握了几乎这门语言的全部；动物不会物理学，但会下意识地躲避高处滚落的石块。AI 科学家认为，人和动物会潜移默化地掌握世界的运作规律，从而可以 " 预知 " 接下来发生的事情并采取行动。世界模型的研究就是让 AI 学习这种能力。

Sora 可以生成逼真的视频，看起来视频当中包含一个完整的 3D 世界建模。它支持在保持画面内容一致的前提下切换镜头，甚至能够按照时间顺序往前或者往后生成新的视频内容。很多人认为，Sora 学会了 " 预知 " 事物发展的能力，这刚好是世界模型研究追求的目的。

然而，一直在研究世界模型的 AI 科学家、图灵奖获得者杨力昆（Yann LeCun）则认为，Sora 的生成式技术与世界模型的因果预测完全不同，Sora 不仅成本高昂，而且对于世界模型完全没有意义。

今天的人工智能拥有人类无法比拟的能力，但在前沿的科学家那里却很难称得上是 " 真正的智能 "。这样的落差是如何发生的？通往 " 智能 " 的世界模型真的重要吗？

" 白痴天才 "

在以 ChatGPT 为代表的生成式 AI 浪潮出现之前，AI 领域经历了一轮深度学习革命。这个过程中，卷积神经网络 CNN 大放异彩，引领机器视觉技术走向成熟。今天的手机、电脑以及各种互联网产品当中的图像识别功能，几乎都是 CNN 作为驱动。

杨力昆在 20 世纪 80 年代发明了 CNN，它模拟了位于人眼的视觉神经和位于大脑的视皮层神经之间的工作过程，能够识别图片当中的视觉特征，在当时被用来识别手写字体。

CNN 真正成为主流是在 2010 年前后。GPU 并行计算能力提升，图像训练数据库 ImageNet 建立，以及强化学习算法等技术应用，种种条件成熟，使得 CNN 可以通过深度学习训练来提升图像识别能力，识别准确率高达 98%。

Sora模型争议背后，什么是杨力昆的世界模型

特别是在 2016 年，AlphaGo 在围棋比赛中技惊四座，一度让 CNN 大红大紫。几乎在同期，CNN 催生了互联网科技公司的产品更新，比如搜索引擎有了以图搜图功能，自动驾驶汽车可以 " 看见 " 行人，社交媒体平台可以自动过滤不符合规范的图片，并且能够在用户上传的照片中圈出好友的名字，等等。

今天，CNN 支持的计算机视觉能够快速且准确地识别数以百万计的人脸、汽车的车牌和型号，以人类无法做到的方式分辨动植物的品种。搭载 AI 识别功能的互联网产品给科技公司带来了超额的收入。然而，这样的识别能力却在一开始就被证明是不够智能、甚至是脆弱的。

2015 年的一篇论文揭示了深度神经网络容易被 " 骗 " 的特点。实验发现，对于一张被 AI 成功识别的图片，如果仅改变它一处细微的细节，识别效果就会天差地别。这一发现强调了 AI 虽然擅长识别图像中的物体，但并没有像人一样读懂了图片的内容，而仅仅是提取了图片中像素排列的数学特征。

这样的特点限制了计算机视觉的应用前景，自动驾驶就是典型的例子。CNN 被广泛应用到自动驾驶中，参与图像处理和目标识别任务，自动驾驶公司投入了巨量资源给车辆行驶过程中记录的数据做标记，从而训练深度神经网络。然而，长尾问题一直在阻碍自动驾驶技术的突破。具体而言，对于没有在训练数据中出现过的物体，视觉算法通常难以识别，而车辆行驶过程中出现无法识别的可能性会一直存在。

计算机科学家梅拉妮 · 米歇尔（Melanie Mitchell）把打败了世界顶尖棋手的 AlphaGo 称为 " 白痴天才 "。即使 AlphaGo 拥有了拥有无与伦比的围棋技术，但它 " 不具备任何思考、推理和规划的能力 "，同时跟其它 CNN 神经网络一样，" 它所学到的能力没有一项是通用的，也没有一项可以被迁移到任何其他任务上 "。甚至只要改变棋盘的形状或者大小，AlphaGo 的能力就会化为乌有。

不只是 CNN，基于深度学习训练的神经网络几乎都存在类似的瓶颈，能力无法泛化、没有理解力、容易被 " 欺骗 " 等等。苇草智酷创始合伙人段永朝认为，智能机器目前所能做的，还只是 " 最快的猜测 "，或者说 " 以快取胜 "，但与真正的人工智能之间依然有巨大的鸿沟。

知识 VS 常识

多年以来，前沿的 AI 研究一直致力于突破深度神经网络的瓶颈，让人工智能学会 " 理解 "，其中的关键被认为是人所具有的世界知识。不同于书面上的知识，这种更靠近直觉的知识组成了人的常识，通过掌握常识，AI 能够根据当下的情况预测接下来可能会发生的事情。

最近几年，很多 AI 科学家走出实验室进入商业公司，借助工程化的能力继续投入研究。在这样的时刻，ChatGPT 带着生成式技术横空出世，凭借大规模的数据训练和算力投入，实现了能力 " 涌现 "。一夜之间，AI 似乎掌握了知识，并拥有了理解力。Sora 发布不久之后，OpenAI 首席执行官 Sam Altman 发布推文称 "Scaling Laws 是由上帝决定的 "，强调人工智能能力指数级增长的关键是 " 规模 "，且这种增长是一种不可阻挡的力量。

Sora模型争议背后，什么是杨力昆的世界模型

普遍的看法是，生成式技术打造的大语言模型核心是概率模型，通过一个前值来预测与前值最为相关的一个后值，这一能力的前提是模型掌握了海量的数据。计算机科学家斯蒂芬 · 沃尔夫勒姆（Stephen Wolfram）在《这就是 ChatGPT》一书中直白地介绍了 ChatGPT 的原理：

首先从互联网、书籍等获取人类创造的海量文本样本，然后训练一个神经网络来生成 " 与之类似 " 的文本 …… 值得注意和出乎意料的是，这个过程可以成功地产生与互联网、书籍中的内容 " 相似 " 的文本 …ChatGPT" 仅仅 " 是从其积累的 " 传统智慧的统计数据 " 中提取了一些 " 连贯的文本线索 "。但是，结果的类人程度已经足够令人惊讶了。

学习了大量文本知识的生成式 AI 能是不是通往 " 真正的人工智能 " 的道路？发明了 CNN 的杨力昆认为，生成式技术的过程不可能产生真正的智能。他表示，大语言模型拥有从书面文本中提取的大量背景知识，但缺少人类所拥有的常识。常识是我们与物理世界互动的结果，并没有在任何文本中体现出来。大语言模型对潜在的现实没有直接的经验，因此展示的常识性知识非常浅薄，在应用中可能与现实脱节。

‍

可以通过这样一个例子理解杨力昆的看法：大语言模型能够根据足球的材质、颜色等物理信息，得出足球被踢飞后的运行轨迹，这个推理过程不需要考虑物理力学的参数，而是基于训练数据中的概率。通过规模化训练，大模型在语言交流、图像和视频生成方面达到了出人意料的效果，但无法应用于解决基于因果的现实问题。这也是关于 "Sora 是不是世界模型 " 争论的焦点。

杨力昆认为，实现真正的智能突破不是靠规模，而是让 AI 在世界模型中学习常识。在论文《A Path Towards Autonomous Machine Intelligence Version》中，杨力昆提出了有关世界模型架构的思路，与生成式架构通过前值预测后值不同，这一思路把重点放在预测前值与后值之间的抽象关系上。

论文中提到，人或者动物大脑中似乎运行着一种对世界的模拟，称之为世界模型，这个模型指导人和动物对周围发生的事情做出良性预测。杨力昆曾举例表示，婴儿在出生后的最初几个月通过观察世界来学习基础知识，比如看到一个物体掉落，就几乎了解了重力。这种预测接下来会发生什么的能力来自于常识，杨力昆认为它这就是智能的本质。

根据论文中的思路，杨力昆提出了联合嵌入预测架构（JEPA），并帮助 Meta 发布了 I-JEPA 和 V-JEPA 两个大模型，两个模型分别展示了在图像和视频方面的预测能力。Meta 在训练 V-JEPA 模型的过程中屏蔽了视频的大部分内容，模型仅显示一小部分上下文。他们发现，通过屏蔽视频的部分内容，可以迫使模型学习并加深对场景的理解。

Sora模型争议背后，什么是杨力昆的世界模型

整个过程就像老师把问题和答案给到学生，让学生还原推导出答案的步骤。V-JEPA 可以预测短时间内画面前后的抽象变化，比如给定一个厨房案板的画面，它可以 " 还原 " 制作三明治的过程。

现阶段，V-JEPA 更像是一种技术展示，并且由于仅关注学习抽象关系，它会选择性地忽视不相关的信息，那么三明治的外观就难以辨认。在这一点上，Sora 生成的画面则细节饱满。不过，业内人士在评论 V-JEPA 时表示，相比于 Sora，V-JEPA 更符合纯粹的人工智能研究。

在 2 月 14 日举行的迪拜世界政府峰会上，Sam Altman 融资 7 万亿美元的计划成为被记者提问的热点。出席峰会的杨力昆却犀利地表示，现在的大语言模型是新一轮的炒作（Al Hype），跟过去五年一次的炒作一样，目的都是为了创业公司融资。他认为，实现 AGI 的路径肯定不是 AIGC 路线，而是需要新的架构，需要至少 20 年的时间。

然而，关于 " 纯粹的人工智能研究 " 这一评论，有回复认为，即使 OpenAI 的路线是错误的，也与它将实现的商业价值无关。就像杨力昆发明的 CNN 神经网络，即使所有人都知道有很大缺陷，但仍然改变了我们的生活。

Sora模型争议背后，什么是杨力昆的世界模型

Sora模型争议背后，什么是杨力昆的世界模型

最受喜欢

曾被卖出19万美元高价！这台初代iPhone太猛了

苹果首次允许欧盟用户从网站安装应用/雷军称对汽车价格战做好准备/微博上线热搜投诉入口

在游戏里搞政治正确的幕后黑手，快被外国网友冲烂了。

苹果 MacBook 新专利获批：可录制3D 图像/视频、追踪空中手势

芯片代工营收排行榜公布：台积电独占六成，狂揽近200亿美元