Runway开发通用世界模型，想让AI更好地模拟世界

最近AI视频赛道大火，Pika推出1.0版本，并宣布融资千万美金，出尽风头。

而作为AI视频生成的老大哥，现象级产品Gen-1、Gen-2的开发商Runway突然宣布组建团队开发通用世界模型（General World Models，以下简称GWMs），目标是创建一种不同于大语言模型的，并能模拟现实世界的人工智能系统。

Runway喊话要做GWMs后，立即就引起众多网友的质疑。

有人就表示：

这就是加入了视频、音频、文字和图片的多模态大模型呗

还有人直接说：“这是条不错的视频，Ruben（视频中的小狗）也很可爱”。（但直接忽视了新模型）

Runway开发通用世界模型，想让AI更好地模拟世界

△图源：Twitter

Runway想做的世界模型是什么样的？为何要在这时候选择做世界模型？

用世界模型来模拟世界

对于大部分用户而言，人工智能在过去一年的发展速度确实已经超乎我们的预期和想象，但当我们惊叹于大语言模型竟然能够流畅地与我们对话时，幻觉问题让大模型们时不时“胡言乱语”或“答非所问”的情况也让实际的使用体验大打折扣。

而这种问题并不仅仅存在于大语言模型领域，在AI扩图和AI视频生成中也屡见不鲜，比如AI生成图片中经典的六指问题：

Runway开发通用世界模型，想让AI更好地模拟世界

△图源：Twitter

就连Runway自家的产品Gen-2也避免不了这一问题。对此，Runway在新发布的3分钟视频内尝试解释这一问题的根源——现有的大模型缺乏对真实世界全面的了解。

以大众最为熟知的LLM（大语言模型）为例，尽管可以生成诗歌、文章甚至电影，但LLM实际只了解语言领域的规则，因此遇到不了解的问题时，常常“一本正经地胡编乱造”。

它们的底层范式是：大模型+大数据=掌握关于世界更多的知识，这种范式也导致了普遍的幻觉问题，而同样的情况也出现在AI视频生成工具中。

事实上，Runway这次提出的通用世界模型概念，正是想要回应和解决这一问题。Runway将“世界模型”定义为一种人工智能系统，它能建构对环境的内部再现，并且用来模拟该环境中的未来事件。

简言之，Runway希望新模型能够尽可能接近我们生活的真实世界，模拟各种各样的情况和互动。

LeCun力挺，但Runway想搞点不同的

「世界模型」并不是Runway首创的概念。图灵奖获得者Yann LeCun去年就提出过这一概念，用于描绘他理想中的、更接近人类真实水平的AI。

他曾在公开演讲中批评GPT大模型，认为根据概率生成自回归的大模型，根本无法破除幻觉难题，甚至断言GPT模型活不过5年。

LeCun希望能够创造出一个可以学习世界如何运作的内部模型，基于此，他和他的团队在今年6月发布了「类人」的人工智能模型I-JEPA，让模型像人类一样学习关于世界的常识背景知识。

Runway开发通用世界模型，想让AI更好地模拟世界

△图源：Twitter

不过目前看来，尽管他们的论文在发布时收获了不少的掌声与期待，但半年过去了，LeCun的世界模型似乎还未找到顺利落地的途径。这或许也是大众对Runway持保留态度的原因。

那么Runway想搞的世界模型，是啥样的？

对于如何开发新模型，Runway在视频中透露了部分想法，GWM要建立的是一种心智地图（mental map），让模型更多了解关于世界的“为什么”和“怎么样”。

要实现这一想法似乎还面临着不少挑战，Runway团队也已经认识到了这点。他们对GWM的介绍中提到，眼下需要解决的两个问题是：

1、这些模型需要生成一致的环境映射，以及在这些环境中导航和交互的能力。

2、模型不仅需要捕捉世界的动态，还需要捕捉其居民的动态，其中还包括建立现实的人类行为模型。

Runway开发通用世界模型，想让AI更好地模拟世界

△图源：Twitter

尽管外界对此反应平平，Runway显然已经下定决心组建团队，开始招兵买马，公司的官方网站上已经开放了一批新的职位招聘，范围涵盖机器学习、应用研究以及数据基础设施等多个领域。

Runway开发通用世界模型，想让AI更好地模拟世界

△图源：Runway官网

One More Thing

回看AI视频生成赛道，由Pika 1.0点燃的热情不减反增。从最早一批拿到Pika测评资格的用户反馈来看，目前对Pika 1.0的实际效果和技术水平的评价也呈现两极分化的局面。

一部分用户盛赞Pika 1.0 是他们目前用过最好的AI视频生成工具，也有一些discord用户在实测后发现，效果与其他类似工具并有没明显差距。

国内巨头也纷纷下场布局AI生成动画，阿里和字节的竞争更是到了面对面的地步——阿里近日发布名为“Animate Anyone”的AI项目，称只需要一张图片和一段骨骼动画，就可以为任何人制作视频。字节紧随其后推出“MagicAnimate”，并且直接实现了开源。最终，战局以阿里迅速发布“DreaMoving”回击暂时中止。

有趣的是，风头无两的Pika Labs成立的契机之一，正是两位联合创始人的作品在Runway举办的第一届AI movie Festival中落选。在最近的一次访谈中，创始人Chenlin Meng也提到目前Runway、Genmo、Imagen Video等能够生成的视频质量水平相近，都存在不少“artifact”（技艺），不过这也恰恰说明了这一领域还有很多技术创新和突破的空间。

Chenlin Meng将目前的视频生成技术比作“GPT-2时期”，未来的竞争格局还有很多变数。GWM能否帮助Runway弯道超车，仍需拭目以待。