刘知远：迎接智能第二次涌现，预见万物智联未来

2023 年 11月28-29日，第十一届36氪WISE 2023 商业之王大会在北京举办。清华大学计算机系长聘副教授、面壁智能联合创始人刘知远受邀参加，并发表主题演讲《大模型驱动的自主智能体与群体智能：迎接智能的第二次涌现》。

演讲中，刘知远带领观众穿越了人工智能发展跌宕起伏的70年历程，随后他不仅分享了大型语言模型（以下简称“大模型”）如何推动个体智能到群体智能的重大跃迁，而且还展望了一个前所未有的全新智联网时代—“Internet of Agents”的来临。那个时候，人工智能将展现前所未有的强大智能，帮助人类探索更多未知世界。

01 —

跌宕起伏70年

“如果我们回顾整个人工智能的发展史，实际上经历了大约70年跌宕起伏的时间。但是人工智能的核心命题始终没有改变，那就是如何让计算机掌握完成各种复杂任务的知识和能力。”

——刘知远

➤ 第一阶段（1950-1990）：符号智能

人工智能早期，符号智能占据了主导地位，基本思想是让不同领域的专家手工完成各个任务的知识和规则，进而完成相关任务。虽然这种手工总结的方式可以实现非常精准，但通常无法完整覆盖复杂任务。例如，在人脸识别和机器翻译等复杂领域，专家手动编制规则的方法难以构筑起全面有效的系统。

➤ 第二阶段（1990-2018）：专用智能

上世纪90年代至2018年，人工智能进入了专用智能阶段。这一时期，机器学习技术被用来针对特定任务处理和学习预先标注的数据。这个阶段取得了非常大的成功，小模型通过存储一些专用知识，便能在人脸识别、语音识别、机器翻译等各个方面取得优异表现。然而，这种方法也有其局限性，它不能像人脑那样处理多元与复杂的任务。

➤ 第三阶段（2018至今）：通用智能

自2018年起，人工智能迈入了更加普遍应用的新阶段。基于大模型驱动的自监督学习技术，可以利用互联网上没有标注的数据，采取通用方法进行学习。在这个阶段，形成的大模型具有广泛适用性，能够跨领域完成众多任务。

02 —

大模型通用时代

“我相信，大模型从通用数据中萃取和学习通用知识的方法，将使其成为知识管理的基础设施。在此基础上，大模型将会成为追求越来越通用人工智能的重要基础。”

——刘知远

信息时代的不同发展阶段都有不同的基础设施和通用软件作为支撑。例如，为实现对数据的管理能力，应运而生了数据库系统这样的通用软件，为数据的有效管理提供基础设施；为从海量数据中提取有效信息，分析系统像 MapReduce 成为信息管理的基础设施。

在通用智能的新阶段，得益于“大数据+大算力”的强大支持，我们能够得到一个更具通用能力的大模型。今年的发展证实了大模型的巨大价值，未来，我们无疑将加速进入大模型的高速发展与广泛应用期。

通用人工智能具备三个核心特点：

➤ 越来越通用的机器学习框架

2018 年之前，针对不同类型的数据，有着不同的神经网络架构。例如针对文本和语言这种一维数据，有循环神经网络；针对二维图片数据，有卷积神经网络；为解决结构化、半结构化的图数据，产生了图神经网络。然而，2018 年之后，我们发现，不同类型、不同领域、不同任务的数据，都可以用统一的神经网络架构去处理，就是Transformer。这使得存储知识的神经网络架构变得越来越通用。

➤ 越来越标准的知识学习方法

大模型的早期发展阶段，学习方法多样，包括掩码语言模型（Mask Language Model）和下一个词预测（Next Token Prediction）等。然而，伴随大模型的演进，序列化数据的处理可以统一为一个基本的学习任务：根据序列中已出现的词元来预测下一个词元，形成一种标准化的学习流程。

➤ 越来越统一的通用基础模型

在统一框架和统一方法的支持下，我们得以构建起统一的大模型，它可以类似人脑一样处理各类复杂任务。如今，大模型已经能够胜任诸如机器翻译、信息检索、文本生成、智能问答等多种任务，但在过去，几乎所有任务都要依赖不同的模型来实现。通用性是大模型非常重要的特点。

03 —

人工智能的第二次涌现

“面向未来，通过大模型驱动的智能体平台可以把更多的人、设备和物品连接起来，推动万物互联进阶万物智联，进入人机交互的‘Internet of Agents’智联网新时代。我们将迎来属于人工智能的第二次涌现。”

——刘知远

畅想未来的人工智能，应当具备四个核心能力：

模拟人类大脑，实现更为高效的思考过程；
具备感官系统，更强感知和理解外部世界；
拥有人类灵活的双手，熟练操作各种工具；
能够有效地沟通，促进文明的交流与发展。

工具一直是改善人类生活品质、提高生产效率、推动科技和文明进步的关键因素。那么，人工智能是否能像人类一样去创造和使用工具？答案非常肯定。

过去一年里，我们已经成功探索并实践了多种方法，让大模型以人工智能的身份使用工具。我们甚至可以让大模型通过学习教程来掌握和运用API，或者通过使用工作流自动化程序以提升工作流程的效率。

我们已经看到大模型越来越像人类，它可以调用工具、规划编排并最终决策，完成一系列复杂任务。这实际上已经显现了“AI智能体”极为关键的一面。伴随模型规模的扩大，大模型展现出了涌现行为，这是单体智能的涌现。

然而，正如生物领域中的蜂群、蚁群、鸟群、鱼群等族群般，人类社会也有不同的群体，群体之间的协作是完成复杂任务的关键。试想，由大模型驱动的单个智能体各有所长，若将其关联起来，形成复杂的群体智能，展现出更为强大的涌现行为，这便是人工智能的第二次涌现。

实现智能体之间群体协作的关键在于智能体间的自然语言交互能力。现有大模型可以实现人与机器之间的自然语言交互，那么这种交互只能发生在人机之间吗？机器与机器之间是否也能进行复杂的自然语言交互？答案依然非常肯定。

面壁智能联合清华大学NLP实验室共同开展了大量与智能体、群体智能相关的前沿探索，目前已经转化形成具备生成超强单体智能与推动群体智能间协作的智能体协作平台AgentVerse。

基于此，我们已打造出轻量化软件开发平台 ChatDev，平台中智能体分饰 CEO、CTO、程序员、产品经理、设计师、测试等不同角色，角色各司其职，接到某项软件开发任务后，通过自然语言自行讨论和沟通，确定编程语言及算法等，耗时几分钟后，AI智能体们便交付出一个完整软件。

智能的第二次涌现将带来比人类社会更加强大的智能能力，智能体间的协作能够帮助人类探索更多未知的世界，享受更加美好的生活。

正如互联网把全世界所有信息和人连接在一起，物联网把所有设备连接在一起，面向未来，通过大模型驱动的智能体平台可以把更多的人、设备和物品连接起来，推动万物互联进阶万物智联，进入人机交互的“Internet of Agents”智联网新时代。

也如《三体》中对科技的极端进步、文明间的技术竞争、以及科技对社会和个体的深远影响等描述的那般，通用人工智能或将带来同样的潜在变化。“面壁”取自三体，面壁十年图破壁，期待新时代的到来。

➤ One more thing

大会期间，36 氪授予面壁智能 WISE 2023 未来商业之王「人工智能年度企业」称号。