2023 年 11月28-29日,第十一届36氪WISE 2023 商业之王大会在北京举办。清华大学计算机系长聘副教授、面壁智能联合创始人刘知远受邀参加,并发表主题演讲《大模型驱动的自主智能体与群体智能:迎接智能的第二次涌现》。
➤ 第一阶段(1950-1990):符号智能
人工智能早期,符号智能占据了主导地位,基本思想是让不同领域的专家手工完成各个任务的知识和规则,进而完成相关任务。虽然这种手工总结的方式可以实现非常精准,但通常无法完整覆盖复杂任务。例如,在人脸识别和机器翻译等复杂领域,专家手动编制规则的方法难以构筑起全面有效的系统。
➤ 第二阶段(1990-2018):专用智能
上世纪90年代至2018年,人工智能进入了专用智能阶段。这一时期,机器学习技术被用来针对特定任务处理和学习预先标注的数据。这个阶段取得了非常大的成功,小模型通过存储一些专用知识,便能在人脸识别、语音识别、机器翻译等各个方面取得优异表现。然而,这种方法也有其局限性,它不能像人脑那样处理多元与复杂的任务。
自2018年起,人工智能迈入了更加普遍应用的新阶段。基于大模型驱动的自监督学习技术,可以利用互联网上没有标注的数据,采取通用方法进行学习。在这个阶段,形成的大模型具有广泛适用性,能够跨领域完成众多任务。
信息时代的不同发展阶段都有不同的基础设施和通用软件作为支撑。例如,为实现对数据的管理能力,应运而生了数据库系统这样的通用软件,为数据的有效管理提供基础设施;为从海量数据中提取有效信息,分析系统像 MapReduce 成为信息管理的基础设施。
在通用智能的新阶段,得益于“大数据+大算力”的强大支持,我们能够得到一个更具通用能力的大模型。今年的发展证实了大模型的巨大价值,未来,我们无疑将加速进入大模型的高速发展与广泛应用期。
通用人工智能具备三个核心特点:
2018 年之前,针对不同类型的数据,有着不同的神经网络架构。例如针对文本和语言这种一维数据,有循环神经网络;针对二维图片数据,有卷积神经网络;为解决结构化、半结构化的图数据,产生了图神经网络。然而,2018 年之后,我们发现,不同类型、不同领域、不同任务的数据,都可以用统一的神经网络架构去处理,就是Transformer。这使得存储知识的神经网络架构变得越来越通用。
➤ 越来越标准的知识学习方法
大模型的早期发展阶段,学习方法多样,包括掩码语言模型(Mask Language Model)和下一个词预测(Next Token Prediction)等。然而,伴随大模型的演进,序列化数据的处理可以统一为一个基本的学习任务:根据序列中已出现的词元来预测下一个词元,形成一种标准化的学习流程。
➤ 越来越统一的通用基础模型
在统一框架和统一方法的支持下,我们得以构建起统一的大模型,它可以类似人脑一样处理各类复杂任务。如今,大模型已经能够胜任诸如机器翻译、信息检索、文本生成、智能问答等多种任务,但在过去,几乎所有任务都要依赖不同的模型来实现。通用性是大模型非常重要的特点。
工具一直是改善人类生活品质、提高生产效率、推动科技和文明进步的关键因素。那么,人工智能是否能像人类一样去创造和使用工具?答案非常肯定。
过去一年里,我们已经成功探索并实践了多种方法,让大模型以人工智能的身份使用工具。我们甚至可以让大模型通过学习教程来掌握和运用API,或者通过使用工作流自动化程序以提升工作流程的效率。
然而,正如生物领域中的蜂群、蚁群、鸟群、鱼群等族群般,人类社会也有不同的群体,群体之间的协作是完成复杂任务的关键。试想,由大模型驱动的单个智能体各有所长,若将其关联起来,形成复杂的群体智能,展现出更为强大的涌现行为,这便是人工智能的第二次涌现。
实现智能体之间群体协作的关键在于智能体间的自然语言交互能力。现有大模型可以实现人与机器之间的自然语言交互,那么这种交互只能发生在人机之间吗?机器与机器之间是否也能进行复杂的自然语言交互?答案依然非常肯定。
基于此,我们已打造出轻量化软件开发平台 ChatDev,平台中智能体分饰 CEO、CTO、程序员、产品经理、设计师、测试等不同角色,角色各司其职,接到某项软件开发任务后,通过自然语言自行讨论和沟通,确定编程语言及算法等,耗时几分钟后,AI智能体们便交付出一个完整软件。
正如互联网把全世界所有信息和人连接在一起,物联网把所有设备连接在一起,面向未来,通过大模型驱动的智能体平台可以把更多的人、设备和物品连接起来,推动万物互联进阶万物智联,进入人机交互的“Internet of Agents”智联网新时代。