12月20日,微软亚洲研究院首席研究员陈卫博士受邀莅临大湾区大学,带来了一场题为“ALPINE: Unveiling The Planning Capability of Autoregressive Learning in Language Models”(揭示语言模型中自回归学习的规划能力)的讲座。
报告开始,陈卫博士指出,大型语言模型的核心机制是“下一个词的预测”。然而,这一低级机制如何产生高级的智能能力,一直是人工智能领域的一个谜团。为了解开这个谜团,ALPINE项目团队聚焦大型语言模型的规划能力,试图发现其内部机制。
陈卫博士介绍了规划作为一种普遍智能行为的重要性。从休闲旅游计划的制定,到工作任务的完成,再到机器人复杂任务序列的规划,规划能力在各个领域都发挥着重要作用。在数学推理中,规划能力则表现为确定证明定理的推理路径。
随后,他深入探讨了规划的核心——路径寻找。在许多场景中,规划的本质就是从起点找到一条到达目的地的有效路径。ALPINE项目团队将这一路径寻找问题抽象化,并研究Transformer结构如何通过学习来实现路径的寻找。通过理论分析和实证验证,发现Transformer能够学习到背景网络中的邻接信息和可达性信息,从而模仿人类智能进行路径规划。这一发现揭示了Transformer如何将低级的单词预测转化为高级的规划任务。同时,该研究也揭示了Transformer的一个重要局限,即它不具备传递性的能力。
在理论分析部分,团队构建了一个简化的Transformer模型,通过梯度下降算法训练,使其能够完成路径寻找任务。他们发现,Transformer模型中的权重矩阵能够编码邻接信息和观察到的可达性信息。为了验证理论分析的正确性,研究团队进行了大量的实验验证。他们生成了有向无环图(DAG),并随机生成边和可达对,然后训练Transformer模型进行路径规划。
报告最后,陈卫博士还展望了未来的研究方向,包括将研究扩展到超图和超路径、将抽象的路径寻找与具体的规划任务相结合、研究在不同图上训练并在新图上测试模型的上下文学习能力,以及探索回溯和思维链能力在规划中的应用等。
陈卫博士的到来,为大湾区大学的师生提供了一次宝贵的学术交流机会。湾大信息科学技术学院将继续秉持开放包容的学术精神,邀请更多知名学者来校交流,共同推动人工智能领域的繁荣发展。
专家简介
陈卫,微软亚洲研究院首席研究员,微软研究院理论中心主任,拥有清华大学学士和硕士学位,康奈尔大学计算机科学博士学位。他是清华大学、上海交通大学、香港科技大学(广州)和深圳大学等多所大学的客座教授,是电气和电子工程师协会(IEEE)的会员,同时是中国计算机联合会理论计算机科学技术委员会常务委员,CCF大数据技术委员会委员。他被爱思唯尔公认为“被引用最多的中国研究人员(2021-2023)”,并被斯坦福大学排名(2020-2024)列为全球前2%的科学家。
陈卫博士的主要研究兴趣包括在线学习和优化、社会和信息网络、网络博弈论和经济学、分布式计算和容错。2013年,他与人合著了一本英文专著,2020年,他独自撰写了一本中文专著,内容涉及社交网络中的信息和影响力传播。同时,他获得了多个最佳论文奖,包括2021年ICDM 10年最高影响力论文奖,以及2000年DSN论文研究的最佳论文William C.Carter奖。曾担任许多学术会议和期刊的编辑、学术会议主席和项目委员会成员。