王龙 黄锋

doi: 10.16383/j.aas.c220680
基金项目: 国家自然科学基金(62036002)资助

    王龙:北京大学教授. 1992年获得北京大学博士学位. 主要研究方向为人工智能, 博弈控制理论, 演化动力学. 本文通信作者. E-mail: longwang@pku.edu.cn

    黄锋:北京大学博士研究生. 2016年获得电子科技大学学士学位. 主要研究方向为博弈论、多智能体学习与控制论间的交叉. E-mail: fenghuang@pku.edu.cn

An Interdisciplinary Survey of Multi-agent Games, Learning, and Control

Funds: Supported by National Natural Science Foundation of China (62036002)
More Information
    Author Bio:

    WANG Long Professor at Peking University. He received his Ph.D. degree from Peking University in 1992. His research interest covers artificial intelligence, game and control theory, and evolutionary dynamics. Corresponding author of this paper

    HUANG Feng Ph.D. candidate at Peking University. He received his bachelor degree from University of Electronic Science and Technology of China in 2016. His research interest covers game theory, multi-agent learning, and control theory

  • 摘要: 近年来, 人工智能(Artificial intelligence, AI)技术在棋牌游戏、计算机视觉、自然语言处理和蛋白质结构解析与预测等研究领域取得了众多突破性进展, 传统学科之间的固有壁垒正在被逐步打破, 多学科深度交叉融合的态势变得越发明显. 作为现代智能科学的三个重要组成部分, 博弈论、多智能体学习与控制论自诞生之初就逐渐展现出一种“你中有我, 我中有你” 的关联关系. 特别地, 近年来在AI技术的促进作用下, 这三者间的交叉研究成果正呈现出一种井喷式增长的态势. 为及时反映这一学术动态和趋势, 本文对这三者的异同、联系以及最新的研究进展进行了系统梳理. 首先, 介绍了作为纽带连接这三者的四种基本博弈形式, 进而论述了对应于这四种基本博弈形式的多智能体学习方法; 然后, 按照不同的专题, 梳理了这三者交叉研究的最新进展; 最后, 对这一新兴交叉研究领域进行了总结与展望.
    1)  1 在本文中, 智能体也称为博弈者(Player)或决策者(Decision-maker).
    2)  2 在理性人的假设下, 博弈者最大化收益函数等价于最小化成本函数.
    3)  3 期刊Artificial Intelligence在2007年组织的一个关于博弈论与多智能体学习的专刊中, 专门对Nash均衡在现实应用中的局限性进行了讨论[44, 62]. 另外, 文献[6364]从实证等角度对Nash均衡进行了重新审视并提出了一些可能的替代概念.
    4)  4 在相关文献中, “状态”也称为“系统状态”[49]或“环境状态”[47]等.
    5)  5 除非特别说明, 本文只讨论$ \Gamma $为离散无穷的情况, 即随机博弈在离散时间集上进行无穷轮.6 随机博弈中所说的“策略” (Policy)与演化博弈中所说的“策略” (Strategy)不是完全等同的概念. 在随机博弈中, 博弈者的策略是指行动集(或纯策略集)上的一个概率分布(也称为混合策略); 而在演化博弈中, 个体的策略通常隐含地假定是一个确定性的纯策略. 因此, 演化博弈中所说的策略实质上是等同于随机博弈中的某一个具体的行动(或纯策略). 另外, 为了叙述方便, 本文只讨论确定性的策略; 而对于随机性的策略$ \pi_i(\cdot|s): {\cal{S}}\rightarrow \Delta({\cal{A}}_i) $, $ \forall i\in{\cal{N}} $, 本文中的相关结果可类似地得到.
    6)  随机博弈中所说的“策略” (Policy)与演化博弈中所说的“策略” (Strategy)不是完全等同的概念. 在随机博弈中, 博弈者的策略是指行动集(或纯策略集)上的一个概率分布(也称为混合策略); 而在演化博弈中, 个体的策略通常隐含地假定是一个确定性的纯策略. 因此, 演化博弈中所说的策略实质上是等同于随机博弈中的某一个具体的行动(或纯策略). 另外, 为了叙述方便, 本文只讨论确定性的策略; 而对于随机性的策略$ \pi_i(\cdot|s): {\cal{S}}\rightarrow \Delta({\cal{A}}_i) $, $ \forall i\in{\cal{N}} $, 本文中的相关结果可类似地得到.
    7)  7 文献[169]也对其他形式的计算方式进行了分析和讨论.8 $ \gamma $的另外一种解释是: 在一轮博弈结束之后, 下一轮博弈继续进行的概率.
    8)  $ \gamma $的另外一种解释是: 在一轮博弈结束之后, 下一轮博弈继续进行的概率.
    9)  9 “策略学习”在博弈学习理论中具有十分丰富的内涵[4546], 本文只关注其学习对手策略的这层主要含义.
    10)  10 从控制论的角度上讲, Markov决策过程中的智能体一般被视为是控制器, 而“系统” (或“环境”)则被视为是受控对象. 因此, Markov决策过程也称为“受控Markov过程”[209].
    11)  11 文献[197]将目前的强化学习方法划分为表格解方法(Tabular solution method)和近似解方法(Approximate solution method).12 在强化学习算法中, 函数$ r(\cdot) $的具体形式并不需要明确的已知, 它的某一个取值$ r(s, a, s') $是系统(或环境)反馈给智能体的, 并且智能体并不知道$ r(\cdot) $的具体形式. 为了行文简洁, 本文并没有在符号形式上突出这一点.
    12)  在强化学习算法中, 函数$ r(\cdot) $的具体形式并不需要明确的已知, 它的某一个取值$ r(s, a, s') $是系统(或环境)反馈给智能体的, 并且智能体并不知道$ r(\cdot) $的具体形式. 为了行文简洁, 本文并没有在符号形式上突出这一点.
    13)  13 本文这部分主要专注介绍鲁棒强化学习, 未涉及鲁棒学习中的诸如鲁棒深度学习等其他内容.
    14)  14 除非特别说明, 本节中的符号$ t $专指连续时间, 而不再表示博弈进行的轮次.
    15)  15 文献[305]也证明了非遍历情况下该平稳分布的存在性.
  • 图  1  Markov决策过程和Markov博弈的示意图

    Fig.  1  Illustrations of Markov decision processes and Markov games

    图  2  基本博弈形式的一个统一理论框架图

    Fig.  2  Illustrations of a unified theoretical framework of the fundamental games

    图  3  本文介绍的各类博弈形式、学习方法和控制论方法之间的内在关联关系图

    Fig.  3  Illustrations of the intrinsic relationship between the games, multi-agent learning methods, and control methods presented in this paper

    表  1  几类典型的两人两策略对称博弈

    Table  1  Some representative examples of two-player two-strategy symmetric games

    博弈类型 收益值大小关系 博弈类型 收益值大小关系
    囚徒困境 (Prisoner's dilemma) $\left\{\begin{aligned} &{\mathfrak{a}}_{21} > {\mathfrak{a}}_{11} > {\mathfrak{a}}_{22} > {\mathfrak{a}}_{12}\\ & 2{\mathfrak{a}}_{11} > {\mathfrak{a}}_{12}+{\mathfrak{a}}_{21} \end{aligned}\right.$ 和谐博弈 (Harmony game) ${\mathfrak{a}}_{11} > {\mathfrak{a}}_{21}, {\mathfrak{a}}_{12} > {\mathfrak{a}}_{22}$
    雪堆博弈 (Snowdrift game) ${\mathfrak{a}}_{21} > {\mathfrak{a}}_{11},\ {\mathfrak{a}}_{12} > {\mathfrak{a}}_{22}$ 猎鹿博弈 (Stag-hunt game) $\mathfrak{a}_{11}>\mathfrak{a}_{21},\ \mathfrak{a}_{22}>\mathfrak{a}_{12}$
    下载: 导出CSV

    表  2  $d$人随机博弈的收益表

    Table  2  The payoff table of d-player stochastic games

    $d-1$个共同博弈者中行动为 C 的博弈者个数 $d-1$ ··· $\jmath$ ··· $0$
    行动为 C 的博弈者的收益 ${\mathfrak{a}}_{d-1}(s)$ ··· ${\mathfrak{a}}_{\jmath}(s)$ ··· ${\mathfrak{a}}_0(s)$
    行动为 D 的博弈者的收益 ${\mathfrak{b}}_{d-1}(s)$ ··· ${\mathfrak{b}}_{\jmath}(s)$ ··· ${\mathfrak {b}}_0(s)$
    下载: 导出CSV
