基于区块链的联邦学习: 模型、方法与应用

李程 袁勇 郑志勇 杨东 王飞跃

Li Cheng, Yuan Yong, Zheng Zhi-Yong, Yang Dong, Wang Fei-Yue. Blockchain-enabled federated learning: Models, methods and applications. Acta Automatica Sinica, 2024, 50(6): 1059−1085 doi: 10.16383/j.aas.c230336
基于区块链的联邦学习: 模型、方法与应用

doi: 10.16383/j.aas.c230336
基金项目: 国家自然科学基金(72171230), 澳门科学技术发展基金(0050/2020/A1), 北京市未来区块链与隐私计算高精尖创新中心项目资助

    李程:中国人民大学数学学院、交叉科学研究院博士研究生. 主要研究方向为区块链, 联邦学习与机制设计. E-mail: cheng.li@ruc.edu.cn

    袁勇:博士, 中国人民大学数学学院教授. 主要研究方向为区块链, 计算经济学与分布式人工智能. 本文通信作者. E-mail: yong.yuan@ruc.edu.cn

    郑志勇:中国人民大学数学学院教授. 主要研究方向为解析数论与代数数论. 在指数和与特征和的几何理论以及函数域的解析理论等领域上有突破性贡献. E-mail: zhengzy@ruc.edu.cn

    杨东:中国人民大学交叉科学研究院教授. 主要研究方向为金融科技, 区块链, 数字货币. E-mail: yangdongbeijing@163.com

    王飞跃:中国科学院自动化研究所复杂系统管理与控制国家重点实验室研究员. 主要研究方向为智能系统和复杂系统的建模, 分析与控制. E-mail: feiyue.wang@ia.ac.cn

Blockchain-enabled Federated Learning: Models, Methods and Applications

Funds: Supported by National Natural Science Foundation of China (72171230 ), Science and Technology Development Fund of Macau (0050/2020/A1), and Beijing Future Blockchain and Privacy Computing Advanced Innovation Center
More Information
    Author Bio:

    LI Cheng Ph.D. candidate at the School of Mathematics and the School of Interdisciplinary Studies, Renmin University of China. His research interest covers blockchain, federated learning, and mechanism design

    YUAN Yong Ph.D., professor at the School of Mathematics, Renmin University of China. His research interest covers blockchain, computational economics, and distributed artificial intelligence. Corresponding author of this paper

    ZHENG Zhi-Yong Professor at the School of Mathematics, Renmin University of China. His research interest covers analytic number theory and algebraic number theory. He has made breakthrough contributions in the geometric theory of exponents and characteristic sums and analytic theory of functional domains

    YANG Dong Professor at the School of Interdisciplinary Studies, Renmin University of China. His research interest covers financial technology, blockchain, and digital currency

    WANG Fei-Yue Professor at the State Key Laboratory for Management and Control of Complex Systems, Institute of Automation, Chinese Academy of Sciences. His research interest covers modeling, analysis, and control of intelligent systems and complex systems

  • 摘要: 近年来, 人类社会快速步入大数据时代, 数据安全与隐私保护已成为发展大数据生态及相关数字经济的关键问题. 联邦学习(Federated learning)作为分布式机器学习的一种新范式, 致力于在保护数据隐私的同时从分布式本地数据集中训练全局模型, 因而获得了广泛和深入的研究. 然而, 联邦学习体系面临的中心化架构、激励机制设计和系统安全等技术挑战仍有待进一步研究, 而区块链被认为是应对这些挑战的有效解决方案, 并已成功应用于联邦学习的许多研究和实践场景. 在系统性地梳理现阶段区块链与联邦学习集成研究成果的基础上, 提出基于区块链的联邦学习(Blockchain-enabled federated learning, BeFL)概念模型, 阐述其中的若干关键技术、研究问题与当前研究进展, 探讨该领域的应用场景以及有待进一步研究的关键问题, 并讨论未来发展的潜在方向, 致力于为构建去中心化和安全可信的数据生态基础设施、促进数字经济与相关产业的发展提供有益的参考与借鉴.
  • 图  1  基于区块链的联邦学习概念模型

    Fig.  1  Conceptual model of blockchain-based federated learning

    图  2  BeFL 架构的基本运作流程

    Fig.  2  The basic operational process of the BeFL architecture

    图  3  联邦学习架构与BeFL架构的网络拓扑结构

    Fig.  3  The network topology of federated learning architecture and BeFL architecture

    图  4  智能合约与人工智能的集成与演进

    Fig.  4  The integration and evolution of smart contracts and artificial intelligence

    图  5  BeFL 架构的应用场景

    Fig.  5  Application scenarios of the BeFL architecture

    表  1  BeFL 研究相关综述

    Table  1  Overview of BeFL research

    文献及作者  主要内容  与本文的差异 应用领域
    Nguyen等[20] 边缘计算中基于区块链的联邦学习概念、应用场景、优势和挑战 文献方法重点讨论边缘计算中基于区块链的联邦学习的通信成本、资源配置、激励学习、安全和隐私保护; 而本文则从通用领域整体归纳了区块链与联邦学习的集成, 及二者进一步研究问题和未来研究方向 边缘计算
    Ali等[21] 物联网中基于区块链的联邦学习发展历程、应用案例、挑战和解决方案 文献方法主要关注物联网中基于区块链的联邦学习的整体研究历程; 而本文从通用领域的角度提供了一个更全面的基于区块链与联邦学习的概览 物联网
    Issa等[22] 物联网中基于区块链的联邦学习的安全性问题 文献方法讨论了在隐私保护、数据共享、攻击防御等方面的优势, 并评估了现有的安全机制和协议; 而本文则关注于通用领域的安全、效率等研究问题和应用领域 物联网
    Zhu等[23] 从多个角度综合考虑了基于区块链的联邦学习所面临的问题和解决方法 文献方法聚焦基于区块链的联邦学习中的安全和奖励等问题及其解决方案, 分析了不同系统架构及未来挑战; 而本文更侧重于以统一的区块链与联邦学习集成的概念模型出发, 更加全面归纳了进一步研究问题 通用领域
    Javed等[24] 车载网络中基于区块链技术和联邦学习技术的优势和挑战 文献方法专注于车联网领域; 而本文则提供了一个针对区块链和联邦学习整合的全面概述, 并适用于众多应用领域 车联网
    Qu 等[25] 基于区块链的联邦学习的概念、原理、应用和现有研究工作 文献方法主要从区块链的角度全面介绍了基于区块链的联邦学习; 而本文对比之下则讨论两者的集成概念模型, 并讨论了其架构应用的局限性和现有解决方案 通用领域
    李凌霄等[26] 基于区块链的联邦学习技术的发展背景、研究现状和主要挑战 文献方法从架构特点、资源分配、安全机制、激励机制等方面进行了简述; 而本文更为详细和全面地给出了统一的区块链联邦学习概念模型, 并总结了关键研究问题和未来研究方向 通用领域
    孙睿等[27] 基于区块链的联邦学习所面临问题、解决方法和应用领域 文献方法主要阐述了体系架构、激励、安全和效率等问题; 而本文更全面归纳了研究现状, 详细讨论了基于区块链的联邦学习在效率、异构、博弈和安全等方面的问题, 并讨论了进一步研究问题和未来方向 通用领域
    Saraswat等[28] 5G网络中无人机中基于区块链的联邦学习技术 文献方法的研究是关于在5G网络的无人机中使用的技术; 而本文则主要关注通用领域, 并以架构模型为基础讨论了基于区块链的联邦学习如何应用在相关领域中 无人机
    表  2  BeFL 研究现状

    Table  2  Current status of BeFL research

    架构 研究要点 研究内容 代表性文献
    基础架构 去中心化架构 采用区块链的去中心化P2P网络替代传统联邦学习的星型网络 [2934]
    参数/身份校验 对参与节点身份和上传参数进行验证、筛选和授权 [2930, 3334]
    链上−链下架构 结合分布式存储系统, 链上传输参数, 链下训练模型 [31]
    共识机制 选举类联邦共识 基于预置的投票和选举规则对训练节点进行选择 [3538]
    证明类联邦共识 参与节点竞争解决联合学习任务 [20, 3941]
    联盟类联邦共识 选举委员会节点来评估全局模型 [4243]
    联邦学习改进共识算法 利用联邦学习来分析和预测节点间进行共识过程时的网络状况 [4445]
    经济激励 面向数据的激励 衡量用户贡献数据的质量 [31, 4648]
    面向行为的激励 激励用户选择正确的参与训练的方式 [4954]
    面向信誉的激励 多维度对参与节点进行信誉评分 [5558]
    智能合约 基于智能合约的调度 利用智能合约代替中央协调器来调度整个联邦学习流程 [43, 5961]
    集成AI算法的智能组件 将人工智能算法集成到智能合约中, 形成基于BeFL的智能组件 [6269]
    多智能体与DAO 基于多智能体技术和DAO的自组织联邦生态 [7073]
    隐私安全 加密机制 与同态加密、安全多方计算、差分隐私等加密技术相集成 [7483]
    推理攻击 抵御BeFL的成员推理攻击、特征推理攻击和模型反演攻击等 [79, 8485]
    投毒攻击 缓解BeFL的数据投毒攻击和模型投毒攻击等 [8688]
    应用领域 联邦云计算 实现云计算节点、雾计算节点、边缘计算节点之间互联互通 [8996]
    医疗健康 实现医疗数据共享同时保证医疗数据安全 [97108]
    车联网 保证车联网安全有效的同时促进车辆间的数据共享 [109112]
    智慧城市 打通城市“数据孤岛”, 构建城市数据安全共享机制 [113117]
    移动网络 在移动网络中, 保护数据隐私的同时提供可靠、高效的网络服务 [118119]
    表  3  BeFL架构实验设计

    Table  3  Experimental design of the BeFL architecture

    文献 训练模型 区块链平台 数据集 评估标准
    [20] CNN/MLP 区块链仿真平台 MNIST/CIFAR-10 模型准确率
    [29] CNN Ethereum MNIST/CIFAR-10 模型准确率
    [31] NN/CNN Ethereum 私有数据集 任务分类准确率
    [32] NN 许可链 私有数据集 AUC/准确率/灵敏度/特异性/F1得分
    [34] GCN 许可链 路透社数据集/新闻组数据集 AUC/安全性分析/模型准确率/运行时间
    [37] MLP 区块链仿真平台 MNIST 模型准确率
    [38] NN Hyperledger Fabric MNIST 模型准确率
    [39] CNN 区块链仿真平台 MNIST 模型准确率
    [40] CNN EOSIO区块链 MNIST/CIFAR-10 运行时间/模型准确率
    [41] LDA 区块链仿真平台 单词数据集 网络中延迟的节点数
    [42] CNN Corda V3.0 MNIST 密码大小/吞吐量/训练精度/总时间成本
    [43] AlexNet FISCO BCOS FEMNIST 模型准确率
    [46] / 区块链仿真平台 MNIST 搬土距离/区块生成时间/准确率
    [47] LR 区块链仿真平台 手写体数字光学识别数据集 余弦相似度/运行时间
    [48] / Hyperledger Fabric MNIST 模型准确率
    [49] MLP/VGG11 区块链仿真平台 MNIST/Fashion-MNIST 损失函数/准确率
    [52] NN Truffle 威斯康星州乳腺癌数据集(BCWD)/
    心脏病数据集 (HDD)
    [53] CNN 联盟链 MNIST 测试准确率/训练时间
    [57] / 联盟链 MNIST 搬土距离/准确率
    [61] ResNet50/GhostNet 联盟链 X激光图片数据集 损失函数/准确率
    [62] XGBoost Ethereum 交易和源代码数据集 精准度/召回率/F1得分
    [67] DNN Ethereum 出租车运行数据 效益分析/燃气费/运行时间
    [69] CNN 许可链/DAG MNIST 损失函数/模型准确率/累计消耗时间/
    [70] CNN 区块链仿真平台 MNIST 平均作用时间/训练时间/模型准确率
    [71] NN Ethereum 私有数据 损失函数/模型准确率
    [77] NN 区块链仿真平台 MNIST 模型准确率
    [78] NN 私有链 私有采集数据集 分类交叉熵损失/模型准确率
    [79] AlexNet Ethereum MNIST/CIFAR-10 模型准确率/搬土距离
    [82] CNN/MLP 私有链 MNIST 测试准确率
    [83] CNN 区块链仿真平台 公有数据集/MNIST 模型准确率/迭代次数
    [84] LR 区块链仿真平台 合成数据/眼状态数据集 模型推理运行时间
    [86] LR 区块链仿真平台 信用卡数据集/MNIST/
    CIFAR-10 人脸数据集
    [87] LR Ethereum 成人人口普查收入数据 F1得分
    注: NN: 神经网络, CNN: 卷积神经网络, DNN: 深度神经网络, MLP: 多层感知机, LR: 逻辑回归, GCN: 图卷积神经网络, LDA: 文档主题生成模型, XGBoost: 分布式梯度增强库, AUC: 曲线下面积, ResNet50: 一种残差神经网络, GhostNet: 一种端侧神经网络架构.
    表  4  关键问题与未来方向

    Table  4  Key issues and future directions

    研究要点 研究内容 代表文献
    关键问题 效率 调整区块生成率 在通信、算力和共识延迟之间权衡 [68, 93, 120121]
    压缩梯度和模型 压缩梯度和模型以减少通信开销 [122124]
    采用双链架构 联盟链上执行聚合, 公链上实施奖惩 [69, 125126]
    异构 数据异构 设计优化算法处理非独立同分布的联合训练数据 [127]
    模型异构 使BeFL架构满足参与节点, 依据需求选取不同的模型来参与联合训练 [128]
    网络资源异构 处理各参与节点网络环境和网络资源不同而引发的可靠交互问题 [129]
    博弈 共识与激励机制设计 依据博弈论来设计共识算法, 经济激励机制等 [4547, 50]
    系统性能分析 依据博弈论对BeFL在计算开销、通信成本、系统效率之间做权衡 [95]
    参与节点竞合分析 在信息不对等时, 利用博弈论来对参与节点进行竞合分析 [130133]
    安全 节点可信 利用身份认证和敌手节点阈值分析来确保节点可信 [134135]
    数据安全 对智能合约数据、参与方本地模型数据和存储设备上的数据进行安全保护 [136138]
    系统安全 对计算环境、通信环境和智能合约运行环境进行安全保护 [139140]
    未来方向 数据要素市场 参与对象 对于数据要素市场的参与对象进行划分 [126, 141]
    交易机制 数据竞价定价机制, 确保成交价最优 [142]
    供需情况 考虑算力、模型、数据三者之间的供需情况来构建市场模型 [143]
    推荐模型 利用BeFL架构隐私保护和去中心化特点增强推荐模型 [144146]
    搜索模型 集成BeFL增强搜索模型对于去中心化存储和加密数据查询分析需求 [52, 147]
    AIGC模型 结合BeFL架构激励用户参与并贡献数据来提升AIGC模型 [148149]
    隐私与监管 隐私与监管的权衡 在多方参与弱信任环境中利用区块链监管计算流程 [150]
    量子数据安全共享 利用区块链和联邦学习可以使量子数据留在本地,
    有效防止中心节点故障, 并实现量子数据的安全共享
    数据协作和价值共享 利用区块链的去中心化信任机制与联邦学习的隐私保护属性,
