2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

优先发表

优先发表栏目展示本刊经同行评议确定正式录用的文章,这些文章目前处在编校过程,尚未确定卷期及页码,但可以根据DOI进行引用。
显示方式:
面向可信自动驾驶策略优化: 一种对抗鲁棒强化学习方法
何祥坤, 赵洋, 房建武, 程洪, 吕辰
, doi: 10.16383/j.aas.c250193 , cstr: 32138.14.j.aas.c250193
摘要:
虽然强化学习近年来取得显著成功, 但策略鲁棒性仍然是其在安全攸关的自动驾驶领域部署的关键瓶颈之一. 一个根本性挑战在于, 许多现实世界中的自动驾驶任务面临难以预测的环境变化和不可避免的感知噪声, 这些不确定性因素可能导致系统执行次优的决策与控制, 甚至引发灾难性后果. 针对上述多源不确定性问题, 提出一种对抗鲁棒强化学习方法, 实现可信端到端控制策略优化. 首先, 构建一个可在线学习的对手模型, 用于同时逼近最坏情况下环境动态扰动与状态观测扰动. 其次, 基于零和博弈建模自动驾驶智能体与环境动态扰动之间的对抗性. 再次, 针对所模拟的多源不确定性, 提出鲁棒约束演员-评论家算法, 在连续动作空间下实现策略累计奖赏最大化的同时, 有效约束环境动态扰动与状态观测扰动对所学端到端控制策略的影响. 最后, 所提出的方案在不同的场景、交通流及扰动条件下进行评估, 并与三种代表性的方法进行对比分析, 验证了该方法在复杂工况和对抗环境中的有效性与鲁棒性.
带有输入时滞的非线性系统基于学习的输出反馈控制
刘思彤, 高伟男, 姜钟平
, doi: 10.16383/j.aas.c250101 , cstr: 32138.14.j.aas.c250101
摘要:
针对具有输入时滞的非线性系统直接自适应最优控制问题, 提出了一种新的数据驱动输出反馈控制方法. 该方法通过融合Q学习与值迭代和策略迭代, 在学习过程中无需依赖系统动力学知识. 在系统满足一致可观性的条件下, 提出了一种基于输出数据和带有时滞的输入数据的系统状态重构方法, 基于值迭代和策略迭代来学习自适应最优控制策略. 将该方法应用于范德波尔振荡器这一经典非线性系统的控制, 并通过仿真结果充分验证了该方法的有效性.
面向可再生能源消纳的火电机组控制结构综合与分析
马士全, 丁进良
, doi: 10.16383/j.aas.c230210
摘要:
增加可再生能源在电网中的占比, 使能源结构更合理, 是加快能源转型实现低碳可持续发展的有效途径. 电网中占主导地位的火电辅助消纳可再生能源的能力对提高可再生能源在电网中的占比起到重要作用. 为了提高火电机组辅助消纳能力, 根据当前系统控制方案, 分析了影响机组灵活性与调峰深度的因素, 包括机炉协调、局部反馈策略下的锅炉控制、系统稳态工作点的规划等. 详细阐述了基于补偿方案的协调策略限制了机组对具有随机性和间歇性的可再生能源的补偿能力, 局部反馈策略下的锅炉控制只是实现了等效热效应的反馈和非额定工况下的稳态工作点关系到辅助可再生能源消纳的能耗和排放指标等. 根据以上分析分别给出了下一步的研究方向.
工业垂域具身智控大模型构建新范式探索
陈致蓬, 韩杰, 阳春华, 桂卫华
, doi: 10.16383/j.aas.c250247 , cstr: 32138.14.j.aas.c250247
摘要:
大模型工业垂域化是通用智能迈向专业化应用的必然趋势, 更是驱动工业智能化转型的核心引擎. 然而, 大模型在工业领域应用, 面临难以洞察工业时序数据内涵、难以嵌入工业物理化学规律、难以确保模型输出可信度、难以解决复杂工业问题等挑战. 针对上述瓶颈, 提出工业垂域具身智控大模型构建范式: 创新性引入时序数据元模型化方法, 将工业时序数据转换为代码语义, 提升大模型对时序数据的理解与推理能力; 借助元模型构建工业规律知识图谱, 并将其嵌入大模型生成过程, 以确定性科学原理抑制生成随机性; 构建数字孪生与实物伴生的双轨验证平台, 通过虚实具身反馈机制, 实时强化学习, 优化模型输出可信度; 设计融合知识图谱规则评分与虚实验证专家评分的混合奖励函数, 结合自适应学习与长度正则化策略, 克服大模型解决复杂问题时“趋易畏难”倾向; 最终形成一个集垂域适配、具身控制、可信验证、具身反馈于一体的四层闭环架构. 应用于有色冶金领域, 构建了首个有色冶金具身智控大模型, 实验验证了该范式的有效性, 为大模型从实验室走向工业现场, 架起了从技术到落地的桥梁.
多智能体系统协同互估计与控制一体化框架
段志生, 吕跃祖, 段培虎, 杨莹, 王金枝, 温广辉
, doi: 10.16383/j.aas.c250290 , cstr: 32138.14.j.aas.c250290
摘要:
尽管多智能体系统协同控制已有广泛研究, 现有分布式控制算法在个体传感器受损情况下仍存在性能下降问题. 提出一种协同互估计与控制一体化设计新框架, 通过充分利用个体传感器对其他智能体的测量信息, 提升多智能体系统协同控制的弹性能力. 首先, 对整个多智能体系统构建分布式传感网络模型. 其次, 基于既定的协同控制任务, 建立个体对整体控制输入的预测估计; 进一步设计全局整体测量输出的分布式一致性追踪估计器. 然后, 利用整体控制输入预测和整体测量输出追踪, 设计局部观测器实现整体状态估计. 此外, 将所提的一体化设计框架应用于线性多智能体系统协同一致性控制问题, 提出反馈增益的联合设计方法, 从理论上验证了所提框架的有效性. 仿真结果进一步表明, 该框架能够适用于多智能体系统部分传感器受损情形下的协同控制任务. 最后探讨协同互估计与控制一体化框架的未来研究方向.
一类移动机械臂系统的鲁棒H 跟踪控制
孙倩, 郑琳铄, 张学文, 贾英民
, doi: 10.16383/j.aas.c250151 , cstr: 32138.14.j.aas.c250151
摘要:
针对存在参数不确定性、外部扰动和输入饱和约束的移动机械臂跟踪控制问题, 提出一种基于自适应动态规划的鲁棒\begin{document}$H_{\infty} $\end{document}控制方案. 首先, 通过设计神经网络辨识器, 对跟踪误差动力学中的不确定性进行在线估计. 然后, 考虑外部扰动、目标运动扰动和辨识误差, 将鲁棒\begin{document}$H_{\infty} $\end{document}控制转化为零和博弈问题进行求解, 并在值函数中引入广义非二次泛函来处理输入饱和约束. 进一步, 构建评价网络逼近最优值函数, 获得近似最优控制律及最坏情况下的总扰动估计, 实现闭环系统跟踪误差和评价网络权值估计误差的一致最终有界. 仿真结果验证了所提方案的有效性.
3D空间先验驱动的相机轨迹可控视频扩散生成模型
朱泓舟, 杨雪, 赵敏, 李崇轩, 朱军
, doi: 10.16383/j.aas.c250124 , cstr: 32138.14.j.aas.c250124
摘要:
近年来, 视频扩散模型在相机可控的图像到视频生成任务中取得了突破性进展. 然而, 现有方法在维持3D空间结构一致性方面仍面临显著挑战, 其生成视频普遍存在空间结构模糊化、多视角下物体形态畸变等缺陷, 这些问题严重制约了生成视频的视觉可信度. 为解决这一问题, 提出在视频扩散模型的训练和推理阶段均引入额外的3D空间先验信息, 以增强生成视频的空间结构一致性. 具体而言, 在模型训练阶段, 设计基于视角形变映射的条件嵌入方法(Warp-Injection), 通过进行逐帧视角形变映射与图像补全构建具备高度空间一致性的参考帧序列, 并将其作为结构先验条件嵌入扩散模型的训练过程. 在推理阶段, 首先提出初始噪声空间几何校正策略(Warp-Init): 对条件图像加噪进行首帧初始化, 此后通过迭代式视角形变映射构建符合3D一致性约束的初始噪声序列. 在此基础上, 进一步在去噪过程中引入基于视角形变先验的能量函数引导策略(Warp-Guidance), 通过减小生成帧与视角形变映射后的预期目标视频之间的距离来实现对视频3D空间一致性的校正. 在标准RealEstate10K数据集上的实验结果表明, 相较于当前最优模型, 本文方法在FVD指标上取得18.03的显著优化, 同时将3D结构估计的失败率(COLMAP error rate) 降低至5.20%. 可视化分析进一步证明, 本文方法能有效维持生成视频的3D空间结构一致性.
基于样本过滤-标签聚合极端树集成的电力信息物理系统虚假数据注入攻击定位检测
席磊, 李宗泽, 王文卓, 白芳岩, 董璐
, doi: 10.16383/j.aas.c250275 , cstr: 32138.14.j.aas.c250275
摘要:
虚假数据注入攻击行为严重威胁电力信息物理系统的安稳运行. 然而, 针对虚假数据注入攻击的现有检测未充分考虑海量量测数据的不平衡性和网络拓扑的关联性, 导致检测方法广泛存在定位性能差的问题, 提出一种基于样本过滤-标签聚合极端树集成的电网虚假数据注入攻击定位检测方法. 所提方法在基于深度学习的卷积神经网络中引入交叉验证思想, 用于过滤海量量测数据中代表性弱、重复率高的不平衡样本; 通过利用标签聚合将关联的网络拓扑融入到极端树中, 并在与各节点状态对应的所有极端树上进行集成, 继而加权输出得到各节点状态的最终检测概率, 以实现对受攻击位置的精确定位. 在IEEE-14、IEEE-57系统上进行大量仿真, 验证了所提方法的有效性, 且与多种已有定位检测方法进行充分对比, 验证其在准确率、精度、召回率、F1值和AUC值上具备更优性.
“结构−内容”框架下融合时空特征的技术预测模型
袭希, 许伟, 刘传斌, 刘玮倩, 苏忻洁
, doi: 10.16383/j.aas.c250094 , cstr: 32138.14.j.aas.c250094
摘要:
科学技术发展是一种动态非线性的复杂演进过程.为了提升技术发展的精准预测, 本文基于大语言模型(Large Language Model, LLM)、图卷积神经网络(Graph Convolutional Networks, GCN)、双向长短期记忆神经网络(Bi-directional Long Short-Term Memory, BiLSTM)以及鲁棒随机配置网络(Robust Stochastic Configuration Networks, RSCN), 提出了一种全新的"结构−内容"时空技术预测模型(Spatiotemporal Technological Forecasting Model with LLM as Representation, STTeFL 模型).首先, 通过结合图卷积神经网络和双向长短期记忆神经网络, 分别捕捉技术网络中的空间依赖关系和时间演化规律, 从而突破了传统预测模型在动态性和结构表征上的局限性, 克服了传统技术预测模型的“伪动态”和“静态”限制; 其次, 引入大语言模型对技术网络中的节点特征和边特征进行双重语义表征, 将预测框架从单一的结构维度扩展至“结构−内容”双维度分析, 显著增强了模型对技术发展信息的理解能力和表征深度. 最后, 通过集成RSCN, 模型能够有效应对极端不均衡数据分布的挑战, 进一步提升了预测的鲁棒性和准确性.本文提出的预测框架在多个指标上均优于当前多种技术预测方法, 为推动技术预测建模和评估未来技术发展轨迹提供了有力的支持.
基于语义概念关联的参考多目标跟踪方法
林家丞, 陈嘉俊, 李智勇, 王耀南
, doi: 10.16383/j.aas.c250118 , cstr: 32138.14.j.aas.c250118
摘要:
参考目标跟踪(Referring multi-object tracking, RMOT)是一项利用语言与视觉模态数据进行目标定位与跟踪的任务, 旨在根据语言提示在视频帧中精准识别并持续跟踪指定目标. 尽管现有RMOT方法在该领域取得了一定进展, 但针对语言表述概念粒度的建模仍较为有限, 导致模型在处理复杂语言描述时存在语义解析不足的问题. 为此, 提出基于语义概念关联的参考多目标跟踪方法SCATrack), 通过引入共享语义概念(Sharing semantic concept, SSC)和语义概念辅助生成(Semantic concept generation, SCG)模块, 以提升模型对语言表述的深层理解能力, 从而增强跟踪任务的持续性与鲁棒性. 具体而言, SSC模块对语言表述进行语义概念划分, 使模型能够有效区分相同语义的不同表达方式, 以及不同语义间的相似表达方式, 从而提升多粒度输入条件下的目标辨别能力. SCG模块则采用特征遮蔽与生成机制, 引导模型学习多粒度语言概念的表征信息, 增强其对复杂语言描述的鲁棒性和辨别能力. 在两个广泛使用的基准数据集上的实验结果表明, 所提出的SCATrack显著提升RMOT任务的跟踪性能, 验证了方法的有效性与优越性.
大回归模型的自适应学习
戴瑞芬, 王芳, 郭雷
, doi: 10.16383/j.aas.c250286 , cstr: 32138.14.j.aas.c250286
摘要:
随着信息技术的快速发展, 特别是计算能力和数据收集能力的不断提升, 利用大参数模型对复杂场景进行建模已成为显著的发展趋势. 然而, 关于一般反馈输入下此类模型的学习问题, 在控制系统领域却鲜有研究. 基于此, 针对饱和观测下的大回归模型, 设计了一种在线扩展型自适应学习算法.该算法可随着新数据的增加自动更新算法维数和计算结果, 在无需存储历史数据的前提下, 实现学习结果的动态调整与输出结果的实时预测. 具体来讲, 在一般的非持续激励数据条件下证明了所提出算法的收敛性, 该结果可以适用于一般反馈控制系统; 还在无任何数据激励条件假设下证明了算法的预测“遗憾”具有良好的收敛性. 最后, 基于真实的故意伤害罪判决数据开展了司法量刑预测实验, 检验了所提出算法的计算效率和预测精度.
旋转导向钻井工具系统实时测量的智能粒子滤波方法
盛立, 刘一凡, 高明, 周东华
, doi: 10.16383/j.aas.c250136 , cstr: 32138.14.j.aas.c250136
摘要:
针对旋转导向钻井工具系统中工具面角的实时测量问题, 提出了一种基于深度学习的智能粒子滤波算法. 首先, 针对粒子滤波中的粒子短缺与退化问题, 建立了条件生成对抗网络(Conditional generative adversarial network, CGAN)引导的粒子选择机制. 在该机制中, 生成器网络通过对抗训练优化采样分布, 生成高质量粒子集; 判别器则评估生成粒子在真实后验分布中的概率值, 指导粒子权重计算. 其次, 针对井下复杂工况中存在的噪声协方差未知且时变问题, 设计了基于深度残差网络(Residual network, ResNet)的协方差矩阵估计器. 该模块与CGAN引导的粒子滤波以端到端的方式集成, 形成了闭环优化系统. ResNet模块得益于粒子滤波算法中的模型信息, 并为粒子滤波提供协方差矩阵的估计. 最后, 在旋转导向钻井工具平台上进行实验, 结果表明所提算法能够有效解决工具面角的实时测量问题, 与已有算法相比具有更高的精度.
含动力学奖励的航天器编队深度强化学习控制
金伟成, 陈提, 胡海岩
, doi: 10.16383/j.aas.c250202 , cstr: 32138.14.j.aas.c250202
摘要:
提出了一种航天器编队的深度强化学习控制方法. 该方法通过引入动力学奖励, 考虑轨迹的动力学可行性并优化燃料消耗量. 在训练环境中, 引入\begin{document}$J_{2}$\end{document}摄动相对动力学模型, 基于近端策略优化算法, 将航天器的局部观测信息作为策略网络和评价网络的输入. 策略网络输出航天器的期望位置和速度, 结合动力学模型限制策略任意动作之间的转换控制, 使输出轨迹考虑动力学可行性. 评价网络基于局部观测信息估计由动力学模型限制的优势函数, 从而辅助策略网络更新参数. 进一步地, 以燃料消耗量的负数作为动力学奖励, 结合避撞和任务相关奖励后, 训练得到的策略网络在完成航天器编队任务的同时优化了燃料消耗.
基于无模型策略梯度强化学习的未知随机系统最优控制
杜城龙, 韩洁, 李繁飙, 桂卫华
, doi: 10.16383/j.aas.c250156 , cstr: 32138.14.j.aas.c250156
摘要:
针对一类未知动力学马尔科夫随机系统的最优控制问题, 提出两种无模型策略梯度强化学习算法. 首先, 针对模型信息部分未知的马尔科夫随机系统, 基于系统采样数据和耦合李雅普诺夫方程推导出无模型策略梯度的解析形式, 并提出一种部分无模型策略梯度强化学习最优控制算法, 实现了对预设性能指标的直接最小化. 由于求解耦合李雅普诺夫方程和计算策略梯度的必要数据均可从系统采样数据同一轨迹提取, 而无需再额外收集采样数据, 降低了算法的采样复杂度. 进一步地, 为完全解除对马尔科夫随机系统模型信息的依赖, 通过随机摄动反馈增益估计策略梯度,并提出一种完全无模型策略梯度强化学习算法, 实现了马尔科夫随机系统动力学完全未知情况下的最优控制. 最后, 通过仿真结果证明了本文所提两种无模型策略梯度强化学习最优控制算法的高效性与优越性.
基于条件扩散模型的卫星遥测数据缺失值插补方法
庞昭辰, 刘明, 张立宪, 曹喜滨, 段广仁
, doi: 10.16383/j.aas.c250244 , cstr: 32138.14.j.aas.c250244
摘要:
卫星遥测时间序列数据在遥感监测、导航定位等领域具有重要应用价值, 同时也能有效监控卫星的健康状态. 然而, 这些数据常常因传感器故障、数据传输错误等复杂因素出现缺失, 严重影响数据的完整性和可用性, 甚至可能导致决策失误. 对此, 提出基于多变量条件扩散模型的卫星时间序列补全方法, 旨在提高卫星遥测数据缺失值插补的准确性. 首先, 通过引入条件扩散方法, 将观测到的卫星数据作为条件输入, 通过建模缺失值的后验分布来生成数据, 并在生成过程中对该残缺样本进行初步的线性插补, 从而提高模型的稳定性. 其次, 设计由时间注意力层和门控激活单元组成的残差模块作为主干预测网络, 对多维遥测数据中的时间依赖关系进行充分捕捉, 实现对缺失数据的精准重构. 最后, 在某通讯卫星的动量轮遥测数据集以及公开的时间序列数据集上进行广泛实验. 实验结果表明, 所提方法在不同缺失率下均表现出良好的性能和泛化能力, 与现有方法相比, 展现出更高的准确性和稳定性.
精细抗干扰控制——从干扰不变性到适应可变性
谢一嘉, 李文硕, 朱玉凯, 崔洋洋, 郭雷
, doi: 10.16383/j.aas.c250211 , cstr: 32138.14.j.aas.c250211
摘要:
抗干扰是控制科学和智能科学的基本主题之一. 长期以来, 干扰不变性被视为抗干扰控制方法的一个设计准则. 然而, 干扰不变性设计带来的控制代价易被忽视, 且往往不满足执行机构和信息拓扑等系统软硬件限制. 本文在干扰不变性准则的基础上, 提出干扰适应可变性准则和设计思想. 主要实现途径包括: 干扰深耦合建模、干扰可抗/可用度量化、复合抗干扰控制、干扰主动和精细利用、基于抗扰能力量化的系统重构优化等. 在此基础上, 进一步提出系统进化设计、进化智能和智能系统工程的思想, 从“任务目标−干扰因素−系统资源”的一体化角度提高动态适配性, 实现闭环系统的行为进化和形态进化. 干扰适应可变性准则突破了传统干扰不变性准则的藩篱, 实现了从“抗干扰”到“识干扰”、“用干扰”的干扰精细控制理论跨越, 为精细抗干扰控制理论和智能系统工程实践提供了新的理论支撑、研究视角和技术途径.
面向电力系统快速频率响应的数据与模型驱动预测控制
吴卓睿, 张萌, 管晓宏
, doi: 10.16383/j.aas.c250261 , cstr: 32138.14.j.aas.c250261
摘要:
维持频率稳定是电力系统控制的一个重要目标. 然而, 高渗透率新能源可能导致频繁的功率波动, 对系统频率调节造成不利影响. 为解决这一问题, 通常需要快速调节变流器资源的功率输出, 响应系统频率波动以实现快速频率控制. 针对电力系统快速频率控制, 提出一种数据与模型驱动的预测控制方法. 首先, 设计数据驱动的扰动观测器以估计负荷变化与新能源波动等系统扰动. 为优化控制性能, 利用基于神经网络设计的参考调节器为模型预测控制器提供虚拟参考. 通过学习长预测时域模型预测控制器, 参考调节器能够提升短预测时域控制器性能, 因而降低了所需的计算时间. 最终, 仿真对比结果表明所提方法能够有效提高频率控制性能.
基于强化学习的流程工业智能决策研究与展望
黄慕轶, 朱佳雯, 戴鑫, 杜文莉, 钱锋
, doi: 10.16383/j.aas.c250272 , cstr: 32138.14.j.aas.c250272
摘要:
流程工业是现代制造体系的重要组成部分, 其生产过程的优化决策直接关系到企业的经济效益与资源利用效率. 随着生产规模扩大与系统复杂性提升, 传统依赖机理建模或启发式规则的优化方法在应对高维耦合、非线性及不确定性等工业特性时逐渐显现出局限性. 强化学习因其无需依赖过程模型、具备高效决策、自适应调整和应对不确定性的能力, 有望解决上述问题, 成为流程工业智能决策研究的重要方向. 然而, 流程工业中强化学习的落地应用仍面临诸多挑战, 如状态与动作空间维度庞大、结构多样, 调度约束复杂, 工况非平稳性强. 本文系统梳理了强化学习在流程工业中的应用现状与关键技术, 重点讨论其在复杂决策空间、约束处理、大规模系统及不确定性环境中的算法演进与应用探索, 最后展望未来的发展趋势与潜在研究方向, 为复杂工业系统的智能优化提供理论基础与方法支撑.
基于深度语义扩散的深度图修复: 缺陷数据集与模型
闫涛, 李彤, 张江峰, 钱宇华, 陈路, 吴鹏
, doi: 10.16383/j.aas.c250024 , cstr: 32138.14.j.aas.c250024
摘要:
深度修复旨在解决三维重建过程中深度图的缺失、噪声和遮挡问题. 然而, 由于深度图来源的多样性和异质性, 现有的深度修复方法难以对复杂场景结构及未知类型深度缺陷实现有效修复. 针对上述问题, 不同于现有方法单纯从提升算法鲁棒性的角度进行研究, 从深度缺陷数据集构建的逆向视角出发, 构造一种真实缺陷采样仿真数据集RDSS, 并在此基础上提出一种基于深度语义扩散的深度图修复模型DR-Net. RDSS数据集通过对真实缺陷的采集与建模, 结合同质化形变拓展和异质化交叉组合, 能够对多种复杂场景中的深度缺陷进行形式化仿真, 有效提升深度缺陷的多样性和场景的覆盖性. 设计的深度图修复网络DR-Net基于U型网络结构, 利用反向透射模块实现高分辨率细节保持的同时, 通过深度语义扩散模块传播图像中的深度语义信息, 进而有效提升修复性能. 为验证RDSS数据集的有效性及DR-Net模型的鲁棒性, 从数据集的可用性和网络模型的有效性两个方面进行分析. 实验结果表明: 以RDSS数据集为基准训练数据集, 可实现在其他数据集中深度图的有效修复. 此外, 与最先进的模型设计类修复方法SDFilter和数据驱动类修复方法G2相比, DR-Net模型在RDSS、NYU Depth V2和KITTI三类数据集上的均方根误差指标分别平均下降24.85%和29.54%, 验证了DR-Net模型的有效性和先进性.
一类带有输入时滞和乘性噪声线性系统的随机最优控制
王宏霞, 刘祥谦
, doi: 10.16383/j.aas.c240809 , cstr: 32138.14.j.aas.c240809
摘要:
研究存在未知系统动力学和输入时滞的乘性噪声系统线性二次最优控制问题. 当系统动力学完全已知时, 可以通过离线求解Riccati-ZXL方程获得最优反馈策略. 而当系统动力学不完全已知时, 离线求解Riccati-ZXL方程不再可行. 为此, 拟设计一种值迭代(value iteration, VI)算法来求解Riccati-ZXL方程, 该算法仅依赖可量测的状态和输入信息, 而不要求完全的系统动力学. 与策略迭代(policy iteration, PI)算法不同, 该算法消除了对初始策略稳定性的要求, 具有更强的适应性. 最后, 通过一个例子验证了所提算法的有效性.
独立慢特征分析建模方法及其在动态故障检测中的应用
张晨, 孔祥玉, 胡昌华
, doi: 10.16383/j.aas.c250134 , cstr: 32138.14.j.aas.c250134
摘要:
故障检测与诊断技术是保证复杂装备或工业过程正常运行的技术支撑和有效手段, 独立成分分析(Independent component analysis, ICA)作为一种典型的多元统计过程监测(Multivariate statistical process monitoring, MSPM)方法, 可充分挖掘数据的高阶统计信息. 传统ICA方法在预处理阶段采用主成分分析(Principle component analysis, PCA)进行白化和降维, 但PCA的静态性质导致ICA在动态过程监测中的效果不太理想. 为解决这一问题, 提出一种独立慢特征分析(Independent-slow feature analysis, ISFA)建模方法. ISFA以原始观测矩阵和白化矩阵为自变量构造双目标优化函数, 基于牛顿迭代法求解目标函数, 使用网格搜索优化权重系数, 利用指数加权移动平均(Exponentially weighted moving average, EWMA)修正统计量并构建综合检测指标; 最后, 利用数值仿真和电动伺服机构实验验证所提方法的有效性.
一种基于单比特通信压缩的大模型训练方法研究
陈楚岩, 刘烨谞, 贾维宸, 何雨桐, 袁坤, 王立威
, doi: 10.16383/j.aas.c250087 , cstr: 32138.14.j.aas.c250087
摘要:
近年来, 大语言模型研究取得了突破性进展. 本文针对大模型分布式训练中通信开销高、算力利用率低的问题, 提出了一种基于Adam-mini优化器的单比特通信压缩算法——单比特Adam-mini. 该算法通过减少二阶动量参数, 使得能够以较小的通信代价精确计算全局二阶动量, 从而简化了通信误差补偿机制的设计. 单比特Adam-mini不仅避免了现有单比特Adam算法中通信开销较大的预热阶段, 还具备可证明的线性加速性质, 确保了分布式训练的高效性. 实验结果表明, 该算法在多种任务上表现优异, 并且可以兼容稀疏压缩器, 为大模型训练提供了更高效的解决方案.
基于MARL-MHSA架构的水下仿生机器人协同围捕策略: 数据驱动建模与分布式策略优化
冯育凯, 吴正兴, 谭民
, doi: 10.16383/j.aas.c250086 , cstr: 32138.14.j.aas.c250086
摘要:
针对水下仿生机器人集群的围捕—逃逸问题, 提出一种融合多头自注意力机制的多智能体强化学习策略训练框架. 该框架构建一种基于多头自注意力机制的中心化决策网络, 在提升策略训练效率的同时, 保留了分布式决策架构, 有效增强了个体的自主决策能力与群体间的协同性能. 此外, 针对策略由仿真环境向真实场景迁移过程中动力学建模不精确、感知—动作存在偏差等挑战, 构建一种由真实场景机器鱼运动数据驱动的仿真环境, 有效提升了策略的可迁移性与部署的可靠性. 通过仿真与真实场景实验验证了所提方法在水下仿生机器人协同围捕任务中的有效性. 相较于多智能体近端策略优化算法, 该方法可使平均围捕成功率提升24.3%、平均围捕步长减少30.9%, 显著提升了水下仿生机器人集群的协同围捕效率. 该研究为多智能体强化学习在水下仿生机器人集群任务中的应用提供了新的思路和技术支持.
控制系统隐私保护研究综述
王继民, 张纪峰, 陈嘉龙
, doi: 10.16383/j.aas.c250082 , cstr: 32138.14.j.aas.c250082
摘要:
控制系统隐私保护是随着数字化、信息化和智能化的发展而诞生的新兴方向, 具有广泛的实际需求与应用价值, 是现代控制理论在新时代的重要发展. 鉴于此, 本综述从研究背景与意义、国内外现状、未来研究方向及总结与展望四个方面, 对该方向进行系统梳理. 控制系统隐私问题无处不在, 隐私保护对控制系统至关重要. 由于该方向具有交叉性、不确定性、实时性和应用性等特点, 其研究具有挑战性. 在国内外研究现状部分, 详细介绍基于系统结构的方法、基于确定性变换的方法和基于随机混淆或扰动的方法, 并着重阐述同态加密、安全多方计算、差分隐私等常见技术的理论基础及在控制系统中的应用. 针对面临的诸多挑战性问题, 总结未来重点研究方向, 尤其是隐私、控制与通信的一体化设计, 以及隐私保护与系统性能之间的权衡. 最后, 对该方向进行总结与展望, 旨在为相关研究人员提供参考, 进一步推动国家安全战略的实施.
大语言模型的工具使用综述
郑逸宁, 余镇, 李不凡, 杨捷, 殷林琪, 印张悦, 袁枫烨, 魏海洋, 陆嘉昊, 方世成, 陈爽, 邱锡鹏
, doi: 10.16383/j.aas.c240793 , cstr: 32138.14.j.aas.c240793
摘要:
大语言模型因其强大的生成和理解能力受到广泛关注, 但在获取实时信息和执行复杂计算上仍存在局限性. 为使其更好地响应用户需求, 赋予大语言模型工具使用能力成为当下的研究热点. 首先, 明确大语言模型工具使用的基本概念, 并按照时间顺序梳理工具使用的发展脉络. 随后, 总结与工具使用相关的数据集和技术方法, 并分析其在智能体和具身智能等领域的应用. 最后, 梳理大语言模型工具使用领域未来的研究重点与发展方向.
面向大模型时代的持续学习方法论演变
王全子昂, 王仁振, 孟德宇, 徐宗本
, doi: 10.16383/j.aas.c240805 , cstr: 32138.14.j.aas.c240805
摘要:
以深度学习为代表的机器学习方法已经在多个领域取得显著进展, 然而大多方法局限于静态场景, 难以像人类一样在开放世界的动态场景中不断学习新知识, 同时保持已经学过的知识. 为解决该挑战, 持续学习受到越来越多的关注. 现有的持续学习方法大致可以分为两类, 即传统的非预训练模型持续学习方法以及大模型时代下逐步演进的预训练模型持续学习方法. 本文旨在对这两类方法的研究进展进行详细的综述, 主要从四个层面对比非预训练模型和预训练模型方法的异同点, 即数据层面、模型层面、损失/优化层面以及理论层面. 着重分析从应用非预训练模型的方法发展到应用预训练模型的方法的技术变化, 并分析出现此类差异的内在本质. 最后, 总结并展望未来持续学习发展的趋势.
飞机总装的现场级工业网络系统: 架构、关键技术及应用
关新平, 温晓婧, 金天恺, 王淑玲, 陈彩莲
, doi: 10.16383/j.aas.c250157 , cstr: 32138.14.j.aas.c250157
摘要:
面对复杂系统装配对高精度、高时效协同的迫切需求, 飞机总装制造亟需构建具备感知−传输−控制一体化能力的现场级工业网络系统. 为此, 本文率先建立现场级网络控制系统容量模型, 提出双向融合−协同管控的工业互联网新型架构. 围绕感知、传输、计算与控制的全链条任务闭环, 系统构建多维时效性综合评价指标体系, 深入探索多域异构资源的联合调度与协同优化机制. 最后, 面向飞机总装过程中活动面动态测量与多工序协同优化, 设计并实现高保真数字孪生验证平台, 有效支撑理论模型、控制策略与实际部署之间的闭环映射.
基于 PID 自整定功能的自适应双路输出的黑体温度控制
张海弟
, doi: 10.16383/j.aas.c190277
摘要:
首先, 通过分析黑体温度控制系统的物理模型, 推演出黑体传递函数的表达式.推演过程中得知黑体易受环境温度和空气散热的影响, 所以黑体温度控制系统是个非线性时变系统.结合实验黑体的阶跃响应数据, 采用阶跃响应法对传递函数进行近似计算, 得出黑体温控系统的传递函数是极点在左半轴的二阶系统, 该系统等效于二阶低通滤波器.经过低通滤波器的信号, 会滤除高频部分, 当用继电器法进行参数自整定时, 仅需计算能量较大的基波信号.通过对基波信号进行比较, 得出继电器法的整定公式, 并参照Ziegler-Nichols整定法则计算出PID参数.同时, 本文针对黑体加热器具有双路输出的特点, 提出了一种双路动态输出法, 通过理论分析了该方法可以消除环境对黑体温度的影响.对于环境温度变化较大的, 采用继电器法PID参数自整定的方式来消除; 对于黑体运行过程中环境温度变化较小的, 采用双路动态输出法来减少影响.最后, 结合实验数据, 引入性能指标, 验证了本文所述方法对黑体的温度控制性能有一定的提升.
仿人智能控制理论及应用研究进展
戴小文, 宋建霖, 岳丽全
, doi: 10.16383/j.aas.c200007
摘要:
仿人智能控制是现代智能控制理论之一, 利用分层递阶的控制结构与多控制模态为强非线性、大迟滞、难建模问题提供了切实可行的解决方案, 近些年来发展迅速并且得到学术界的持续关注, 但缺乏对该理论研究进展系统性的总结. 本文通过系统的梳理仿人智能控制的理论基础和发展脉络, 将其划分为三代控制模型, 分别从每一代控制模型的算法描述、研究进展与应用进展三个角度进行综述, 同时, 结合当前的研究进展讨论仿人智能控制在控制模型、结构功能、参数校正方面进一步研究的方向.
基于生成对抗网络的对抗攻击防御模型
孔锐, 蔡佳纯, 黄钢
, doi: 10.16383/j.aas.2020.c200033
摘要:
深度神经网络在解决复杂问题方面取得了惊人的成功, 广泛应用于生活中各个领域, 但是最近的研究表明, 深度神经网络容易受到精心设计的对抗样本的攻击, 导致网络模型输出错误的预测结果, 这对于深度学习网络的安全性是一种极大的挑战. 对抗攻击是深度神经网络发展过程中必须克服的一大障碍, 设计一种高效且能够防御多种对抗攻击算法, 且具有强鲁棒性的防御模型是有效推动对抗攻击防御的方向之一, 探究能否利用对抗性攻击来训练网络分类器从而提高其鲁棒性具有重要意义. 本文将生成对抗网络(Generative adversarial networks, GAN)和现有的攻击算法结合, 提出一种基于生成对抗网络的对抗攻击防御模型(AC-DefGAN), 利用对抗攻击算法生成攻击样本作为GAN的训练样本, 同时在网络中加入条件约束来稳定模型的训练过程, 利用分类器对生成器所生成样本的分类来指导GAN的训练过程, 通过自定义分类器需要防御的攻击算法来生成对抗样本以完成判别器的训练, 从而得到能够防御多种对抗攻击的分类器. 通过在MNIST、CIFAR-10和ImageNet数据集上进行实验, 证明训练完成后, AC-DefGAN可以直接对原始样本和对抗样本进行正确分类, 对各类对抗攻击算法达到很好的防御效果, 且比已有方法防御效果好、鲁棒性强.