中科院苏州医工所董建飞课题组在数据驱动的学习控制方面取得研究进展

时间:2022-03-22

随着机器学习技术的飞速发展,各种学习方法被提出并成功应用于图像识别、学习控制等领域。其中,学习控制的典型方法包括迭代学习控制(ILC)、高斯混合学习控制、强化学习控制等。比如,迭代学习控制方法常被用于控制许多批处理模式的动态过程,并已被成功应用于化工生产和工业机器人等。然而,理论界之前尚未研究这种控制方法针对从数据中获取的参数的随机误差的鲁棒收敛性问题。 

在其经典理论中,迭代学习控制基于一个有限维的输出信号预测方程来计算每一次迭代的输出信号轨迹,其中的参数矩阵是由系统的有限冲击响应系数(即马尔可夫参数)决定的。传统的方法需要根据系统的状态空间模型或传递函数来计算这些马尔可夫参数。当参数中存在不确定性时,鲁棒迭代学习控制方法首先需要对这些参数的不确定性进行建模,或者建立包络其不确定域的凸集;进而根据经典的鲁棒控制方法(如H无穷控制)分析其鲁棒单调收敛性(robust monotonic convergence,简写为RMC)。尽管文献中已经报道了不少基于模型的鲁棒ILC设计方法,并证明了其RMC特性,但尚无针对系统辨识得到的参数中的随机误差进行鲁棒设计的方法研究。 

针对这一问题,董建飞研究员提出了一种数据驱动的方法,即从系统的输入输出数据中辨识马尔可夫参数(即从数据中估计的系统的输出相对于输入信号的梯度信息),进而基于这些估计的参数构造ILC的输出预测方程。根据该方程参数矩阵的Toeplitz结构,分析并推出了随机参数误差与预测输出信号序列的关系;推出了随机不确定的闭环ILC学习矩阵与其自身转置乘积在数学期望意义上的解析表达式;并进而得出了均方差意义上的、保证数据驱动ILC方法对随机参数具有鲁棒单调收敛性的充分条件,及其线性矩阵不等式(LMI)设计方法。该方法首先基于LTI系统研究得出,并被进一步推广到了非线性的Hammerstein-Wiener系统。图1为该ILC方法的原理框图。图2为该方应用于控制一种非线性的酸碱中和反应过程(pH neutralization process)的结果。由图2可见,该方法既可确保闭环控制的稳定性,又可以显著提高控制的精度。 

 1 数据驱动迭代学习控制的原理框图 

2 数据驱动迭代学习控制算法应用于控制一种非线性的酸碱中和反应过程(pH neutralization process)的结果。其中robust ILCnominal ILC分别为考虑或不考虑参数随机误差的鲁棒ILC算法的结果。 

上述研究成果已发表于控制论和人工智能顶刊IEEE Transactions on Cybernetics(中科院一区,影响因子11.448)。

论文链接:https://ieeexplore.ieee.org/abstract/document/9523579 

该研究受到国家自然科学基金面上项目的资助(F030110:数据驱动控制)。在该项目中,董建飞课题组近年来已开展了两个方向的数据驱动学习技术研究:数据驱动的迭代学习控制理论研究、以及基于深度学习和卷积神经网络的图像数据建模的研究。课题组未来计划将深度学习与数据驱动控制技术结合起来,继续研究数据驱动的强化学习控制、及其在生物系统与光机电系统中的应用。