随着卫星网络、天地一体化网络、物联网的发展,未来巨型星座、高分辨率对地观测、载人航天器、空间站等天基信息系统提出了大容量空间网络和信息传输的需求日益迫切。

科学家研究双层马尔可夫DRL架构的分布式卫星集群激光组网算法

空间分布式卫星集群(DSC)通过利用同一轨道上的多颗异构卫星配合分布式有效载荷,克服单卫星平台的资源限制和技术瓶颈,实现空间大容量高速组网和信息传输与交换,为上述需求提供了有效的解决方案。

同一轨道上多卫星相对位置的高速变化以及星载光学相控阵天线的可见状态约束,导致DSC的拓扑结构呈现动态时变和间歇性链路中断。需要解决这两种情况下的快速拓扑重构和动态连续组网问题。

近日,中山大学系统科学与工程学院和AMS系统工程研究所的学者在《Space:Science&Technology》发表的一篇研究论文中,共同开发了DSC激光组网的多目标优化模型,并提出了一种基于双层马尔可夫DRL架构的DSC激光组网算法。

该算法实现了DSC动态时变拓扑和间歇性链路中断条件下的快速拓扑重建和动态连续组网,最大化网络连通性和网络持续时间,最小化网络连接矩阵扰动。

首先,作者给出了系统模型和问题描述。假设DSC由N个GEO卫星节点组成。DSC中的每颗卫星都装载有两对光学多波束天线,分别位于卫星的北侧和南侧。当卫星i的天线k和卫星j的天线l都相互可见并且满足误码率约束时,认为它们之间存在可用链路。

通过分析所有卫星节点,可以获得整个DSC的可用链路,将其表示为元素为0或1的矩阵Link。根据矩阵Link,可以得到每个卫星所携带的天线的连接矩阵Ant可以得到,进而可以得到整个DSC的连接矩阵Tp。

在DSC组网过程中,以网络连通性、网络持续时间和网络连接矩阵扰动为目标,构建了网络拓扑重构和连续组网的多目标优化模型。该多目标优化问题的计算复杂度为O(2NsatNant)。这是一个混合整数规划问题,是典型的NP难问题。

然后,作者提出了一种基于双层马尔可夫决策模型的深度强化学习算法DLM-DRL来解决该问题。

优化过程不断跟踪DSC的运行状态,以获得每颗卫星的位置和激光链路的状态;计算整个DSC的可用链路;检查DSC网络是否连接;如果是,则系统继续跟踪DSC的运行状态;否则,将调用DLM-DRL算法重建卫星之间的激光链路,并根据算法结果重建DSC网络。

DLM-DRL算法中,将DSC网络的拓扑变化事件建模为决策节点,将多个拓扑变化事件的综合拓扑优化过程建模为马尔可夫决策过程;每个拓扑变化事件的优化决策都是由一系列激光链路选择动作组成,也可以用马尔可夫决策过程来描述。

因此,针对DSC的拓扑优化过程,建立了具有内马尔可夫决策过程和外马尔可夫决策过程的双层马尔可夫决策模型。

内层是DSC中可用激光链路的选择过程,其中每个状态代表是否连接激光链路;外层是DSC中不同的网络拓扑变化事件,每个事件都以内层马尔可夫决策过程的结果作为其动作并进行优化。基于这种双层马尔可夫过程模型,提出了分层深度强化学习架构。

最后,作者在典型的DSC应用场景中对DLM-DRL进行了仿真,并对仿真结果进行了总结。仿真主要分为两部分:一是搭建空间环境,利用STK11.2软件模拟DSC的运行过程,二是在环境中训练和验证DLM-DRL算法。

结果表明,在算法收敛方面,所提出的DLM-DRL算法能够在较短的时间内完成收敛,且收敛速度较快。从优化结果来看,该算法能够快速高效地完成网络拓扑重构,充分保证动态时变拓扑和整个仿真周期间歇性链路中断的DSC网络的连通性。

同时,通过设置不同的优化任务目标,DLM-DRL算法可以提供不同目标的优化结果,例如更高的连通性、更少的拓扑变化或者更长的拓扑维护时间,以满足不同的分布式星座组网需求。

另外,DLM-DRL算法与NSGA-II和PSO算法的对比表明,在保持与NSGA-II和PSO算法相同的优化结果的同时,DLM-DRL算法可以显着缩短网络拓扑优化时间,适应需求。DSC的快速拓扑重构和动态连续组网。