摘要
电力系统中的无线传感器网络(WSN)可以对工作中设备的状态和环境数据进行实时感知采集,是一种推动智能电网发展的重要技术。针对变电站场景中WSN的网络存活时间、传输时延、传输丢包率上的特殊要求,提出了一种基于强化学习的WSN路由方案。将数据包在WSN的发送过程抽象为一个马尔科夫决策过程(MDP),根据优化目标合理设置奖励,并给出了基于Q-learning的最优路由求解方法。仿真结果与数值分析表明,所提方案在网络存活时间、传输时延、丢包率等方面的性能均优于基准方案。
现如今,电网的快速发展和变电设施数量及规模的不断扩大,对大量设备的状态感知、监测以及控制具有重大挑战。WSN因其成本低廉、实时感知、数据安全性高的特点,具有广阔的应用前景,被广泛应用于变电站的设备状态感知及数据传输中,做到了无人值守,实时监控。变电站的场景一般是块状区域,近似方形或者圆形,覆盖范围是100~500 m左右,各类传感器,如温湿度传感器、水位传感器等,往往被部署于变电设备
许多学者在这一方面做了大量的研究,层次路由是一种良好的解决方案,该类方案大多基于分簇的思想,经典的分簇算法有低功耗自适应分簇路由算法(Low Energy Adaptive Clustering Hierarchy,LEACH)、传感器信息系统能量高效聚集协议(Power-Efficient Gathering in Sensor Information Systems,PEGASIS)等,现有的许多方案也是基于这些算法进行了改进。Harun等将传统的遗传算法与LEACH算法结
在平面路由中,网络中的节点往往具有相同的地位,传感器节点在感知状态的同时,也需要协同构成网络,
将某一时刻某一节点感知到的关键数据按照一定的路由规则上传到汇聚节点。在中小规模的网络中,平面路由成本更低,相对层次路由更有优势。然而以泛洪路由为代表的路由策略虽然具有维护开销小的优点,但是存在显著的资源浪费问题。为了对平面路由的性能进行优化,文献[
近年来,人工智能领域的发展为优化问题提供了新的解决思路,强化学习作为人工智能的重要分支,已经越来越多被用于工业优化领域的研究中。已经有部分学者将强化学习Q-learning运用于WSN的优化研究,PK Donta等在文献[
尽管众多优秀学者在WSN的路由研究中已经完成了一些工作,但是并没有考虑到变电站WSN场景下的实际需求和特性,部分研究中采用的中心化Q-learning路由算法,并不适用于变电站场景中配置有大量独立转发接收数据节点的WSN。本文将变电站中的WSN路由发送过程抽象为一个MDP,并提出一种去中心化的Q-learning方案,即每个节点能够根据环境的状态自己更新Q表。基于变电站无线传感器网络中的实际需求定义了一种结合能耗、时延,网络丢包率的优化目标,并根据优化目标合理设置奖励,基于贪婪原则增大对动作的搜索,对优化问题进行求解。仿真结果与数值分析表明,该算法与基准算法相比,在网络存活时间、网络时延、网络丢包率方面的性能均有所提高。
在WSN的研究中,WSN可以抽象为图的形式,表示为图。假设整个网络中一共分布N个传感器节点,每个节点具有感知收集数据、转发数据的功能,表示所有传感器节点。表示任意2个在通信距离内的传感器节点间的边的集合。其中是节点的位置向量,是节点的通信半径,节点在被部署至网络后具有固定位置向量,且每个节点被分配唯一的标识编号,分别为1到N,WSN中有一个汇聚节点,编号为N+1,传感器采集数据后,通过自组网将数据发送给汇聚节点。变电站WSN结构如

图1 变电站WSN结构
Fig.1 WSN structure of substation
采用WSN中的一种被广泛使用的网络传输能量消耗模型,在一次数据传输中,从节点向节点发送长度为的数据需要的能量可以表示
(1) |
式中:为功耗系数,表示发送或接收1 bit需要消耗的能量;、为与传输设备有关的能耗系数;节点和之间的传输距离;传输距离阈值。节点接收长度为的数据需要的能量可以表示为:
(2) |
假设每个节点的初始能量为,第个节点的当前剩余能量为,则使用已消耗能量的比例来表示节点的剩余能量为:
(3) |
在传输的过程中,节点应当选择已消耗能量较少的节点发送,避免网络过早死亡,
在某一条传输路径中,将数据包从任意一节点发送到汇聚节点的总时延可以表示
(4) |
式中:为该路径传输过程中数据的转发次数;和分别为传输的时延、计算排队等其他因素消耗的时间,两者之和取定值10 ms,因此,路径的传输时延与路径上的节点个数成正比。
采用如下的路径丢包率计算模型:假设从源节点到汇聚节点构成的传输路径的所有边构成的集合为,若该路径中任一条边的丢包率为,则这条路径上的丢包率可以表示
(5) |
即,只要一条路径上任何一条边发生了丢包,该路径就发生了丢包,路径的丢包率可以由确定概率1减去每条边都没有丢包的概率。在无外界干扰的条件下,每一条边上的初始丢包率相同,故该丢包率取决于传输路径上的节点个数。
优化目标使得网络的传输代价最小,从源节点到汇聚节点构成一条路径,在这条路径中,任意节点将数据发往的一跳构成一条边,定义该跳的能量代价函数为:
(6) |
是由
优化目标是让一条路径的总代价最小,优化目标可以表示为:
(7) |
(8) |
(9) |
式中:表示传输路径上所有节点传输的代价和;、分别为传输时延,丢包率对应的权重系数。限制条件表明所有传输节点和接收节点的能量都必须大于零,其中表示节点已消耗的能量,表示节点已消耗的能量;限制条件表明路径中两两传输的节点必须在传感器通信半径内。
为了求解上述优化问题,将数据包转发的过程抽象为一个MDP,并使用强化学习中的Q-learning算法求解。将一次发送过程中的数据包看作智能体,将一次数据包的转发看作是智能体执行动作转向的下一节点,依据转发过程的代价设置奖励。整个MDP的过程可以表示为,其中各个符号表示的含义如下:
1) 状态空间=,表示数据包当前到达的节点编号;
2) 动作空间=,表示数据包发送的下一个节点编号;
3) 概率空间表示状态之间的转移概率,在大部分问题中,该空间难以直接预测,所以往往采取智能体与环境直接交互来代替概率空间的估算。
4) 奖励空间=,数据包从节点到达节点的奖励可以设置为:
(10) |
该奖励是3个部分的权重之和,由于传输能量仅与距离有关,故
强化学习Q-learning通过计算Q表估算Q函数,可以用表示,它表示在状态执行动作可以产生的价值。Q表的更新过程可以描述为:智能体在状态执行了动作,获得了奖励并转移到了下一个状态。基于该过程,智能体由
(11) |
在当前状态下的动作的选择中,智能体会基于Q表,大概率选择使得Q值最大的动作来执行。本文采用的Q-learning算法的更新过程可以由

图2 Q-learning routing
Fig.2 Q-learning路由
algorithm: Q-learning based routing in WSN |
---|
1) the source node generates data with a length of ; |
2) state; |
3) while ; |
4) if the neighboring nodes of the current node include the sink node, send the data to the sink node and turn to step 9); |
5) send learning packets of length to each neighboring node, after receiving the data returned by neighboring node , calculate reward according to (10), obtain by current Q-table, update the Q-table of node according to |
6) select action based on the principle in |
7) update state , calculate according to |
8) end while; 9) end |
在转发的过程中,动作选取依据贪婪原则,在每次智能体选取动作时,通常会选取Q表中使得动作价值最大的动作,但有的概率采取随机动作,即随机选择下一跳节点,这样做的目的是增大搜索范围,防止算法陷入局部最优解,基于该思想的动作选取可以表示为:
(12) |
为了验证本文提出的Q-learning算法路由的有效性,使用Matlab构建仿真环境并进行仿真,与基准算法进行性能对比。
仿真的环境可以描述为,在100 m×100 m的环境中,随机分布N个无线传感器节点,每个节点位置固定,拥有唯一的标识号,汇聚节点位于区域的中心,在每一次的数据感知采集中,某传感器采集了设备的状态数据,并通过某一路由路径发送至汇聚节点,当网络死亡时,仿真结束,本文将第一个节点死亡作为整个网络死亡的标志,仿真所使用的参数见
symbol | value | meaning |
---|---|---|
/bit | 4 000 | packet size |
/bit | 100 | learning packet size |
/(J·bi | power consumption coefficient | |
/(J·bi | amplifier coefficient | |
/m | 30 | communication radius |
0.8 | learning rate | |
0.9 | discounted factor | |
0.1 | random action probability | |
0.5 | weight1 | |
0.5 | weight2 | |
0.9 | weight3 |
为了验证本文算法的有效性,在本文构建的仿真环境中,同时使用本文构建的Q-learning路由与基准路由协议通过协商传输信息的传感器协议(Sensor Protocols for Information via Negotiation,SPIN)和最短路径路由(Shortest Path Routing,SPR)作对比。在SPIN路由协议中,发送数据的源节点首先向邻居节点发送广播数据包,广播数据包大小远小于传输数据大小,若邻居节点不是汇聚节点,则继续向邻居节点转发广播数据包,当汇聚节点接收到广播数据包时,会发送请求数据包给源节点,源节点再将数据发送给汇聚节点。在SPR路由协议中,传感器依据自身的位置信息,以Dijkstra算法为基础建立自己到汇聚节点的最短路径,依据此路径发送数据。
如

图3 网络存活时间
Fig.3 Network survival time

图4 平均时延
Fig.4 Average latency
由

图5 网络存活时间随节点数量变化
Fig.5 Network survival time with number of nodes
5 000次数据传输中,随节点数量变化下几种方法的平均处理时间如

图6 时延随节点数量变化
Fig.6 Latency varying with the number of nodes
同样地,如

图7 丢包率随节点数量变化
Fig.7 Variation of packet loss rate with number of nodes
本文针对变电站中无线传感网络的路由问题,结合变电站场景下无线传感网络的实际需求,提出了一种基于Q-learning的路由算法,以最小化网络的传输代价函数为目标,该算法能够很好地均衡网络中的能耗,减少传输时的路由跳数和传输距离,减少网络的传输时间。仿真结果表明,所提出的路由算法在网络存活时间、传输时延、丢包率方面均优于基准算法。
参考文献
路永玲,王真,薛海,等. 面向输变电场景的无线传感网体系架构设计[J]. 信息技术与标准化, 2023(5):59-66. [百度学术]
LU Yongling,WANG Zhen,XUE Hai,et al. Architecture design of wireless sensor network for power transmission scenarios[J]. Information Technology and Standardization, 2023(5):59-66. [百度学术]
HARUN H B,ISLAM M S,HANIF M. Genetic algorithm for efficient cluster head selection in LEACH protocol of Wireless Sensor Network[C]// 2022 International Conference on Advancement in Electrical and Electronic Engineering(ICAEEE). Gazipur,Bangladesh:IEEE, 2022:1-6. doi:10.1109/ICAEEE54957.2022.9836352. [百度学术]
李虹飞,申玉霞. 无线传感网络中一种能耗均衡的分簇路由算法[J]. 火力与指挥控制, 2022,47(10):159-165. [百度学术]
LI Hongfei,SHEN Yuxia. An energy-equalizing cluster routing algorithm in wireless sensor networks[J]. Fire and Command and Control, 2022,47(10):159-165. [百度学术]
XU Jian. A modified AODV routing protocol using in WSN based on ant colony algorithm[C]// 2021 2nd International Conference on Electronics, Communications and Information Technology(CECIT). Sanya,China:IEEE, 2021:87-90. doi:10.1109/CECIT53797.2021.00023. [百度学术]
SHARMA D,KULKARNI S. Network lifetime enhancement using improved honey bee optimization based routing protocol for WSN[C]// 2018 Second International Conference on Inventive Communication and Computational Technologies(ICICCT). Coimbatore,India:IEEE, 2018:913-918. doi:10.1109/ICICCT.2018.8473267. [百度学术]
DONTA P K,AMGOTH T,ANNAVARAPU C S R. Congestion-aware data acquisition with Q-learning for wireless sensor networks[C]// 2020 IEEE International IOT,Electronics and Mechatronics Conference(IEMTRONICS). Vancouver,BC,Canada:IEEE, 2020:1-6. doi:10.1109/IEMTRONICS51293.2020.9216379. [百度学术]
SU Xing,REN Yiting,CAI Zhi,et al. A Q-learning based routing approach for energy efficient information transmission in wireless sensor network[J]. IEEE Transactions on Network and Service Management, 2022,20(2):1949-1961. doi:10.1109/TNSM.2022.3218017. [百度学术]
刘洋,王军,吴云鹏. 改进Q-Learning的WRSN充电路径规划算法[J].太赫兹科学与电子信息学报, 2022,20(4):393-401. [百度学术]
LIU Yang,WANG Jun,WU Yunpeng. Improved Q-Learning WRSN charging path planning algorithm[J]. Journal of Terahertz Science and Electronic Information Technology, 2022,20(4):393-401. doi:10.11805/TKYDA2020729. [百度学术]
ZHANG Degan,LI Guang,ZHENG Ke,et al. An energy-balanced routing method based on forward-aware factor for wireless sensor networks[J]. IEEE Transactions on Industrial Informatics, 2013,10(1):766-773. [百度学术]
孙毅,刘浩程,曾璐琨,等. 面向配电通信网的WMSNs多路径QoS路由算法[J]. 计算机应用研究, 2016,33(11):3387-3390. [百度学术]
SUN Yi,LIU Haocheng,ZENG Lukun,et al. A multipath QoS routing algorithm for WMSNs for distribution communication networks[J]. Computer Application Research, 2016,33(11):3387-3390. [百度学术]
杨佳,段琪玥,许强,等. 一种面向配电通信网WSN分簇路由优化算法[J]. 重庆理工大学学报(自然科学), 2022,36(9):187-194. [百度学术]
YANG Jia,DUAN Qiyue,XU Qiang,et al. A cluster routing optimization algorithm for WSN in power distribution communication network[J]. Journal of Chongqing University of Technology(Natural Science), 2022,36(9):187-194. [百度学术]
YUN W K,YOO S J. Q-learning-based data-aggregation-aware energy-efficient routing protocol for Wireless Sensor Networks[J]. IEEE Access, 2021(9):10737-10750. doi:10.1109/ACCESS.2021.3051360. [百度学术]