使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

基于MES频谱数据异常贡献度估计与后验分析  PDF

  • 张继丹 1
  • 肖东 2
  • 侯燕曦 1
1. 复旦大学 大数据学院,上海 200433; 2. 哈尔滨工程大学 信息与通信工程学院,黑龙江 哈尔滨 150001

中图分类号: TN914.42

最近更新:2023-01-11

DOI:10.11805/TKYDA2021178

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

近些年,基于大数据分析模型的风险度量和控制方法研究变得越来越重要,而风险度量模型的后验分析研究能够保障和检验所用分析技术在实际数据分析中的有效性。边际期望损失(MES)作为度量个体对系统性风险的边际贡献的重要工具,其后验分析也是一个值得关注的问题。本文将C. Acerbi等提出的关于ES的后验分析方法进行二维变量下的延伸,提出2个新的对于MES的统计量。模拟实验的结果表明,在原假设分布和备择假设分布相差相对较小的情况下,2个统计量的统计功效均大于D. Banulescu等采用的统计量。实证分析的结果也表明,对于同样的预测结果,文中新提出的统计量在原假设的接受程度上相对更为谨慎。该方法对于大数据模型算法的后验分析具有一定的理论借鉴意义。

近年来,随着数据量的急剧暴增以及计算性能的提高,基于大数据的风险度量和分析模型开始盛行并推广应用于各行各业。系统性风险的概念最早起源于金融领域,因为其极强的破坏性,不少学者提出各种系统风险度量工具。边际期望损失(MES)则是其中的度量工具之一,指的是在市场遭受比较极端损失情况下金融机构个体的期望损失,衡量的是在危机发生时金融机构个体对整个系统风险的边际贡[

1]

一般通信系统中传输的信号都具有一定的不确定性,因此都属于随机信号(Random Signal),它的幅度未可预知,任何一次观测只代表其在变动范围中可能产生的结果之一,但又服从一定的统计特性,又称不确定信号。

从信息论的观点,对接受者而言只有信号表现出某种不确定性才蕴含信息,关于更多随机信号的建模和预测详见赵淑清[

2]、王永[3]等文献。而对随机信号的建模也有学者陆续提出各种方法,2001年,张海[4]对局域波法进行深入研究,研究了影响局域波法性能的一些因素,并提出改善该分析方法效能的具体指标及措施;2003年,张海[5]分别从自适应自回归模型谱分析法等几个方面综述了非平稳随机信号参数模型分析方法的发展现状,杨[6]建立了一种能够描述随机信号结构基本特征的双参数脉冲信号统计模型。

环境信号的异常是频谱感知中通常会关注的问题。随着无线电技术的迅猛发展,越来越多的通信设备利用电磁波传播信息,电磁空间环境日益复杂,对于电磁空间环境异常信号的检测也受到了越来越多的关注。近年来,频谱异常检测问题已得到了广泛研究,并取得了一定的成果。根据频谱异常检测所采用的方法,现有的研究可分为两类:第一类是利用信号传输时的各个特征进行频谱异常检测,包括接收信号强度空间分布、接收信号强度变化、物理信道属性、直接路径的幅度差、受扰路径的幅度差以及通话时间利用率等,相关成果见文献[

7-10]。第二类方法是采用机器学习的方法进行频谱异常检测,夏伟[11]提出了一种基于单类支持向量机(v-OCSVM)模型的频谱异常检测方法,通过实验检测和ROC曲线分析,表明v-OCSVM模型用于频谱异常检测是可行的。闫[12]提出了一种基于最小二乘法的动态逻辑回归学习模型,并设计了基于朴素贝叶斯分类算法的频谱异常检测和异常预测的实现方案;Li[13]提出了一种新的基于长短期记忆(Long Short-Term Memory,LSTM)的数据驱动频谱异常检测模型,通过学习频谱数据的时间相关性来预测下一时刻的幅度值,根据预测值与测量值之间的误差来发现异常频谱。通常,当某个信号的能量偏离正常值较远时,会认为它有异常的可能,当偏离了正常值较远并持续了给定的一段时间时,则会认为该信号异常。李忠[14]采用滑动均值±2倍均方差作为阈值提取异常,并阐明其合理性,表明其能够快速地定量提取前兆数据异常信号。张小飞[15]设计了一种基于能量上下界的缓存告警检测算法,对原有相关算法进行改进,解除了对固定阈值的依赖。由信号的傅里叶变化可知,信号由多个频率的正弦波叠加而成,不同频率分量出现异常都会反映在信号上。频谱上不同频点的电磁信号的能量波动对于电磁空间环境异常信号的影响是不同的,正如MES起初的含义是用来衡量个体风险对整体风险的边际贡献,本文中将其用于衡量每个分信号的异常波动对叠加后信号的异常程度的贡献。

后验分析,也即检验真实值是否与估计值一致,是为了确保一个估计方法在实际数据分析中的有效性。对于比较主流、提出时间比较早的风险度量,譬如在险价值(Value at Risk,VaR),其后验分析方法相对来说比较多,相关理论发展得也比较完善。但是关于MES的后验分析方法目前文献中涉及得还不是太多。从其定义可以看到,MES可看成是ES(Expected Shortfall)(也叫期望损失,代表了一个随机变量在大于自身较高分位数下的条件期望,可表示为E(X)=E(X|X≥VaR(X))在二维变量下的延伸。由于ES不是可诱发的,因此曾经在很长一段时间内被认为是无法进行后验分析的。出于ES在实际应用的需要,许多学者也相继对其后验分析方法进行探究,这些研究成果既促进了ES在实际中的使用,也为对其他风险度量工具进行后验分析提供了思路和借鉴。其中,Acerbi[

16]较为详细地讨论了对ES做后验分析的可能性,并提出了3个不依赖于分布的、非参的ES后验分析方法;Escanciano and Du[17]借鉴了VaR的后验分析中通过碰撞序列进行假设检验分析的方式,基于累计碰撞序列对ES进行后验分析;此外,和系统风险度量相关的后验分析方法也相继有提出,但相对来说还是比较稀少。其中,Banulescu[18]巧妙地借鉴了Escanciano and Du基于累积碰撞序列来对ES进行后验分析的方法,构造了一套关于MES及其相关系统性风险度量的检验方法。

后验分析相当于一个统计上的假设检验,对于一个假设检验,其统计功效是值得关注的问题。针对VaR的后验分析问题,Dumitrescu[

19]提到,后验分析的功效,尤其是在小样本下,对于评估检验结果起着非常关键的作用。而一般的检验通常有较低的功效,也即一般不会拒绝原假设的成立。Hurlin和Tokpavi[20]也阐述了相似的观点,该文中展示了大部分的后验分析都不会拒绝原假设,意味着VaR预测结果通常都被认为是有效的。Acerbi等在提出了3个新的ES后验分析方法的同时,也将其统计功效与VaR进行对比,并表明该方法相比于VaR的后验分析有更大的功效。而据了解,对于系统性风险度量的后验分析的功效问题暂时还没有相关文献涉及。

本文对Acerbi等提出的ES进行后验分析的方法进行维度上的延伸,从而提出2个新的关于MES后验分析的统计量。设计模拟实验来检验其统计功效,并将其与Banulescu等提出的用于检验MES的方法的统计功效进行对比。最后将这2个方法应用于电磁频谱数据的实证分析。

1 后验分析方法介绍

首先给出本文中MES的定义:令Xt,Yt分别代表个体和整个系统在t时刻的取值,其中t=1,2,,T。在(Xt,Yt)有连续分布函数Ft的条件下,给定置信水平为1-α,则个体在t时刻的边际期望损失可表示为:

MESα(Xt)=E(Xt|YtVaRα(Yt)) (1)

式中:VaRα(Yt)=inf{yα:1-αFYt(yα)},相当于Yt1-α分位数。如果真实的分布Ft是已知的,则可以根据定义来计算出其对应的MES度量值。但在实际中,Ft其实是未知的,往往需要通过一个预测的分布,暂且记作Pt,来计算个体在t时刻的边际期望损失。这样一来自然就需要考虑一个问题:能否接受在Pt下计算得到的MES就是真实的MES这个假设,这正是后验分析需要解决的问题。这一节将介绍2个MES的后验分析方法。

1.1 方法一

该方法是Acerbi等关于ES的后验分析方法在二维变量下的延伸。本文同样采用一般的假设检验框架来进行MES的无条件后验分析。

1.1.1 提出假设与构造统计量

取原假设和备择假设分别为H0:MESαPtXt=MESαXt,tT, H1: MESαPtXtMESαXt,tT, 存在tT,使MESαPtXt<MESαXt。其中,MESαPt表示在Pt下计算得到的MES。本文进行的其实是单边的假设检验,也即检验的是在Pt下计算得到的MES是否低估其真实值。由式(1)可以定义如下的统计量:

Z1X=t=1TXtIYtVaRαPtYtMESαPtXtt=1TIYtVaRαPtYt-1 (2)
Z2X=t=1TXtI{YtVaRαPt(Yt)}αMESαPtXtT-1 (3)

不难猜想,在MESαPtXt与真实的MES非常接近的情况下,统计量Z1XZ2X应该会非常接近零。如果MESαPtXt低估了真实的MES,则统计量的值会显著大于零;如果MESαPtXt高估了真实的MES,则统计量的值自然小于零。此外也可以看到,统计量Z1Z2不同的地方在于分母,这体现了两者在出发点上略微的差异。Z1在处理实际损失时是先对所有Y超过阈值的X求和,然后除以实际个数,相当于是对这部分的X取平均;Z2对所有Y超过阈值的X求和后除以的则是期望的个数,也即αT。同时注意到有Et=1TIYtVaRαPtYt=αT成立,也即如果

YtVaRαPt的估计是准确的,Y超过阈值的实际个数应该会很接近于期望的个数。这个微小的区别使得这2个统计量之间也有所不同,其功效在下一节的模拟实验中进行展示。

1.1.2 显著性水平

在通过某种方式计算得到了Pt后,将需要预测的样本数据代入式(2)式(3)中,得到了统计量的值,也即Z1Z2的一个实现,暂且记为Z1(x)Z2(x)。为了进行后验分析,需要进一步获得Z1(x)Z2(x)各自所对应的p值,而如上定义的H0并不足以获取p值,为此定义一个更强的原假设:H0':P¯X,  tα=F¯X,  tα, tT。其中,P¯X,  tα= P¯X,tx|YtVaRαYt=1-PXtx|YtVaRαYt,表示预测得到的在YtVaRαYtX的条件分布。在H0'成立的条件下,有EH0'Z(X)=0以及EH1Z(X)>0式(2)式(3)中定义的统计量都是没有分布假定的,因此通过多次的模拟的方式获取Z1(x)Z2(x)p值。

具体来说,采取如下3步:a) 生成数据:Xti~ PX,t  tT,i=1,2,,M;b) 计算统计量的值:Zji=ZjXi,j=1,2;c) 根据式p=i=1MZji>Zjx/M来获取 p 值。其中M是一个充分大的数,从而使得Z的经验分布非常接近真实分布。也即通过蒙特卡洛模拟的方式获得Z的近似分布,从而计算Z1(x)Z2(x)p值。

1.2 方法二

方法二是Banulescu等用来进行MES后验分析的方法,该方法通过巧妙地利用CoVaR和MES的关系,从而创造了一套关于MES的检验方法。

首先给出本文中CoVaR的定义,注意到Xt,Yt均代表的是损失,本文将某个个体在t时刻的CoVaR表示为:

PXtCoVaRα,β(Xt)|YtVaRαYt=β (4)

式中β[0,1],可看成是另一个置信水平。因此,MES和CoVaR的关系为:

MESαXt=01CoVaRα,β(Xt)dβ (5)

与VaR的后验分析类似,可以通过一个碰撞序列对CoVaR进行后验分析。具体来说,定义ht(α,β)=I{XtCoVaRα,βPt(Xt)YtVaRαPt(Yt)},通过检验ht(α,β)是否是一个期望为αβ的伯努利变量,或者等价地,通过检验{ht(α,β)-αβ}是否为鞅差序列来说明对CoVaR的估计是否准确。基于式(5)可得

Htα= 01ht(α, β)dβ=ut|yI{vtα} (6)

式中:vt=Pt,2(Yt)ut|y= Pt,1|YtVaRαPtYt(Xt)Pt,1Pt,2分别是在预测分布PtXtYt的边际分布。并且由于ut|yvt相互独立,故E(Ht(α))=α/2,从而检验MES估计是否准确就转化成了检验Ht(α)的期望是否为α/2,也即可定义原假设为H0: E(Ht(α))=α/2, tT

进一步计算可得到Ht(α)方差为α(1/3-α/4),因此可构造t统计量:

Zt =T(H¯α-α/2)α(1/3-α/4) (7)

式中H¯α=1Tt=1THt(α)。换言之,如果在Pt下计算得到的MES是准确的,则由式(7)定义的统计量应该服从自由度为T-1t分布,与方法一相统一。本文备择假设同样选取MES被低估的情况,因为MES可看成是由CoVaR积分得到,当CoVaR被低估时,超过阈值的样本点会比预期多,也即E(ht(α,β))>αβ。对应地,当MES被低估时,会有E(Ht(α))>α/2,即备择假设为H1:E(Ht(α))α/2,tT,并且存在某个tT,使不等号严格成立。

在实际操作中,通过比较Zt(x)t(T-1)分布右侧的临界值,就可对MES估计(预测)的准确性进行判断。

2 功效比较

由于样本的随机性,当应用某个检验结果来做判断时,有可能会犯弃真和取伪两类错误(α错误和β错误,或者也叫第一类错误和第二类错误),并且在样本量一定的条件下这两类错误不可能同时减小,故通常会采取折中的方案,即控制犯第一类错误的概率不大于某个给定的值。在统计学的假设检验中,统计功效(Statistical Power)指的是由样本计算得到的统计量落入拒绝域的概率。当原假设不为真时,这个概率越大,意味着犯取伪错误的概率越小。这一节将通过模拟数据实验来对上述2种方法的统计量的功效进行比较。

采用二元的t分布生成模拟实验数据。首先给定3个原假设的分布,每个原假设下分别设置2个备择假设,第1个备择假设的自由度v与原假设保持一致,ρ比原假设大;第2个备择假设在第一个备择假设的基础上减小了自由度v,而ρ不变。不难看出,第2个备择假设的分布与原假设分布的差别要比第1个备择假设与原假设的差别更大。此外,t分布中越小的自由度意味着越大的方差,同时,ρ越大意味着变量间的相关关系越强,而在这里每个原假设下的2个备择假设的ρ都大于原假设,并且(或者)v要小于原假设,这意味着每个备择假设的MES会高于原假设下的MES。故该模拟实验探究的是当H0不为真,也即H0下的MES确实低估了真实值时,统计量取伪的概率大小。对每个备择假设,都设置了10%和5%两个显著性水平,每个模拟实验取样本量大小为250和500两种情况,MES的置信水平分别取90%、95%和97.5%三个值。

表1汇总了当H0不为真时,方法一中的两个统计量在不同原假设和备择假设下的功效。从中可以看到一个有趣的结果:对于每个H0,第一个H1下的Z1统计量的功效要优于Z2,第二个H1下的情况则相反,Z2统计量的功效要优于Z1。这说明当备择假设的分布与原假设的分布的差别相对较小时,统计量Z1的表现效果更好;而当备择假设的分布与原假设的分布的差别相对较大时,统计量Z2的表现更佳。此外还注意到,统计量Z1Z2的功效均随MES置信水平的增大而减小,这很有可能是因为这2个统计量在计算过程中需要对所有Y超过阈值的X进行某种程度的平均,随着置信水平的增大,Y超过阈值所对应的X的个数也会减少,取平均之后的可靠性也会降低,从而影响最终统计量的效果。

表1  方法一统计量的功效
Table1  Statistical power of method one
power/%
T=250 T=500
H0 H1 significance level/% MES90% MES95% MES97.5% MES90% MES95% MES97.5%
ρ v ρ v Z1 Z2 Z1 Z2 Z1 Z2 Z1 Z2 Z1 Z2 Z1 Z2
0.4 6 0.6 6 10 58.3 47.8 44.1 36.8 31.2 27.7 83.2 70.7 67.8 53.7 50.0 39.7
5 41.3 34.1 27.7 24.6 17.2 18.0 70.6 56.1 51.0 39.3 32.9 26.8
0.6 3 10 80.3 86.9 68.8 85.9 53.7 83.8 95.1 97.6 88.7 96.9 76.3 96.0
5 71.4 80.0 55.6 79.0 38.7 77.2 91.5 95.8 81.4 94.9 64.7 93.3
0.4 30 0.6 30 10 71.8 56.3 58.2 42.8 42.8 32.5 92.3 75.6 81.8 58.1 64.3 42.3
5 56.9 41.2 39.8 30.5 26.8 21.0 83.7 63.6 68.0 44.9 47.1 30.4
0.6 10 10 80.0 76.0 68.0 71.1 52.1 65.4 95.4 92.0 88.8 87.9 75.2 83.4
5 68.2 63.9 51.7 58.8 34.9 53.4 90.1 86.3 79.0 80.8 60.9 74.7
0.2 6 0.4 6 10 57.7 54.0 44.1 41.1 32.2 31.7 79.2 75.0 63.9 58.6 47.4 43.9
5 41.9 39.5 29.4 27.7 17.8 20.7 66.4 61.3 47.9 44.3 33.1 28.5
0.4 3 10 71.3 79.8 59.6 77.2 46.4 74.9 88.2 93.6 78.7 91.2 65.4 89.0
5 60.4 72.7 48.0 69.6 32.2 67.2 82.0 90.2 69.0 87.5 53.8 84.5

表2中可以看到,整体而言,Zt的功效要低于方法一的统计量。具体来说,对于每个H0,在第一个H1下,Zt的功效要明显低于Z1,整体低于Z2;在第二个H1下,Zt的功效整体来看要低于Z2。说明当备择假设的分布与原假设的分布的差别相对来说比较小时,统计量Zt的表现远比不上Z1Z2;当备择假设的分布与原假设的分布的差别相对来说比较大时,统计量Zt的表现整体要劣于Z2

表2  方法二统计量的功效
Table2  Statistical power of method two
power/%
H0 H1 significance level/% T=250 T=500
ρ v ρ v MES90% MES95% MES97.5% MES90% MES95% MES97.5%
0.4 6 0.6 6 10 34.6 27.6 23.6 48.0 38.5 30.6
5 23.5 19.6 15.5 36.1 27.3 21.4
0.6 3 10 77.6 83.2 84.6 94.2 96.4 96.7
5 68.3 75.0 77.5 90.1 93.7 94.3
0.4 30 0.6 30 10 39.0 32.6 27.5 52.1 41.6 33.8
5 27.3 23.1 19.2 39.4 30.9 24.2
0.6 10 10 57.5 59.0 58.6 78.1 78.1 77.1
5 45.6 47.3 47.9 68.4 69.1 68.0
0.2 6 0.4 6 10 31.6 27.1 22.4 45.3 36.1 29.8
5 22.0 18.4 15.2 33.3 25.5 19.9
0.4 3 10 73.7 79.1 81.4 91.2 94.5 95.4
5 63.2 70.7 73.6 85.5 91.4 92.2

Zt在某些方面也有着略微的优势。可以注意到的一点是,随着置信水平的增加,在第2个H1下,Zt的表现略优于Z1Z2。将MES置信水平为97.5%下每个原假设对应的第2个备择假设的数据取出来,共12组对比数据,其中有8组数据Zt的功效值是大于Z1Z2,说明在较高的置信水平并且备择假设的分布与原假设的分布相差较大的情况下(虽然实际中可能性较少),统计量Zt的表现稍佳。可以猜想,在更高的置信水平下以及同样是备择假设的分布与原假设的分布相差较大的情况下,Zt的表现有可能会相对更优。并且还可以注意到,与Z1Z2不同,Zt的功效并不一定随着MES置信水平的增大而减小。而且,由于在原假设下Zt的分布是已知的,故统计量的p值可直接获得,而不需要像Z1Z2一样需要通过大量的模拟计算。

总的来说,在原假设分布和备择假设分布相差相对较小时,统计量Z1的统计功效最大,表现最好,其次是Z2,而Zt的统计功效最低,效果最差;在原假设分布和备择假设分布相差相对较大时,整体看来,统计量Z2的表现最好,对于置信水平较高的MES,Zt的统计功效相对稍大些。但这种情况在实际中发生的概率相对比较小,因为估计的分布一般不会和真实的分布相差特别远。因此可以认为在实际中,统计量Z1的结果可能相对会更可靠。

3 实证分析

3.1 数据描述

通过实际的数据分析来验证前文中后验分析方法的功效。其中的数据来自一个公开的射频频谱数据集,由伊利诺伊理工学院联合图尔库大学和弗吉尼亚理工大学共同收集,以用于对射频环境的时空变化进行建模,从而实现对频谱利用率更精确的估计,提高频谱利用率。观测点有3个在美国,2个在芬兰,采集的时间区间是2015年到2018年间每年的1月20日至1月27日连续8天时间,采集的频率范围为30~6 000 Hz,分为30~130 Hz、130~800 Hz、650~1 200 Hz、1 200~3 000 Hz和3 000~6 000 Hz五个频段。本小节从其中650~1 200 Hz的频段中随机选取20个频点,暂且将每个频点对应的电磁信号表示为X1,X2,…,X20,同时假定在同一个时间点有一个信号是由这20个频点的电磁信号叠加得到,暂且记为Y。本文选取了其在2015年1月22日这一天,在经度为22.27,纬度为66.44处的数据,由于数据在采集过程中是每隔3 s左右记录1次,因此在这24 h内每个频率共有28 272个采集样本。取训练和测试的样本数据比例大致为3:1,也即前面的21 000个样本数据作为第一部分用来估计模型参数,剩下的作为第二部分用来做后验分析以检验估计结果的有效性。这里先展示每个频点的电磁信号的统计特征,限于篇幅,仅展示其中前4个频点上电磁信号的情况,如表3所示。

表3  四个频率信号的描述性统计
Table3  Description statistic of four signals
signalmeanSDskewnesskurtosisARCHLjung_Box
signal 1 -93.105 9 6.811 7 -1.260 4 2.204 4 0 0
signal 2 -112.657 0 3.767 3 -0.788 1 1.921 1 0.103 6 0.083 8
signal 3 -114.452 0 5.614 1 -1.086 1 2.069 1 0.139 7 0.156 4
signal 4 -107.250 0 3.968 6 -0.538 9 1.318 3 0.019 4 0.020 1

表3中可以看到,每个频率的信号都有其各自的分布特点,均值和波动情况也不一样,但都有轻微的左偏以及比标准正态稍高一些的峰度。最后的两列是关于ARCH效应和自相关性的检验,表格中展示的数值对应的p值,可以看到,在5%的显著性水平下,不拒绝信号2和信号3不存在ARCH效应和自相关性的假定,在1%的显著性水平下,只有信号1会拒绝不存在ARCH效应和自相关性的假定。

3.2 分布拟合

在对(X,Y)分布的估计上,为了增加一定的灵活性,本文并不直接对其二元联合分布进行建模,而是采用先估计边际分布,再估计相依结构(Join Structure)的二步拟合的方式。从表3的描述性统计中可以看到,每个信号的分布都存在左偏的形态,故采取有偏的正态分布来进行拟合,其密度函数为f=2f(x)Φ(λx),其中,f,Φ分别表示标准正态分布的密度函数和分布函数,λ为偏态系数。在相依结构上,采用正态Copula进行拟合。采用极大似然估计(Maximum Likelihood Estimation,MLE)来获取最优参数。

表4汇总了4个频点的电磁信号的边际分布和与叠加信号Y的相依结构的极大似然估计结果,第1列µ为位置参数,衡量了每个频点电磁信号功率的平均情况,第2列σ为尺度参数,衡量了每个频点电磁信号功率的波动情况,第3列λ衡量了偏移程度的大小,最后一列为正态Copula的系数。从中可以看到,信号1的平均功率最大,波动的程度也最大,信号1和信号3的非对称性相对来说最高,也即左偏最明显,并与Y的相关程度也相对高些。

表4  分布拟合结果
Table4  Distribution fitting
signal numberµολρ
signal 1 -85.145 6 10.978 4 -5.652 7 0.427 9
signal 2 -108.462 1 5.574 6 -2.528 6 0.207 5
signal 3 -107.639 1 8.769 8 -4.157 7 0.285 6
signal 4 -103.335 5 5.501 8 -1.772 0 0.206 3

图1为4个频点上电磁信号的直方图,以及表4中的估计参数值所对应的密度函数曲线,从中可以看出,对边际分布的估计结果较好地拟合了真实数据的分布情况。

图1  每个信号的功率箱线图

Fig.1  Boxplots of power for each signal

3.3 后验分析结果

用第二部分的数据对MES的估计结果进行后验分析,即通过计算对应的统计量来判断模型对MES的估计是否正确。由于每个统计量在计算过程中均需涉及到Y与阈值的比较,故先对VaR估计的准确性进行衡量,结果如表5所示。从中可以看到,虽然Y超过VaR的实际个数与期望值相比略有出入,但从括号中的p值可以得到,在10%的显著性水平下,都可认为模型对VaR的估计是正确的。

表5  实际数据超过VaR的次数
Table5  Numbers exceeding VaR
VaR90%(Expectation:773)VaR95%(Expectation:386)VaR97.5%(Expectation:193)
789(0.539 0) 362(0.202 8) 173(0.141 1)

表6为MES后验分析的结果,括号中的数值为统计量对应的p值。从中可以看到,在10%的显著性水平下,除了信号3的MES90%MES95%在统计量Z1下没有接受原假设和信号1的MES90%在统计量Zt下没有接受原假设外,其他的都不拒绝原假设,在5%的显著性水平下,所有的结果均不拒绝原假设,也即可以选择接受MES没有被低估这一结论。此外,对表6中的数据进行简单的统计发现,在12组数据中,Z2p值大于Z1的有10组,Ztp值大于Z1Z2的分别有10组和8组,表明对于同样的估计结果,Zt要比Z1Z2对原假设的接受程度更高,而Z2又比Z1对原假设的接受程度高。可以得出,在原假设和备择假设的分布差别相对较小时,Z2ZtH0不为真时的统计功效比Z1小,即取伪概率比Z1大。由于在实际中原假设和备择假设的分布往往不会非常大,即估计的分布一般不会和真实的分布相差特远,故表6中呈现的结果可认为与第2小节中得到的结论比较一致。

表6  三个统计量的值
Table6  Values of the three statistics
statisticssignalMES90%MES95%MES97.5%
Z1 signal 1 -0.006 072(0.990 1) -0.002 618(0.781 6) -0.000 472(0.579 5)
signal 2 0.000 301(0.392 4) -0.000 274(0.569 8) -0.000 313(0.566 5)
signal 3 0.003 176(0.050 7) 0.004 042(0.062 7) 0.002 439(0.285 9)
signal 4 0.000 718(0.306 0) -0.001 941(0.822 2) -0.001 416(0.695 0)
Z2 signal 1 0.014 763(0.361 8) -0.065 599(0.843 1) -0.104 978(0.878 6)
signal 2 0.021 270(0.311 4) -0.063 403(0.839 0) -0.104 835(0.879 2)
signal 3 0.024 205(0.288 2) -0.059 360(0.823 6) -0.102 370(0.872 2)
signal 4 0.021 695(0.308 8) -0.064 965(0.845 3) -0.105 823(0.882 1)
Zt signal 1 1.328 517(0.092 0) -0.945 105(0.827 7) -1.356 476(0.912 5)
signal 2 0.007 291(0.497 1) -1.251 312(0.894 6) -1.494 165(0.932 4)
signal 3 -1.246 605(0.893 7) -2.435 229(0.992 5) -2.052 488(0.979 9)
signal 4 -0.134 229(0.553 4) -0.757 781(0.775 7) -1.113 731(0.867 3)

4 结论

后验分析作为检验风险预测模型准确程度的重要步骤,直接关系到最终结论的可靠性。本文将Acerbi等关于ES的后验分析方法进行二维变量下的延伸,提出了2个新的对于MES后验分析的统计量。这2个新的统计量基于MES的定义式得到,同样也是无分布假定的、非参的,且比较直观,从概念上也易于理解。本文将其与Banulescu等采用的统计量进行比较,发现在原假设分布和备择假设分布相差相对较小的情况下,2个统计量的统计功效均大于Banulescu等采用的统计量。由于这种情形一般情况下与实际更相符,因此可以认为在实际中,统计量Z1的结果可能相对会更可靠。实证分析的结果也表明,对于同样的预测结果,文中新提出的统计量对原假设的接受相对更为谨慎。

本文的主要贡献在于:一方面提出了2个新的对于MES后验分析的统计量,丰富了对系统性风险度量进行后验分析的方法;另一方面也丰富了对系统性风险度量后验分析的功效问题的讨论,对于其他的后验分析方法,也可以类似的方式进行统计功效的对比讨论,衡量其在原假设不成立下的取伪概率,探讨在不同情况下各统计量的优劣。本文将该后验方法用于电磁频谱数据分析中,为单个频点的电磁信号对整体异常的贡献程度的衡量提供了思路,对于大数据模型算法的后验分析具有一定的理论借鉴意义。

参考文献

1

ACHARYA V V,PEDERSEN L H,PHILIPPON T,et al. Measuring systemic risk[J]. CEPR Discussion Papers, 2017,29(1002):85-119. [百度学术] 

2

赵淑清,郑薇. 随机信号分析[M]. 哈尔滨:哈尔滨工业大学出版社, 1999. [百度学术] 

ZHAO Shuqing,ZHENG Wei. Stochastic signal analysis[M]. Harbin,China:Harbin Institute of Technology Press, 1999. [百度学术] 

3

王永德,王军. 随机信号分析基础[M]. 北京:电子工业出版社, 2013. [百度学术] 

WANG Yongde,WANG Jun. Fundamentals of stochastic signal analysis[M]. Beijing:China Publishing House, 2013. [百度学术] 

4

张海勇. 基于局域波法的非平稳随机信号分析中若干问题的研究[D]. 大连理工大学, 2001. [百度学术] 

ZHANG Haiyong. Research on some problems in non-stationary random signal analysis based on local wave method[D]. Dalian,China:Dalian University of Technology, 2001. [百度学术] 

5

张海勇,李勘. 非平稳随机信号的参数模型分析方法[J]. 系统工程与电子技术, 2003,25(3):386-390. [百度学术] 

ZHANG Haiyong,LI Kan. Parametric model analysis method of non-stationary random signal[J]. Systems Engineering and Electronics, 2003,25(3):386-390. [百度学术] 

6

杨娟,卞保民,闫振纲,. 典型随机信号特征参数统计分布的分形特性[J]. 物理学报, 2011,60(10):86-92. [百度学术] 

YANG Juan,BIAN Baomin,YAN Zhengang,et al. Fractal characteristics of statistical distribution of typical random signal characteristic parameters[J]. Acta Physica Sinica, 2011,60(10):86-92. [百度学术] 

7

SONG L,CHEN Y,TRAPPE W,et al. ALDO:an anomaly detection framework for dynamic spectrum access networks[C]// IEEE INFOCOM 2009. Rio de Janeiro,Brazil:IEEE, 2009:675-683. [百度学术] 

8

YIN S,LI S,YIN J. Temporal-spectral data mining in anomaly detection for spectrum monitoring[C]// The 5th International Conference on Wireless Communications, Networking and Mobile Computing. Beijing:IEEE, 2009:1-5. [百度学术] 

9

LIU S,GREENSTEIN L J,TRAPPE W,et al. Detecting anomalous spectrum usage in dynamic spectrum access networks[J]. Ad Hoc Networks, 2012,10(5):831-844. [百度学术] 

10

ZHANG L,DING G,WU Q,et al. Spectrum sensing under spectrum misuse behaviors:a multi-hypothesis test perspective[J]. IEEE Transactions on Information Forensics and Security, 2018,13(4):993-1007. [百度学术] 

11

夏伟,王琳娜,沈小青,. 基于单类支持向量机模型的频谱异常检测方法[J]. 微处理机, 2012,33(4):73-75. [百度学术] 

XIA Wei,WANG Linna,SHEN Xiaoqing,et al. Spectral anomaly detection method based on single-class support vector machine model[J]. Microprocessor, 2012,33(4):73-75. [百度学术] 

12

闫戈. 基于大数据的频谱分析算法的研究[D]. 北京:北京邮电大学, 2017. [百度学术] 

YAN Ge. Research on spectrum analysis algorithm based on big data[D]. Beijing:Beijing University of Posts and Telecommunications, 2017. [百度学术] 

13

LI Zhijing,XIAO Zhujun,WANG Bolun,et al. Scaling deep learning models for spectrum anomaly detection[C]// Proceedings of the Twentieth ACM International Symposium on Mobile Ad Hoc Networking and Computing. New York,NY,USA:ACM, 2019:291-300. [百度学术] 

14

李忠,安建琴,宋奕瑶,. 一种滑动阈值的自适应随机信号异常提取方法:CN108898117A[P]. 2018. [百度学术] 

LI Zhong,AN Jianqin,SONG Yiyao,et al. Abnormal extraction method of adaptive random signal with sliding threshold:CN108898117A[P]. 2018. [百度学术] 

15

张小飞,李恒帅,石志鑫,. 一种电磁频谱异常告警分析算法及实现[J]. 中国无线电, 2020(6):34-36,41. [百度学术] 

ZHANG Xiaofei,LI Hengshuai,SHI Zhixin,et al. An electromagnetic spectrum anomaly alarm analysis algorithm and its implementation[J]. China Radio, 2020(6):34-36,41. [百度学术] 

16

ACERBI C,SZEKELY B. Backtesting expected shortfall[R]. New York,NY,USA:MSCI Inc., 2014:1-33. [百度学术] 

17

DU Z,ESCANCIANO J C. Backtesting expected shortfall:accounting for tail risk[J]. Management Science, 2017,63(4):940-958. [百度学术] 

18

BANULESCU D,HURLIN C,LEYMARIE J,et al. Backtesting marginal expected shortfall and related systemic risk measures[J]. Management Science, 2021,67(9):5730-5754. [百度学术] 

19

DUMITRESCU E I,HURLIN C,PHAM V. Backtesting value-at-risk:from dynamic quantile to dynamic binary tests[J]. Finance, 2012,33(1):79-112. [百度学术] 

20

HURLIN C,TOKPAVI S. Une evaluation des procédures de backtesting:tout va pour le mieux dans le meilleur des mondes[J]. Finance, 2008,29(1):53-80. [百度学术]