计算机系统应用  2019, Vol. 28 Issue (11): 224-232   PDF    
深度特征选择网络在雷达信号识别中的应用
曾歆然1, 金炜东1, 黄颖坤1, 胡燕花2     
1. 西南交通大学 电气工程学院, 成都 611756;
2. 成都地铁运营有限公司, 成都 610031
摘要:在现有的雷达辐射源信号识别研究中, 传统人工提取到的特征虽具有较为良好的物理表征, 但特征中还存在冗余、噪声特征, 而通过深度神经网络虽可以挖掘到对信号更深层次的表达, 但其特征存在的“黑箱”难以解释性无法避免. 结合人工特征良好的物理表征性和深度学习强大的学习能力, 本文提出将一种深度特征选择网络(DFS, Deep Feature Selection)应用到雷达信号识别技术中. DFS通过在深度神经网络的输入层和第一隐藏层之间增添一对一层, 获取针对每维特征与分类相关性度量得到的权值, 以此权值作为衡量标准, 加强敏感特征的输入影响, 削弱冗余、噪声特征的输入影响, 提高分类准确率. 方法先对雷达信号提取复杂度特征、小波脊频级联特征、信息熵特征, 合并建立原始特征集, 利用DFS进行学习训练, 以达到在输入级别实现特征选择的目的. 本文已利用上述方法对5类辐射源信号进行仿真实验, 识别效果良好, 验证了方法有效.
关键词: 深度特征选择网络    雷达辐射源信号识别    复杂度特征    小波脊频级联特征    信息熵特征    
Application of Deep Feature Selection Network in Radar Signal Identification
ZENG Xin-Ran1, JIN Wei-Dong1, HUANG Ying-Kun1, HU Yan-Hua2     
1. School of Electrical Engineering, Southwest Jiaotong University, Chengdu 611756, China;
2. Chengdu Metro Operation Co. Ltd., Chengdu 610031, China
Foundation item: National Key Research and Development Program of China (2016YFB1200401-102F)
Abstract: About radar emitter signal identification research, the artificially extracted features have relatively physical characterization, but there are still redundant features and noise features. Through the deep neural network, the deeper expression of the signal can be obtained, but its characteristics are difficult to explain. Combining the physical characteristics of artificial features and the strong learning ability of deep learning, this study proposes to apply a deep feature selection network to radar signal recognition technology. DFS adds a sparse one-to-one layer between the input layer and the first hidden layer to obtain the corresponding weight value of each feature from the classification correlation metric, uses these weight values to enhance the input of sensitive features and weaken the input of redundant features, and improves classification accuracy. Firstly, the complexity features, Cscade Connection features of ridge-frequency, and information entropy features are extracted from the radar signals, and merged into the original feature set. The DFS is used for learning training to achieve the feature selection at the input level. The above approaches were used to identify the 5 different types of radar emitter signals, obtained good classification. The results verify the effectiveness of the approach.
Key words: deep feature selection network     radar emitter identification     complexity features     Cscade Connection features of ridge-frequency     information entropy features    

雷达辐射源信号的识别技术是现代电子战系统的关键技术之一, 其发展水平衡量了雷达对抗侦察系统的先进程度, 该技术更是电子情报侦察、电子支援措施和雷达威胁告警系统中亟需突破的瓶颈环节. 传统辐射源信号识别技术依赖的常规五参数已经应对不了当今复杂体制雷达发展而呈现出的信号幅度变化不规律、工作频带宽变化多样化、参数多变快变、特征日益隐蔽的现状. 常规五参数不能完整地表征信号本质, 但脉内特征参数具有一定的稳定性, 它能够体现出不同调制类型信号间的差异, 已成为辐射源信号识别研究的主流方向.

纵观过往数年对脉内特征参数的提取研究, 根据其作用域的不同, 可以粗略分为时域分析法[1]、频域分析法[2]、时频域分析法[3]. 时频分析法通过时频变换将一维信号映射到二维时频空间上, 能够根据时频联合域上的能量分布获得更多的信息. 因此, 对于雷达辐射源信号这种典型的非平稳信号, 基于时频分析的信号处理方法被认为是最有前景的. 现常用的得到脉内特征的时频分析法有小波变换法[4]、模糊函数[5]等. 但所提到的特征中存在着冗余、噪声特征.

伴随着深度学习的研究热潮, 一些学者也将深度学习应用在雷达信号识别上, 如文献[6,7]. 深度学习通过多层处理网络自动学习到数据更抽象更深层的表达. 目前, 深度学习已被成功应用于文字、语言、图像、视频、音频等众多领域[8,9]. 但是, 深度学习具有“黑箱”属性, 所学的特征难以解释. 对于雷达信号识别而言, 特征的解释性是一个关键属性, 这决定着雷达信号识别过程是否具有可控性.

特征选择在面临维数灾难问题时, 可以实现有效降维, 降维过程是剔除冗余、干扰信息, 即剔除掉与分类无关, 甚至对分类产生负面影响信息的过程. 特征选择作为模式识别领域研究热点之一, 其方法一般可从两个角度出发: 一是按照不同的搜索策略, 其中包含完全搜索, 启发式搜索和随机搜索; 一是按照不同的特征评价准则, 根据特征的评价是否与后续分类器有关, 又分为Filter方式和Wrapper方式2类[10].

在上述研究背景下, 本文提出将深度特征选择网络(Deep Feature Selection, DFS)应用于雷达信号识别研究. DFS模型在深度神经网络的输入层和第一隐藏层之间加入一个稀疏一对一层, 以获取针对每维特征与分类相关性度量所得出的相应权重值, 依赖此权值加强或者削弱特征的输入影响. 特征选择可在保有特征物理意义不变的前提下, 通过削弱冗余特征注入影响, 加强敏感特征的注入影响, 提高系统的分类准确率.

1 雷达信号原始特征集的构建

雷达信号脉内特征提取算法主要是提取信号频率域、时频域上的参数特征, 如此可得到用于区分不同类别信号的具有鉴别性的信息, 这些特征被要求尽可能集中表征显著类别差异. 本文在构建原始特征集时选用的人工特征为从频域上提取的复杂度特征、从时频域上提取的小波脊频级联特征以及信息熵特征, 这些特征都较为完备得反映了信号的脉内调制属性, 具有良好的表达效果.

1.1 频域下复杂度特征的提取

分形盒维数作为复杂度特征的一种, 它能够刻画离散化信号的几何尺度信息及不规则度, 因其算法简单、计算量小、便于工程实现, 成为在信号处理领域中被使用得最多的一类分形维数. 有经验表明, 提取信号盒维数时不宜在时域上进行, 这样提取到的盒维数易被噪声干扰[11]. 由此, 本文将信号进行FFT变换转换至频域, 设有信号序列: $f(i),i \in \{ 1,2, \cdots ,N\} $ , 对其按照下式进行盒维数提取, 分形盒维数计算公式为:

$ d(\Delta ) = \sum\limits_{i = 1}^N f (i) - {\left. {f(i + 1)} \right| } $ (1)
$\begin{split} d(2\Delta ) = & \sum\limits_{i = 1}^{N/2} (\max\{ f(2i - 1),f(2i),f(2i + 1)\} \\ & - \min \{ f(2i - 1),f(2i),f(2i + 1)\} ) \end{split} $ (2)
$ {D_f} = 1 + {\log _2}\begin{array}{*{20}{c}} {d(\Delta )}\\ {d(2\Delta )} \end{array} $ (3)

如此便得到了信号复杂度特征中的分形盒维数 $D_f$ , 它能够反映雷达信号序列的几何尺度信息, 但若想要对信号的复杂度有一个更全面的反映, 则需要进一步提取该信号的分布密疏特性, 进而本文提取了信号的稀疏性特征, 两种特征共同作为信号的复杂度特征向量.

1.2 时频域下的小波脊频级联特征提取

小波变换通过改变时间窗和频率窗来表征信号在时频两域上的局部特性, 这种良好的能够自适应信号变化的特性, 使得小波变换可以胜任对于雷达辐射源信号这种具有时变性的非平稳信号的处理任务. 当信号分布于连续的小波平面上时, 会呈现出似地形等高线中山脊的形状, 故而被称为小波脊线. 脊线所在的位置信息及脊线上的波动包含了原始信号频率与幅度变化的全部信息, 因此可以利用小波脊线来重构雷达信号[12].

将常规脉冲(CP)信号、线性调频(LFM)信号、二相编码(BPSK)信号、四相编码(QPSK)信号及频率编码(FSK)信号的小波脊线时频图绘制于下, 从图1中可看出, 由小波脊线得到的瞬时频率可有效反映信号的脉内调制属性: CP信号瞬时频率基本不变(轻微波动因存在噪声干扰); LFM信号瞬时频率近似线性; BPSK和QPSK信号瞬时频率幅度基本维持在载频附近, 位置表现在同一水平, 当相位发生突变时其瞬时频率也跟着跳变; FSK信号瞬时频率幅度呈现阶梯状变化.

图 1 5种雷达辐射源信号的小波脊线图

值得说明的是, 由于存在噪声干扰, 信号脊点的检测也存在一定的概率, 因此小波脊线提取出的并非信号完整的瞬时频率, 只是反映出信号瞬时频率的变化规律, 故称其为小波脊频特征. 为了使识别性能更精准高效, 可对小波脊频特征参数的规律进行进一步挖掘, 小波脊频级联特征即是利用不同类型的雷达信号其瞬时频率某些参数会呈现出不同的统计规律这一特性而产生的一种统计量特征[12]. 级联特征更为良好得表征了脉内调制规律, 同时具有更强的抗噪性, 可以作为后续分选时的特征向量.

1.3 时频域下信息熵的提取

在求取信号信息熵的过程中, 受限于信号量过大, 无法对时域平面上的幅值点逐一进行概率计算, 本文采用将信号经Wigner-Ville分布转换至时频域的方式. 由于Wigner-Ville分布在时间轴和频率轴两轴的积分便是信号的能量, 因此Wigner-Ville分布能够良好得反映信号能量在时间空间及频率空间下的分布密度[13]. 利用此性质可对Wigner-Ville分布下的信号进行信息熵的提取.

$X = \left\{ {{x_1},{x_2}, \cdots ,{x_N}} \right\} $ 为经过采样的离散信号, 其分布于时频域上幅值出现的概率为 ${P_i} = P\left( {x_i} \right)(i = 1,\;2,\; \cdots ,$ $N) $ , 且有 $ \displaystyle \sum\limits_{i = 1}^N {{P_i} = 1} $ . 接着, 求取信号在各子空间能量分布概率, 设 $S$ 为信号 $X$ 的特征空间, ${S_1},\;{S_2},\; \cdots ,\;{S_N}$ 是将 $S$ 完全划分的特征子空间, 用 $E\left( \cdot \right)$ 表示能量函数, 则信号 $X$ 在特征子空间 $S_i $ 下的能量分布概率为:

${P_{{S_i}}} = \frac{{\displaystyle \sum\limits_{{S_i}} E \left( {{x_i}} \right)}}{{\displaystyle \sum\limits_S E \left( {{x_i}} \right)}},i = 1,2, \cdots ,N $ (4)

根据信息熵的定义, 特征子空间 $S_i$ 能量分布概率下信号的信息熵为:

$ {H_S}(X) = - \sum\limits_{i = 1}^N {{P_{{S_i}}}} \ln {P_{{S_i}}} $ (5)
2 深度特征选择网络 2.1 深度特征选择网络的设计

为了选择出对于识别更具指导意义的关键性特征, 本文使用一种深度特征选择( Deep Feature Selection, DFS)模型, 该模型能够实现深度神经网络的变量选择. 不同于常见的多层感知机网络, DFS在输入层和第一隐藏层之间添加一个稀疏的一对一层, 每个输入单元都被予以加权处理, 如此便在深层网络的输入级别实现选择特征[14]. 具体的网络结构见图2.

图 2 DFS网络结构图

在模型一对一层中, 输入特征 $x_i$ 仅连接到对应的具有线性激活功能的第 $i$ 个节点上, 则有该层的输出变为 ${w^ * }x$ . 这里, 对于权重 $w$ 采用弹性网回归(Elastic Net)的稀疏正则化项, 即:

$\Omega (w) = {\lambda _1}\left( {\frac{{1 - {\lambda _2}}}{2}\left\| w \right\|_2^2 + {\lambda _2}{{\left\| w \right\|}_1}} \right) $ (6)

DFS网络各隐藏层设定其相应的激活函数, 输出层使用SoftMax函数, 即输出 $y=i$ 的概率为:

$ P(y = i|x) = \frac{{\exp \left( { - w_i^{(K + 1)T}{h^{(K)}}} \right)}}{{\displaystyle \sum\nolimits_C {\exp } \left( { - w_c^{(K + 1)T}{h^{(K)}}} \right)}} $ (7)

设DFS模型含有 $K$ 个隐藏层, 模型参数可用 $\theta = \left\{ {w,{{{W}}^{(1)}},{{{b}}^{(1)}}, \cdots ,{{{W}}^{(K + 1)}},{{{b}}^{(K + 1)}}} \right\}$ 来表示, 值得注意的是, 每一层仿射变换的权重和偏置都是模型参数, 但正则化偏置可能会引起明显的欠拟合, 所以这里只对权重进行正则惩罚处理, 不对偏置做惩罚. 将代价函数最小化, 有表达如下:

$ \mathop {\min }\limits_\theta \tilde J(\theta ) = J(\theta ) + {\lambda _1}\left( {\frac{{1 - {\lambda _2}}}{2}\left\| w \right\|_2^2 + {\lambda _2}{{\left\| w \right\|}_{{h}}}} \right) + {\alpha _1}\left( {\frac{{1 - {\alpha _2}}}{2}{{\sum\limits_{k = 1}^{K + 1} {\left\| {{{{W}}^{(k)}}} \right\|}_F^2 }} + {\alpha _2}{{\sum\limits_{k = 1}^{K + 1} {\left\| {{{{W}}^{(k)}}} \right\|_{\rm{l}}} }}} \right) $ (8)

(1) $J(\theta )$ 为对数似然函数, 模型的顶层采用服从Multinoulli分布的SoftMax回归, 其概率分布为:

$ h\left( {{{{h}}^{\left( K \right)}};\theta } \right) = \left[ {\begin{array}{*{20}{c}} {P\left( {y = 1|{{{h}}^{\left( K \right)}};\theta } \right)}\\ {P\left( {y = 2|{{{h}}^{\left( K \right)}};\theta } \right)}\\ \vdots \\ {P\left( {y = C|{{{h}}^{\left( K \right)}};\theta } \right)} \end{array}} \right] $ (9)

因此, 式中的 $J(\theta )$ 为:

$\begin{split} J(\theta ) = & - \sum\limits_{i = 1}^N {\log \left( {P\left( {{y_i}|{{{h}}_i}^{\left( K \right)}} \right)} \right)} \\ =& \sum\limits_{i = 1}^N {\log } \frac{{\exp \left( { - w_{y_i}^{(K + 1)T}{h_i^{(K)}} - b_{y_i}^{(K + 1)}} \right)}}{{\displaystyle \sum\nolimits_C {\exp } \left( { - w_c^{(K + 1)T}{h_i^{(K)}} - b_c^{(K + 1)}} \right)}} \end{split} $ (10)

其中, ${{{{h}}_i}^{\left( K \right)}}$ 是给定输入样本 $x_i$ 的第 $K$ 个隐藏层的输出.

(2)正则项 ${\lambda _1}\left( {\dfrac{{1 - {\lambda _2}}}{2}\left\| w \right\|_2^2 + {\lambda _2}{{\left\| w \right\|}_1}} \right)$ 是弹性网正则项, 其中超参数 ${\lambda _2} \in \left[ {0,1} \right]$ 用以调控 $w$ 平滑性与稀疏性间的平衡.

(3)正则项 ${\alpha _1}\left( {\dfrac{{1 - {\alpha _2}}}{2}\displaystyle \sum\limits_{k = 1}^{K + 1} {\left\| {{{{W}}^{(k)}}} \right\|} _F^2 + {\alpha _2}{{\displaystyle \sum\limits_{k = 1}^{K + 1} {\left\| {{{{W}}^{(k)}}} \right\|_{\rm{l}}} }}} \right)$ 是另一个弹性网正则项, 用以降低模型复杂度并优化训练速度. 该正则项还有另一个作用, 防止一对一层中 $w$ 的收缩引起上层中 $ {{{{W}}^{(k)}}}$ 的膨胀.

2.2 关于DFS模型中正则化项的讨论

在DFS模型被提出之际, 随之也出现一些质疑的声音, 关于DFS模型是否可用多层感知机取代. 只需通过在多层感知机模型中使 ${{{{W}}^{(1)}}}$ 稀疏化即可实现简单的特征选择. 针对这一疑问, 本文利用感知机和Shallow DFS这两个简化模型进行诠释, 模型结构见图3, 模型虽被简化, 但并没有损害讨论问题的实质.

在Shallow DFS网络训练过程中, 对一对一层使用单独的 $L^1$ 惩罚, 并分配不同的系数 ${\lambda _1}$ , 于是有如下相应的目标函数:

${\min\limits_\theta }\tilde J(\theta ) = J(\theta ) + \lambda {\left\| {{W}} \right\|_1} $ (11)
$ {\min\limits_\theta }\tilde J(\theta ) = J(\theta )+{\lambda _1}{\left\| w \right\|_1} + {\lambda _2}{\left\| {{W}} \right\|_1} $ (12)

其中, 式(11) LAOSS回归的参数为 $\theta = \left\{ {{{W}},{{b}}} \right\}$ , 而式(12) Shallow DFS中的参数为 $\theta = \left\{ {w,{{W}},{{b}}} \right\}$ , 这里令 ${{{W}}^*} = \{ w,$ ${{W}} \} $ , 其中 ${{{W}}_i}^* = {w_i}^*{{{W}}_i}$ , 显然 ${{{W}}^*}$ 是一个具有稀疏性的矩阵. 同时依据 $L^1$ 范数的性质, LAOSS回归中 ${{W}}$ 的所有元素都遵循相同的Laplace分布.

运用逆证法, 看是否能将式(12)改写为下式:

图 3 感知机与Shallow DFS模型图

$ \mathop {\min }\limits_{{{{W}}^*},{{b}}} \tilde J\left\{ {{{{W}}^*},{{b}}} \right\} = J\left( {{{{W}}^*},{{b}}} \right) + \beta {\left\| {{{{W}}^*}} \right\|_1} $ (13)

于是有: $\;\beta {\left\| {{{{W}}^*}} \right\|_1} = \beta \displaystyle \sum\nolimits_i {\displaystyle \sum\nolimits_j {\left| {{w_i}{w_{ij}}} \right|} } $

$ {\lambda _1}{\left\| w \right\|_1} + {\lambda _2}{\left\| {{W}} \right\|_1} = {\lambda _1}\sum\nolimits_i {\left| {{w_i}} \right| + {\lambda _2}\sum\nolimits_i {\sum\nolimits_j {\left| {{w_{ij}}} \right|} } } $

显然, 除非 $w$ 是一个非零常数, 否则无法找到合适的 $\;\beta $ 来满足 $\;\beta {\left\| {{{{W}}^*}} \right\|_1} = {\lambda _1}{\left\| w \right\|_1} + {\lambda _2}{\left\| {{W}} \right\|_1}$ . 因此, 两种模型训练出来的权重矩阵是有实质性区别的, 多层感知机无法代替DFS网络进行特征选择, DFS网络的提出具有实际意义.

3 仿真实验与分析 3.1 数据介绍

本文采用的数据为雷达仿真监测数据, 在数据仿真实验中, 产生5部雷达的辐射源信号, 每部雷达信号包含500个脉冲, 总计2500个. 第一部为常规脉冲(CP)信号, 载波频率设定为10 MHz, 脉宽为10 μs, 采样频率为50 MHz; 第二部为线性调频(LFM)信号, 带宽为5 MHz, 其他参数设置与CP信号相同; 第三部为二相编码(BPSK)信号, 采用13位Barker编码,其他参数设置与CP信号相同; 第四部为四相编码(QPSK)信号, 采用16位Frank编码, 其他参数设置与CP信号相同; 第五部为频率编码(FSK)信号, 采用10位Costas码进行编码, 其他参数设置与CP信号相同. 信噪比的取值范围为0~20 dB, 步长取2 dB, 噪声为高斯白噪声.

3.2 实验方法 3.2.1 原始特征集构建

实验针对雷达辐射源信号提取多种人工特征构建特征选择的对象, 即原始特征集. 人工特征分别为频域上提取到的2维复杂度特征、时频域上提取到的2维信息熵级联特征、时频域上提取到的7维小波脊频级联特征. 这几类特征都可较为良好得表征雷达信号的脉内调制属性, 为后续的特征选择提供了一个优良的选择空间. 几类特征在未合并成原始特征集之前, 不同信噪比下, 各自的识别准确率如图4所示.

图 4 各类特征识别准确率

由图中可以看出, 小波脊频级联特征及信息熵级联特征在10 dB以上的高信噪比下都具有不错的识别准确率, 但在10 dB以下的低信噪比下其识别准确率不是十分理想, 即特征的抗噪性能较差. 而复杂度特征的识别准确率基本在60%–70%之间波动, 但盒维数可以反映信号的几何尺度信息及不规则度, 稀疏度反映了信号的分布密疏特性, 因此也将其作为特征选择对象, 纳入原始特征集.

3.2.2 DFS网络实验

实验中使用DFS网络对原始特征集中的多维特征进行选择. 基于神经网络的特征选择基本原理为: 在神经网络的训练过程中, 可获得各输入单元的权重, 而这些权重的获取对于判断该特征对分类效果的影响有着重要意义, 接着以权重作为衡量标准, 删除或削弱冗余、噪声特征的影响, 构建对分类更有益的优质特征子集, 从而提高分类准确率. 对5种辐射源信号: CP, LFM, BPSK, QPSK, FSK的人工特征集合进行训练集和测试集的划分, 划分比例为3:2, 利用训练集进行特征集合的迭代学习, 测试集对参数学习的有效性进行评价.

3.2.2.1 网络参数初始化

深度神经网络的训练算法都是迭代的, 那么开始迭代时网络参数的初始点需要使用者来指定, 参数的初始化策略会对模型的性能产生重要影响. 合适的参数初始化策略可以提高梯度下降的收敛速度加快网络的训练. 本文实验训练网络的权重初始化采用标准初始化法, 即对于一个 $m$ 个输入和 $n$ 个输出的网络, 是从分布 $U\left( { - \sqrt {\dfrac{6}{{m + n}}} ,\sqrt {\dfrac{6}{{m + n}}} } \right)$ 中随机采样权重, 即:

$ {W_{i,j}} \sim U\left( { - \sqrt {\frac{6}{{m + n}}} ,\sqrt {\frac{6}{{m + n}}} } \right) $

用以初始化所有层. 而一般情况下, 偏置初始值设定为0即可满足网络训练要求.

3.2.2.2 分类精度评估下的模型结构参数选择

(1)隐藏层层数作为深度学习“深度”的度量, 应首先被确定出来, 再在各隐藏层上讨论节点数应如何取值是比较合理的方式. 参考现有的深度神经网络结构参数及其应用研究成果, 隐藏层上节点数一般取为100的正整数倍. 对DFS模型的结构参数先做如下设定: 学习率以默认值为准, 各层激活函数使用Sigmoid函数, 隐藏层每层的节点数设为100. 由5种不同辐射源信号提取特征构成的原始特征集作为输入, 通过增加迭代次数, 研究含有不同隐藏层层数的网络对辐射源信号分类准确率的影响. 其隐藏层层数 $l \in \left\{ {1,2} \right\}$ , 试验结果如图5所示.

图 5 不同隐层层数对识别准确率的影响

由图中可以看出, 含有1层隐藏层的DFS网络具有较为良好的识别效果, 含有2层隐藏层网络的识别效果反而在较低的水平波动, 这可能是源于在神经网络学习中, 梯度下降方法的反向传播仅收敛于权重空间的局部最小值, 那么就会出现DFS模型在少量隐藏层时表现出不错的效果, 而随着隐藏层层数的增加算法反而出现恶化, 因为层数的增多会使得梯度信息在较低层中分散开来. 因此将DFS模型的隐藏层设置为1层. 随着迭代次数的增加, 识别效果有缓慢提升, 但迭代次数的加大会导致网络的运算代价增加, 综合考虑选择迭代次数为250作为DFS网络的参数选择.

(2)已确定网络的隐藏层层数, 下面是对每层的节点数如何选择的讨论. 实验中节点数选择范围为n∈{100, 150, 200, 250, 300, 350}, 每层节点数都相同, 同样以分类准确率作为性能度量, 结果如图6所示.

图 6 不同节点数对识别准确率的影响

从图中可以看出, 随着隐藏层节点数的增加, 其准确率出现先上升后下降的波动趋势, 可见得节点数的增加未必一定能提高网络的学习能力, 也有可能由于节点数增多引起网络内部结构复杂化而产生不稳定. 因此为了使模型有更良好的识别效果, 同时也降低其计算复杂度, 本文选择100作为隐藏层节点数是恰当可行的.

(3)学习率可能是最重要的超参数, 相比起其他超参数, 学习率通过一种更为复杂的方式来控制模型的有效容量. 在DFS模型中, 学习率决定着训练一个小批量(mini-batch)样本时权重在梯度方向移动的步长, 其取值直接影响到算法的效率. 学习率对于损失误差的影响呈现U型性, 当学习率设置过小时, 损失函数收敛过程将变得十分缓慢, 使得算法效率低下, 当学习率设置过大时, 梯度可能会在损失误差最小值附近来回震荡, 导致收敛失败. 对学习率的探寻实验结果如图7所示.

图 7 不同学习率对识别准确率的影响

从图中可以看出, 当学习率在0.01~0.05区间时, 是模型比较稳定的区域, 但这里不做具体的数值选择, 而是在稳定区域内通过改变学习率的多次实验来保证分类效果.

3.2.3 实验结果分析

以上一节模型参数择优实验中得到的各参数来设定DFS网络参数, 并将原始特征集输入至模型进行训练, 获得一对一层中各维特征的权重值如图8所示.

图 8 DFS网络中各维特征的weight值

图中1–2维为复杂度特征, 3–4维为信息熵级联特征, 5–11维为小波脊频级联特征, 可看出DFS模型会对鉴别性不强的特征进行弱化输入, 而鉴别性强的特征则会被增大加权进行输入, 以此方式提高模型分类性能.

雷达辐射源信号传输信道环境复杂, 而雷达信号本身又具有突变性和非平稳性, 于是接收到的信号中常带有各种噪声干扰. 为了探究DFS模型对辐射源信号识别的抗噪性能是否良好, 采集信噪比在0~20 dB之间, 按每2 dB依次递增的雷达信号, 其中加入的噪声为高斯白噪声. 分别提取到它们的人工特征, 构建相应的原始特征集, 输入DFS模型中进行训练, 得到相应的分类准确率, 结果如图9所示.

图 9 不同信噪比下, DFS模型识别准确率

从图中可以得出, 针对雷达辐射源原始特征集, DFS模型在10~20 dB的较高信噪比下, 其分类准确率基本维持在99%以上, 具有优良的分类效果, 证明了DFS模型对特征进行选择的有效性; 在0~10 dB的低信噪比之下, 其分类效果也较未经选择的原始特征集高出许多.

图10为使用SVM分类器对原始特征集进行分类, 以及使用DFS模型进行分类的准确率对比图.

图 10 不同信噪比下的识别准确率

由图中可以看出, 当SNR=0 dB时, 利用DFS模型进行分类的识别结果比未经选择的高出22.5%; 当SNR=2 dB时, 识别效果也有将近14%的提高. 因此, 不同信噪比下的雷达辐射源信号, DFS模型特征选择对其分类识别准确率的提高效果显著, 且DFS模型具有良好的抗噪性能.

4 结论与展望

本文提出对雷达辐射源信号提取多种人工特征, 将其合并成原始特征集, 利用深度选择模型对原始特征集中各维特征其鉴别性能进行探寻, 并予以弱化或增强处理输入至网络, 使得分类准确率得以提高. 复杂度特征、信息熵级联特征、小波脊频级联特征都是能够表征雷达信号脉内调制属性的有效特征, 但存在冗余、噪声特征, DFS模型有效弱化了冗余特征的输入影响, 使得后续分类准确率得到提升. 深度特征选择模型利用了深度神经网络强大的深层次特征挖掘能力, 同时规避了其所学到特征“黑箱”难以解释的弊端, 选择出来的特征依然保有其物理意义. 仿真实验证明, 与直接利用原始特征集的分类结果相比, 经过深度特征选择网络学习后的特征有效提高了雷达辐射源信号的识别准确率.

参考文献
[1]
李春艳. 雷达辐射源信号检测与脉内细微特征提取方法研究[硕士学位论文]. 西安: 西安电子科技大学, 2011.
[2]
Matzner SA, Zurk LM. Frequency domain feature extraction from synthetic aperture radar data. Proceedings of 2007 IEEE Antennas and Propagation Society International Symposium. Honolulu, HI, USA. 2007. 1489–1492.
[3]
Zhu B, Jin WD. Feature extraction of radar emitter signal based on wavelet packet and EMD. Zhu RB, Ma Y. Information Engineering and Applications: International Conference on Information Engineering and Applications (IEA 2011). London: Springer, 2012. 198–205.
[4]
Zhang WX, Sun FL, Wang B. Radar signal intra-pulse feature extraction based on improved wavelet transform algorithm. International Journal of Communications, 2017, 10(8B): 118-127.
[5]
李林, 姬红兵. 基于模糊函数的雷达辐射源个体识别. 电子与信息学报, 2009, 31(11): 2546-2551.
[6]
Mendis GJ, Wei J, Madanayake A. Deep learning-based automated modulation classification for cognitive radio. Proceedings of 2016 IEEE International Conference on Communication Systems. Shenzhen, China. 2016. 1–6.
[7]
Bouchou M, Wang H, El Hadi Lakhdari M. Automatic digital modulation recognition based on stacked sparse autoencoder. Proceedings of the 17th IEEE International Conference on Communication Technology. Chengdu, China. 2017. 28–32.
[8]
Ghesu FC, Georgescu B, Zheng YF, et al. Marginal space deep learning: Efficient architecture for detection in volumetric image data. Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany. 2015. 710–718.
[9]
Larochelle H, Bengio Y, Louradour J, et al. Exploring strategies for training deep neural networks. The Journal of Machine Learning Research, 2009, 10: 1-40.
[10]
姚旭, 王晓丹, 张玉玺, 等. 特征选择方法综述. 控制与决策, 2012, 27(2): 161-166, 192.
[11]
韩俊, 何明浩, 朱振波, 等. 基于复杂度特征的未知雷达辐射源信号分选. 电子与信息学报, 2009, 31(11): 2552-2556.
[12]
余志斌, 金炜东, 陈春霞. 基于小波脊频级联特征的雷达辐射源信号识别. 西南交通大学学报, 2010, 45(2): 290-295. DOI:10.3969/j.issn.0258-2724.2010.02.022
[13]
梁华东, 徐庆. 熵特征在雷达信号分选中的应用. 空军预警学院学报, 2015, 29(1): 7-12. DOI:10.3969/j.issn.2095-5839.2015.01.002
[14]
Li YF, Chen CY, Wasserman WW. Deep feature selection: Theory and application to identify enhancers and promoters. Proceedings of the 19th Annual International Conference on Research in Computational Molecular Biology. Warsaw, Poland. 2015. 205–217.