软件老化是指软件(特别是大访问量、大数据量的服务器软件)在长期不间断地运行一段时间后系统的性能持续下降、占用的资源不断增加、错误不断累积, 最终导致软件失效或系统宕机的现象[1]. 为尽可能地减少甚至避免损失, 提高软件的可靠性和可用性, Huang等人提出一种主动性的容错策略—软件再生技术[2](Software Rejuvenation, SR), 通过周期性地清除老化状态, 使得运行环境恢复正常, 从而避免因软件老化引起突发性失效. 尽管通过抗衰操作可以消除软件老化带来的影响, 然而对一个正常运行的系统执行抗衰操作势必会带来直接或间接的损失[3], 因此如何能够准确地对软件老化趋势进行预测, 并及时采取相应恢复策略是当前预防软件老化的研究重点.
目前对于软件老化趋势的预测主要是对影响软件系统相关参数的资源损耗进行分析. 梁佩[4]使用时间序列分析法以及马尔可夫模型对软件老化的资源消耗进行预测; 苏莉[5]等人使用非线性有源自回归网络模型来检测软件系统的老化现象; Jia[6]等人则使用多元线性回归算法来分析和预测软件老化问题; 渊岚[7]则建立了一个基于AdaBoost算法的BP神经网络模型来预测资源的消耗. 尽管很多学者使用回归分析法、时间序列法以及BP神经网络算法等方法来预测遭受软件老化影响的系统资源消耗情况, 然而已有的单一模型很难达到理想的预测效果[8], 因此文献[8]提出使用混合模型, 即将自回归累积移动平均模型(Autoregressive Integrated Moving Average Model, ARIMA)和人工神经网络结合来预测Web服务器中的资源消耗. 然而混合方法的构建过程复杂、人工依赖性强, 不利于在实际中推广和使用.
近年来, 随着深度学习技术的不断发展, 越来越多的深度学习模型逐渐被应用到各个领域. 深度学习模型是一种拥有多个非线性映射层级的深度神经网络模型, 能够对输入信号逐层抽象并提取特征, 挖掘出更深层次的潜在规律[9]. 其中循环神经网络(Recurrent Neural Network, RNN)模型在结构设计中引入了时序概念, 在学习具有内在依赖性的时序数据时能够产生对过去数据的记忆状态, 能从原始数据中获取更多的数据波动以及规律性特征, 它的诞生解决了传统神经网络在处理序列信息方面的局限性. 作为近年来深度学习领域热点技术之一, 在机器翻译、语音识别及图像识别领域都取得了巨大成功[10], 然而在软件可靠性领域对于资源消耗的预测目前还未发现展开过相关研究.
基于上述分析, 本文提出了一种基于LSTM的Web资源消耗预测模型, 该模型充分考虑了Web资源损耗的时间特性, 将当前的资源损耗情况动态的与历史数据相关联并将其与传统模型进行实验对比. 结果表明该资源消耗预测模型在处理老化数据的时间序列建模问题上预测精度更高, 能够有效地应用于软件老化趋势的预测.
1 模型原理 1.1 循环神经网络RNN是一类由各神经元相互连接形成的有向循环人工神经网络, 其基于时序展开后的结构如下图1所示. 与传统的前馈神经网络(Feedforward Neural Network, FNN)不同, RNN不仅通过层与层间的连接进行信息的传递, 而且通过在网络中引入环状结构, 建立了神经元到自身的连接. 每一步的输出不仅包括当前所见的输入样例, 还包括网络在上一个时刻所感知到的信息即当前时刻的ht不仅仅取决于当前时刻的输入xt, 而且与上一时刻的ht–1也相关.
简单的循环神经网络由1个输入层、1个隐含层以及1个输出层组成. 给定输入向量序列x=[x1, x2, …, xT], 通过迭代下列公式(1)首先计算出t=1至t=T的隐含层状态序列h=[h1, h2, …, hT], 然后根据公式(2)计算出输出序列o=[o1, o2, …, oT].
$ {{{h}}_t} = f\left( {U \cdot {x_t} + W \cdot {h_{t - 1}} + {b_h}} \right) $ | (1) |
$ {{\rm{o}}_t} = g\left( {V \cdot {h_t} + {b_o}} \right) $ | (2) |
式中, U为输出层到隐含层的权重矩阵; W为隐含层到隐含层的权重矩阵; V为隐含层到输出层的权重矩阵, f和b分别表示输入层到隐含层的激活函数以及偏置, g和b分别表示隐含层到输出层的激活函数以及偏置. 相比于FNN需要n个时刻来帮助学习一次权重, RNN可以用n个时刻学习n次W和U, 实现了在时间结构上的共享特性.
将式(1)带入式(3)可得:
$\begin{split} o_{t}=&V \cdot g(U \cdot x_{t}+W \cdot g(U \cdot x_{t-1}+W \cdot g(U \cdot x_{t-2}+\\ &W \cdot g(U \cdot x_{t-3}+\cdots)))) \end{split}$ | (3) |
由式(3)可知循环神经网络在计算过程中虽然加入了上一时刻的输入, 但随着时间的推移, 后面节点对前面节点的感知能力下降, 即RNN存在梯度消失问题.
1.2 长短时记忆单元与传统RNN结构相比, LSTM在其基础上增加了一个细胞状态(cell state). 在传递过程中, 通过当前输入、上一时刻隐藏层状态、上一时刻细胞状态以及三个基于Sigmod函数的门结构来增加或删除细胞状态中的信息, 其具体单元结构如下图2所示. 其中门结构用来控制即时信息对历史信息的影响程度, 通过线性积累, 使得网络模型能够较长时间保存并传递信息[11].
一个典型的LSTM单元共有三个门: 遗忘门、输入门以及输出门[12]. 其中遗忘门和输入门主要用来控制上一时刻细胞状态Ct−1以及当前输入新生成的
$ \left\{ {\begin{array}{*{20}{l}} {{{{f}}_{{t}}} = \sigma \left( {{W_f} \cdot {h_{t - 1}} + {W_f} \cdot {x_t} + {b_f}} \right)}\\ {{{{i}}_{{t}}} = \sigma \left( {{W_i} \cdot {h_{t - 1}} + {W_i} \cdot {x_t} + {b_i}} \right)}\\ {{{{o}}_t} = \sigma \left( {{W_o} \cdot {h_{t - 1}} + {W_o} \cdot {x_t} + {b_o}} \right)} \end{array}} \right. $ | (4) |
其中: ft、it、ot分别表示遗忘门、输入门、输出门的结算结果; Wf、Wi、Wo分别为遗忘门、输入门、输出门的权重矩阵; bf、bi、bo分别为遗忘门、输入门、输出门的偏置项. 最终的输出由输出门和单元状态共同确定, 具体计算公式如式(5)所示.
$ \left\{ {\begin{array}{*{20}{l}} {{{{h}}_t} = {o_t} \odot {\rm{tanh}}\left( {{c_t}} \right)}\\ {{{\tilde {{c}}}_t} = {\rm{tanh}}\left( {{W_c} \cdot {h_{i - 1}} + {W_c} \cdot {x_t} + {b_c}} \right)}\\ {{{{c}}_t} = {f_t} \odot {c_{t - 1}} + {i_t} \odot {{\tilde c}_t}} \end{array}} \right. $ | (5) |
式中, xt为t时刻输入的单元状态; Wc为输入单元状态权重矩阵; bc为输入单元状态偏置项; tanh()为激活函数, ⊙表示hadamard乘积.
1.3 LSTM预测模型具体构建过程Web服务器资源消耗预测就是根据前t时刻老化指标的资源使用特征来预测t+1或者t+x时间内的资源损耗, 以此判断Web服务器的老化状况. 因此通过使用老化数据对LSTM神经网络进行训练, 构建基于LSTM网络的软件老化资源预测模型, 其具体构建步骤如下所示:
(1)首先将原始老化数据清洗后进行特征表示和特征提取: 定义老化资源损耗时间序列F={f1, f2, …, f}, 将其划分为测试集Ftrain={f1, f2, …, fm}和训练集Ftest={fm+1, fm+2, …, fn}, 其中m<n且m, n∈N, 对Ftrain集合中的元素max-min标准化, 处理后的训练集表示为式(6).
$ \begin{array}{*{20}{l}} {F_{tr}^{'} = \left\{ {f_1^{'} ,f_2^{'} , \cdots ,f_m^{'} } \right\}}\\ {f_t^{'} = \left( {{f_t} - \mathop {\min \left\{ {{f_i}} \right\}}\limits_{1 \le j \le m} } \right)/\left( {\mathop {\max \left\{ {{f_j}} \right\}}\limits_{1 \le j \le m} - \mathop {\min \left\{ {{f_j}} \right\}}\limits_{1 \le j \le m} } \right)} \end{array} $ | (6) |
(2)构建训练输入以及对应的训练输出: 对数据集进行时间融合, 按照滑动窗口的大小s进行分割, 则模型输入、输出分别变为式(7)、式(8). 通过设置s的值, 旨在训练LSTM网络学习样本数据前后的关联及规律.
$\left\{ \begin{array}{*{20}{l}} {X = \left\{ {{X_1},{X_2}, \cdots ,{X_S}} \right\}}\\ {{X_{{p}}} = \left\{ {f_p^{'} ,f_{p + 1}^{'} , \cdots ,{f_{m - {\rm{s}} + p - 1}^{'}}} \right\}} \end{array}\right. $ | (7) |
$\left\{ \begin{array}{l} Y = \left\{ {{Y_1},{Y_2}, \cdots ,{Y_S}} \right\}\\ {Y_{\rm{p}}} = \left\{ {f_{p + 1}^{'} ,f_{p + 2}^{'} , \cdots ,f_{m - t + p}^{'} } \right\} \end{array}\right. $ | (8) |
(3)确定网络结构并初始化LSTM网络: 确定每层激活函数的选择、每层网络节点的舍弃率以及误差计算方式、权重参数迭代的更新方式. 给定初始权值矩阵, 设置最大迭代训练次数和最小误差值, 通过改变网络的各项参数来训练网络.
(4)前向计算: 将X输入网络, 根据前向计算公式(4)–(5)计算遗忘门、输入门以及输出门的值, 经过隐藏层后的输出结果可表示为: 其中CP–1和HP–1分别表示上一个LSTM细胞的状态以及隐含层的输出.
$ \left\{ {\begin{array}{*{20}{l}} {P = \left\{ {{P_1},{P_2}, \cdots ,{P_L}} \right\}}\\ {{P_p} = LST{M_f}\left( {{X_p},{C_{p - 1}},{H_{p - 1}}} \right)} \end{array}} \right. $ | (9) |
(5)误差反向传播: 采用批量梯度下降算法对训练数据进行批次(batch)划分, 通过对当前批次的损失函数进行优化, 实时调整LSTM网络的权值和偏置, 使网络误差不断减小, 既保证了参数的更新又减少了模型收敛所需要的迭代次数.
$loss = \sum\limits_{i = 1}^{L(m - L)} {{{\left( {{p_i} - {y_i}} \right)}^2}} /(L(m - L)) $ | (10) |
(6)将训练好的模型用于预测: 当迭代次数和最小误差值满足要求时停止训练模型, 并将未知的样本数据通过迭代输入模型得到预测序列Pte={pm+1, pm+2, …, pn}, 并对其进行反标准化处理得到最终预测序如式11.
$\left\{ \begin{array}{l} P_{te}^{'} = Anti\left( {{P_{te}}} \right) = \left\{ {p_{m + 1}^{'} ,p_{m + 2}^{'} , \cdots ,p_n^{'} } \right\}\\ p_k^{'} = {p_k}\left( {\mathop {\max \left\{ {{f_j}} \right\}}\limits_{1 \le j \le m} - \mathop {\min \left\{ {{f_j}} \right\}}\limits_{1 \le j \le m} } \right) + \mathop {\min \left\{ {{f_j}} \right\}}\limits_{1 \le j \le m} \end{array}\right. $ | (11) |
为评估基于LSTM的Web资源消耗预测模型的性能, 运用平均绝对误差(Mean Absolute Error, MAE)和均方根误差(Root Mean Squared Error, RMSE)作为评价指标来衡量模型的预测精度, 其计算公式分别如式(12)和式(13)所示.
$ MAE = \frac{1}{n}\sum\limits_{i = 1}^n {\left| {{p_t} - {y_t}} \right|} $ | (12) |
$ RMSE = \sqrt {\frac{1}{n}\sum\limits_{i = 1}^n {{{\left( {{p_t} - {y_t}} \right)}^2}} } $ | (13) |
其中, n为Web老化资源参数的样本数目, pt为老化资源参数的预测值, yt为老化资源参数的真实值或观测值, MAE和RMSE越小, 模型预测能力越好.
2 实验与结果分析由于软件老化是一个错误不断累积的过程, 一个Web系统出现老化现象时并不会立刻失效, 需要耗费很长时间才能观察到系统故障. 当前绝大多数的老化实验只是简单识别老化效应, 很难准确把握软件老化的整体趋势[13]. 因此针对软件老化的特性, 本文根据R. Matias等人提出的系统化方法, 将工业领域已成熟应用的加速测试理论[14]引入到软件领域, 通过监测软件系统的运行状况, 根据采集到的老化数据, 建立一个基于LSTM的Web资源消耗预测模型.
2.1 Web软件老化加速寿命实验为研究因内存泄漏而导致应用程序故障的老化效应, 本文以一个典型的Web应用服务器为研究对象, 搭建了一个引入内存泄漏的软件老化测试实验平台. 该平台由一个Web服务器, 一个数据库服务器以及一组模拟的客户端组成, 具体配置如表1所示.
服务器端实现了一个符合TPC-W基准测试规范的多层电子商务网站系统. 该系统模拟了一个在线售书网站, 包括主页、畅销页面、新书页面、搜索页面、购物车和订单状态页面等14种不同类型的网页, 并规定了一系列模拟真实环境下顾客的访问规则. 客户端则是一系列模拟浏览器(Emulated Browser, EB), 以会话(Session)为单位与服务器端建立逻辑请求, 按照上述规则访问服务器. 模拟浏览器可以产生三种不同类型的工作负载, 分别是Browsing类型、Shopping类型以及Ordering类型[15]. 因Shopping类型的工作负载处于Browsing和Ordering之间, 因此本实验客户端主要模拟Shopping这种类型的工作负载, 以随机生成的概率对不同页面进行访问.
内存泄漏是造成软件老化的一个重要原因, 因此内存使用情况是衡量软件老化的一个重要指标, 通过使用采集到的Java虚拟机(Java Virtual Machine, JVM)可用内存对Web资源消耗进行预测来验证LSTM预测模型的准确性. 为产生软件老化现象, 修改了服务器端商品查询请求的TPC-W_search_request_servlet类, 为其注入内存泄漏代码. 由于JVM有垃圾回收(Garbage Collection, GC)机制, 任何不再被引用的对象都会被垃圾回收器回收, 其占用的内存也会被释放以便新对象使用. 为模拟内存泄漏现象, 增加了一个HeapLeak类, 使得Tomcat的整个生命周期保持对该类HeapLeak对象的引用, HeapLeak对象在程序运行期间不会被垃圾回收器回收. 修改JVM堆内存的配置(表2), 使实验在受控环境下进行操作. 由于Java堆存的是对象实例, 所以当创建的对象实例数量达到最大堆容量限制后会造成堆溢出.
运行客户端, 每隔1秒采集一次JVM内存使用量, 实验持续14 400 s, 共4个小时, 采集到样本14 400个. 每30 s取一次均值, 得到实验数据(图3).
2.2 LSTM资源消耗预测建模本文使用Keras框架搭建并训练LSTM预测模型, 所使用的网络主要由循环层(Recurrent)中的LSTM层和全连接层(Dense)组成. 取前9650个点(真实时间近似2.6个小时)对未来4750个点(真实时间近似1.4小时)进行建模预测, 即使用67%的数据作为训练集, 33%的数据作为测试集. 根据2.3节提出的模型具体构建过程对标准化后的JVM内存序列建立一个含30个隐藏神经元的单层LSTM老化资源消耗预测模型, 根据网格搜索参数寻优法确定模型参数, 设置迭代次数epoch=20, batch=10, time steps=10, lr=0.001, 损失函数为MSE. 采用Adam(Adaptive Moment Estimation)算法对lr进行优化, 利用梯度的一阶矩和二阶矩估计动态调整每个参数的学习率, 使得lr平稳迭代, 模型参数有效更新. 由于深度神经网络含有多个网络层以及大量参数, 为防止模型发生过拟合现象, 采用Dropout对数据进行正则化处理即在每轮权重更新时随机选择隐去一些节点, 从而限制模型单元之间的协同更新[16]. 该模型使用的Dropout为0.5, 即含有Dropout的网络层在训练过程中, 会有50%的节点被抛弃.
2.3 实验分析
为验证LSTM模型在循环神经网络中的优势, 将LSTM中的隐含层单元替换为RNN结构, 按照上述相同参数进行实验, 结果如图4所示. 该图从整体上反映出了RNN以及LSTM资源消耗预测模型的预测能力, 其中实线表示真实值, 虚线表示测试值. 由图4可知两种预测模型测试值与真实值接近, 预测趋势与实际资源消耗趋势基本一致, 对于出现较大波动处的点也有较好的拟合, 说明RNN以及LSTM模型能有效地对软件老化趋势进行预测.
由2种模型对应的损失函数图5(a)、5(b)可知: 在老化资源时序预测问题上, 相比于RNN, LSTM算法训练过程相对稳定, 测试集上的误差波动较小.
为进一步验证LSTM的预测能力, 将其与传统预测方法: ARIMA以及BP神经网络做对比, 实验结果如下图6所示, 由图可知LSTM模型的拟合程度更好. 通过对3种不同预测模型的评价指标进行对比, 由表3可知, 采用LSTM网络预测算法在预测Web老化资源时, 预测精度明显高于其他两种算法.
3 结束语
软件老化是影响软件系统可靠性的重要潜在因素, 本文以一个典型的Web应用服务器为实例, 通过随机注入内存泄漏的方式设计加速寿命测试实验来加速系统老化过程, 根据获取的老化数据构建了基于LSTM的Web服务器资源消耗预测模型. 结果证明该预测模型与Web服务器资源老化趋势一致, 拟合度很高, 能准确地描述软件老化现象. 与ARIMA以及BP神经网络相比预测度高、泛化能力好、误差较小, 说明LSTM网络模型能够很好地描述Web服务器资源的动态、非线性变化规律, 适用于老化参数的时间序列建模.
[1] |
Yan YQ. Variance analysis of software ageing problems. IET Software, 2018, 12(1): 41-48. DOI:10.1049/iet-sen.2016.0290 |
[2] |
Kolettis N, Fulton N D. Software rejuvenation: Analysis, module and applications. Twenty-Fifth International Symposium on Fault-Tolerant Computing. Washington, DC, USA, 1995. 381–390.
|
[3] |
Torquato M, Araujo J, Umesh I M, et al. SWARE: A methodology for software aging and rejuvenation experiments. Journal of Information Systems Engineering & Management, 2018, 3(2): 15. |
[4] |
梁佩. 基于WEB技术的软件老化趋势预测研究[硕士学位论文]. 哈尔滨: 哈尔滨工程大学, 2013.
|
[5] |
苏莉, 齐勇, 金玲玲, 等. 基于非线性多参数模型的软件老化检测. 计算机科学, 2013, 40(1): 161-165, 170. DOI:10.3969/j.issn.1002-137X.2013.01.037 |
[6] |
Jia SQ, Hou CY, Wang JS. Software aging analysis and prediction in a web server based on multiple linear regression algorithm. 2017 IEEE 9th International Conference on Communication Software and Networks. Guangzhou, China. 2017. 1452–1456.
|
[7] |
渊岚. 基于人工神经网络的软件系统老化预测研究[硕士学位论文]. 西安: 西安建筑科技大学, 2016.
|
[8] |
闫永权, 郭平. 使用混合模型预测Web服务器中的资源消耗. 计算机科学, 2016, 43(10): 47-52. DOI:10.11896/j.issn.1002-137X.2016.10.008 |
[9] |
LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521(7553): 436-444. DOI:10.1038/nature14539 |
[10] |
梁天新, 杨小平, 王良, 等. 记忆神经网络的研究与发展. 软件学报, 2017, 28(11): 2905-2924. DOI:10.13328/j.cnki.jos.005334 |
[11] |
Sak H, Senior A, Beaufays F. Long short-term memory recurrent neural network architectures for large scale acoustic modeling. Fifteenth Annual Conference of the International Speech Communication Association. Singapore. 2014. 338–342.
|
[12] |
Cortez B, Carrera B, Kim Y J, et al. An architecture for emergency event prediction using LSTM recurrent neural networks. Expert Systems with Applications, 2018, 97: 315-324. DOI:10.1016/j.eswa.2017.12.037 |
[13] |
Zhao J, Jin YL, Trivedi KS, et al. Software rejuvenation scheduling using accelerated life testing. ACM Journal on Emerging Technologies in Computing Systems, 2014, 10(1): 1-23. |
[14] |
Yin YC, Coolen FPA, Coolen-Maturi T. An imprecise statistical method for accelerated life testing using the power-Weibull model. Reliability Engineering & System Safety, 2017, 167: 158-167. |
[15] |
Bezenek T, Cain T, Dickson R, et al. TPC-WBenchmark. http://pharm.ece.wisc.edu/tpcw.shtml.
|
[16] |
Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: A simple way to prevent neural networks from overfitting. Journal of Machine Learning Research, 2014, 15(1): 1929-1958. |