随着社交媒介的迅猛发展, 社交媒介平台成为股市参与者分享、获取和发布观点信息的重要渠道, 这些信息对股市的影响日益凸显, 通过社交媒介观点信息的精确情感量化, 构建股市预测模型, 有助于提升市场预测水平, 增加投资者决策依据. 近年来, 行为金融学的研究成果表明, 投资者是非理性的, 其情绪对股市收益产生重要影响. 社交媒介中大众的情感表达捕捉股民心理情绪, 基于情感分析可用于股市预测. 因此股市预测可融合社交媒介数据, 借助基于情感分析的智能预测模型进行建模预测. 研究学者们基于社交媒介情感分析的股市预测进行了许多有益的研究[1]. 在传统的股市预测模型中, 由于社交媒介尚未出现, 缺乏可以利用的社交媒介信息; 在社交媒介广泛应用以来, 虽然情感信息作为重要的因素被引入到现有预测模型中, 但是缺乏针对股市特定的情感量化, 严重限制了预测精度. 因此, 股市预测研究中存在着大众情感度量不够全面等问题. 为此, 本文建立了一种基于社交情感分析的股市预测模型. 首先, 基于异构图模型的证券情感量化方法对多个社交媒介的数据进行情感分析. 然后, 基于自组织神经网络模型对情感序列及行情指数序列进行建模, 分析情感与行情指数的关系, 尝试对股票指数进行预测.
2 相关工作股票作为投资领域重要的工具之一, 股票价格的波动以及能否被预测一直是证券领域最受关注的问题之一. 股市预测作为重要的研究内容得到了广泛关注. 国内外研究学者对于股市预测模型进行了深入的研究, 预测方法大体可以分成两大类: 以统计原理为基础的预测模型和智能预测模型. 以统计原理为基础的预测模型中具有代表性是自回归条件异方差(ARCH)模型和随机波动(SV)模型; 而智能预测模型则以支持向量机、神经网络等模型为基础进行股市的预测.
2.1 以统计原理为基础的预测模型(1) GARCH模型
国内外学者对ARCH模型以及变种模型进行了大量研究, 研究结果也表明该模型在时间序列预测方面具有不错的性能. 如魏巍贤等[2]应用广义自回归条件异方差(GARCH)模型及其两种非线性修正模型(QGARCH模型和GJR模型)预测中国股票市场的波动. 赵华等[3]基于误差项服从正态分布、t分布、广义误差分布的GARCH族模型和MRS—GARCH模型对中国股市波动的结构变化特征进行了验证研究. 杨继平等[4]将马尔科夫结构与GARCH模型相结合, 提出基于马尔可夫结构转换参数与非参数GARCH(MRS-GARCH)模型对我国沪深股市的波动率进行估计和预测. 曾慧[5]采用ARCH模型及其扩展模型对上证综合指数的波动性进行验证研究.
(2) SV模型
Yu等[6]应用基本SV模型对新西兰的股市进行预测, 预测结果表明SV模型在股市预测方面具有良好性能. Durham[7]提出充分利用混合SV模型在获取数据显著特征上的优势, 运用混合SV模型对标普500指数进行预测, 取得了不错的效果. 杨克磊等[8]利用随机波动模型对上海股市和深圳股市的波动特性进行建模和比较分析. 周彦等[9]利用基于Markov链的Monte Carlo模拟积分方法对连续时间的SV模型进行估计, 选取上海股市的日综合指数进行验证研究. 梁艳等[10]通过建立扩展的SV模型, 分析了隔夜信息对上证综合指数、深圳成分指数和香港恒生指数的影响, 发现隔夜信息对三大股指均有预测能力. 上述Garch模型以及SV模型等以统计原理为基础的预测模型只有在大型样本集以及样本分布较好的情况才取得较好的效果. 因此学者们对股市的智能预测模型进行了积极探索.
2.2 智能预测模型(1)支持向量机模型
支持向量机(Support Vector Machine, SVM)是Corinna Cortes和Vapnik等[11]于1995年依据统计学习理论首先提出的, 它在解决小样本、非线性及高维模式识别中有特定的优势, 是有监督的学习模型. 研究学者将支持向量机模型运用于股票价格的预测. P.F. Pai等[12]充分利用ARIMA和SVM模型的优点, 将两个模型融合在一起提出ARIMA-SVM模型用于股票价格的预测. 杨耀宇[13]基于主成分分析和支持向量回归机股市预测模型对沪深300指数进行验证研究, 研究结果表明该模型的有效性. 李坤等[14]将小波理论与支持向量机方法相结合, 结合了二者的优势, 提出了一种小波支持向量机回归的股票预测模型. 该模型引入小波基函数来构造支持向量机的核函数, 得到了一个新的支持向量机模型, 实验取得了良好的效果. 陈彭冰等[15]基于时序数据的先验知识对传统的支持向量机的回归模型做了一定的改进, 构建了改进的支持向量回归机模型, 并使用该模型对中国股票市场指数时间序列进行了预测, 预测结果表明了改进模型的有效性.
(2)神经网络模型
神经网络不需要建立所要研究的问题的精确逻辑和数学模型, 而是模仿人脑的思维方式构造神经网络算法, 只要直接输入数据就可以得到结果, 在解决具有复杂的不确定性的问题上具有良好效果, 但是神经网络的缺点是容易过拟合和得到局部最优解. 许多研究学者运用神经网络对股市进行预测. 王上飞等[16]从非线性时间序列预测的角度出发, 将径向基(Radial Basis Function, RBF)神经网络应用于股票预测, 取得了较好的预测效果. 杜爱玲等[17]设计BP (Back Propagation)网络、RBF网络及广义回归神经网络(Genera-lized Regression Neural Network, GRNN), 并对各种网络在股市预测中的应用进行了比较分析. 杨帆[18]研究了利用遗传算法对神经网络的权值和阈值进行优化, 以提高预测的速度和精度. 采用上证50指数进行了验证分析. 把指数价格前一天的收盘价和当天的开盘价作为输入样本, 预测当天的收盘价. 李聪[19]运用BP神经网络模型对股票指数期货价格进行预测. 马东宇[20]提出基于Gaussian型RBF神经网络模型对股市进行预测. 研究表明基于神经网络的股市预测模型是可行的且具有良好的应用前景. 综上, 将股市预测模型方法总结如表1所示.
这些模型均从股票指数本身因素出发研究股市的变化进行预测, 未充分结合外部因素. 因此研究学者们还研究在上述模型之中融合各种影响股市的因素进行股市的有效预测. 随着社交媒介的快速发展, 基于情感分析的股市预测研究也引起了国内外学者的广泛关注. Gilbert和Karahalios等[21]利用LiveJournal博客数据构建了评估大众的恐慌情绪指数, 通过格兰杰因果框架分析发现大众恐慌情绪的增强可以预测标普500指数的下降趋势. 通过研究结果表明结合社交情感分析的结果有利于股市的预测. 因此本文将基于神经网络模型充分融合社交媒介分析的结果进行股市预测的研究.
3 融合社交情感分析的神经网络预测 3.1 情感量化文献[22]中分析了不同情感量化的方法, 并基于前人研究的基础提出了异构图模型对微博等短文本进行情感量化, 充分融合上下文的信息, 通过真实的数据也证实了方法的有效性. 因此本文采用异构图模型对社交媒介的帖子进行情感量化. 该方法的核心关键是计算证券情感词的权重, 为了获取证券领域的情感倾向, 在利用该方法进行帖子的情感量化时, 所基于的倾向性文档集采用了证券领域带有倾向性的文档. 证券情感量化具体过程按如下步骤进行:
1)预处理: 对证券倾向性文档进行预处理, 包括去除标点符号、网页链接、表情符号、特殊符号等噪声, 分词, 去除停用词.
2)基于异构图的证券情感词赋权: 为了获取证券领域特定情感词的权重, 通过二分连接图采用迭代计算的方式获得证券情感词权重.
3)情感量化: 基于情感词统计的方法量化每个文档帖子中的情感.
3.2 预测模型构建本文构建了融合社交情感分析的自组织模糊神经网络模型(IS_SOFNN)应用于股指的预测, 充分利用模型自组织、自适应的特性, 挖掘多源情感指数的内在规律, 提升股指预测的精确度.
融合股吧情感量化的结果采用自组织模糊神经网络模型进行股指的预测, 其整个预测流程如图1所示.
输入的时间序列为历史股票指数、基于股吧情感量化的情感指数, 经过自组织模糊神经网络的学习预测, 输出预测的股票指数. 其中自组织神经网络模型结构如图2所示.
第一层为输入层, 输入历史的股票指数和情感指数, 通过式(1)计算, 其中股票指数以及情感指数表示成向量
$\begin{align}X(t) & = ({x_1}(t),{x_2}(t), \cdots ,{x_n}(t))\\ & = (y(t),y(t - \tau ), \cdots ,y(t - (n - 1)\tau))\end{align}$ | (1) |
第二层为模糊化层, 这一层节点被分为多个组, 每一组代表一条模糊规则的前件部分, 每一节点通过式(2)计算输入变量的隶属度值, 其中mij和σij分别表示节点的均值和方差.
${B_{ij}}({x_i}(t)) = \exp \{ - \frac{{{{({x_i}(t) - {m_{ij}})}^2}}}{{2\sigma _{ij}^2}}\} $ | (2) |
第三层用于实现模糊逻辑规则的前提匹配, 规则节点完成模糊“与”运算, 如式(3)所示, 其中,
${\lambda _k}(X(t)) = \prod\limits_{i = 1}^n {{B_{io}}({x_i})} $ | (3) |
第四层连接实现模糊“或”运算, 把具有同样结果的激发规则通过式(4)和式(5)进行集成, 其中μ和σ分别为输出的均值和方差,
$\mu (X(t),{w_{\mu k}}) = \frac{{\sum\nolimits_{k = 1}^K {{\lambda _k}{w_{\mu k}}} }}{{\sum\nolimits_{k = 1}^K {{\lambda _k}} }}$ | (4) |
$\sigma (X(t),{w_{\sigma k}}) = \frac{{\sum\nolimits_{k = 1}^K {{\lambda _k}{w_{\sigma k}}} }}{{\sum\nolimits_{k = 1}^K {{\lambda _k}} }}$ | (5) |
第五层为输出层, 输出预测值, 如式(6)所示, 其中W表示权重
$\pi (\hat y(t + 1),W,X(t)) = \frac{1}{{\sqrt {2\pi \sigma } }}\exp \{ - \frac{{{{(\hat y(t + 1) - \mu )}^2}}}{{2{\sigma ^2}}}\} $ | (6) |
融合社交情感分析的自组织模糊神经网络预测算法如表2所示.
4 模型验证 4.1 数据集东方财富网以其用户量、活跃度和影响力等成为股民最常用的社交媒介, 因而本文股吧数据采自于东方财富网股吧(http://guba.eastmoney.com). 同时采用最被广泛运用的情感词汇——知网来作为本文情感分析的词典基础. 为了验证本文所量化情感对股市变化影响的作用, 以及融合该情感神经网络模型的有效性, 在股吧的数据集上进行验证.
4.2 评价指标
本文采用评价预测结果好坏的评价指标分别为平均绝对百分比误差和涨跌准确率, 其中涨跌准确率衡量的是股市趋势预测的准确性, 当预测的指数与实际指数变化方向一致时, 表明预测正确, 而后统计预测正确的次数占总预测次数的比例, 以此衡量预测精度. 当预测结果与真实结果越接近时, 平均绝对百分比误差越小, 其涨跌准确率越高. 这两个指标通过式(7)和式(8)计算.
1)平均绝对百分比误差: Mean Absolute Percentage Error (MAPE)
$MAPE = \frac{{\sum\limits_{i = 1}^N {|(G{Z_i} - {y_i})/G{Z_i}|} }}{N}$ | (7) |
其中N表示统计天数, yi为第i天的预测指数, GZi为第i天的股票指数.
2)涨跌准确率: Direction accuracy (up or down)
${\rm{DirectionAccuracy}} = {\rm{(}}\sum\limits_{{\rm{i}} = {\rm{2}}}^{\rm{N}} {{\theta _{\rm{i}}}} )/(N - 1)$ | (8) |
其中, N表示统计的天数, θ表示涨跌方向是否一致, 通过式(9)计算.
${\theta _i} = \left\{ {\begin{array}{*{20}{c}}{1,\begin{array}{*{20}{c}}{}&{({y_i} - {y_{i - 1}})*(G{Z_i} - GZ{}_{i - 1}) > 0}\end{array}}\\{0,\begin{array}{*{20}{c}}{}&{({y_i} - {y_{i - 1}})*(G{Z_i} - GZ{}_{i - 1}) < 0}\end{array}}\end{array}} \right.$ | (9) |
其中yi为第i天的预测指数, GZi为第i天的沪深300指数.
利用文献[22]中的异构图模型对东方财富网股吧的短文本内容进行情感量化, 得到的情感序列曲线与沪深300指数的叠加图如图3所示. 由图3可以看出基于股吧数据的情感指数曲线与沪深300指数的曲线升降趋势较为一致, 表明了在这一段时间内大众在股吧所表现的情感较好地反映在了股票指数上.
对股吧情感指数与沪深300指数进行格兰杰因果检验分析, 格兰杰因果检验结果如表2所示.
由表2可知P=0.012, P<0.05, 因此通过上述计算的情绪指数是引起沪深300指数变化的格兰杰原因. 其分析结果更进一步表明了基于股吧的大众情感指数与沪深300指数具有紧密联系.
为了验证本文提出的预测模型的有效性, 本文同样采用融合情感指数的BP神经网络预测模型(IS_BP)进行预测实验, 针对实验结果进行比较. 基于IS_BP模型对沪深300指数进行预测的实验结果如图4所示, 基于IS_SOFNN模型对沪深300指数进行预测的实验结果如图5所示. 通过图5和图6对比, 可以看出在5月11日至5月28日期间以及6月10日至6月17日期间, IS_SOFNN模型预测出的指数与真实的沪深300指数较为接近, 而在其他时间段预测结果却有一定偏差. 通过图6可知, 基于股吧数据预测的指数曲线大部分点围绕在真实沪深300指数曲线上, 表明本文所提出的模型具有一定的预测效果.
数据预测结果如表3所示, 基于IS_SOFNN模型预测结果的MAPE值和涨跌准确率两个评价指标均优于基于IS_BP模型预测的结果, 说明了本文提出的模型能有效提升预测性能.
现有基于社交媒介的股市预测研究中, 大都基于宏观的角度分析大众情感用于预测, 而对于行业板块的分析较少. 本文利用股吧数据的特性, 将其分行业进行研究. 取申万行业指数代表行业的整体状况, 运用IS_SOFNN模型对银行和非银金融行业进行预测.
银行行业情感指数与银行行业指数对比如图6所示. 银行行业情感曲线和银行行业指数曲线的走势较为一致, 股吧上有关银行行业的情感较能反映股市中银行行业整体的状况.
基于情感指数预测的股指与银行行业指数对比如图7所示. 由图7可知, 基于股吧银行情感指数预测的股指曲线与银行行业指数曲线升降趋势较为一致, 点数预测也较为接近.
银行行业指数的预测结果如表4所示, 其预测结果的MAPE值为3.3%, 涨跌准确率为76.19%, 两个评价指标均优于基于股吧整体数据预测的结果.
非银金融行业情感指数与非银金融行业指数对比如图8所示. 由图8可以看出, 非银金融行业的情感曲线和非银金融行业指数曲线的走势较为一致, 股吧上有关非银金融行业的情感较能反映股市中非银金融行业整体的状况.
基于情感指数预测的股指与非银金融行业指数对比如图9所示. 由图9可知, 基于股吧非银金融情感指数预测的股指曲线与非银金融行业指数曲线升降趋势较为一致, 点数预测也较为接近.
非银金融行业指数的预测结果如表5所示, 其预测结果的MAPE值为1.9%, 涨跌准确率为80.95%, 两个评价指标均优于基于股吧整体数据预测的结果. 以上两个分行业的验证研究表明, 在股吧数据中分行业进行预测研究, 其针对性, 主题性更强, 其预测的结果也更好.
5 结束语
本文针对以往研究对大众情感的度量不够全面的问题, 通过研究社交媒介数据进行大众情感分析, 并基于该情感指数利用神经网络模型进行股票指数的预测研究, 提出融合社交情感分析的自组织模糊神经网络模型. 实验结果表明, 与融合情感得分的BP神经网络预测模型相比, 本文提出的模型能更好地预测股票指数. 最后本文从更加微观的角度研究股市的预测, 在银行和非银金融行业上进行预测分析, 其结果表明细粒度的情感分析对于行业指数的预测具有更佳的性能, 其针对性更强.
[1] |
Bollen J, Mao HN, Zeng XJ. Twitter mood predicts the stock market. Journal of Computational Science, 2011, 2(1): 1-8. DOI:10.1016/j.jocs.2010.12.007 |
[2] |
魏巍贤, 周晓明. 中国股票市场波动的非线性GARCH预测模型. 预测, 1999(5): 47-49. |
[3] |
赵华, 蔡建文. 基于MRS-GARCH模型的中国股市波动率估计与预测. 数理统计与管理, 2011, 30(5): 912-921. |
[4] |
杨继平, 袁璐, 张春会. 基于结构转换非参数GARCH模型的VaR估计. 管理科学学报, 2014, 17(2): 69-80. |
[5] |
曾慧. ARCH模型对上证指数收益波动性的实证研究. 统计与决策, 2005(6): 97-98. |
[6] |
Yu J. Forecasting volatility in the New Zealand stock market. Applied Financial Economics, 2002, 12(3): 193-202. DOI:10.1080/09603100110090118 |
[7] |
Durham GB. SV mixture models with application to S&P 500 index returns. Journal of Financial Economics, 2007, 85(3): 822-856. DOI:10.1016/j.jfineco.2006.06.005 |
[8] |
杨克磊, 毛明来, 徐正国. 随机波动模型的沪深股市比较研究. 天津大学学报(社会科学版), 2004, 6(4): 334-338. |
[9] |
周彦, 张世英. 基于MCMC方法的连续时间SV模型建模研究. 工业工程, 2007, 10(1): 83-86. |
[10] |
梁艳, 徐元华. 基于不对称SV模型的隔夜信息对股市影响研究. 大连理工大学学报(社会科学版), 2011, 32(3): 34-38. |
[11] |
Cortes C, Vapnik V. Support-vector networks. Machine Learning, 1995, 20(3): 273-297. |
[12] |
Pai PF, Lin CS. A hybrid ARIMA and support vector machines model in stock price forecasting. Omega, 2005, 33(6): 497-505. DOI:10.1016/j.omega.2004.07.024 |
[13] |
杨耀宇. 基于支持向量机的沪深300指数预测研究[硕士学位论文]. 上海: 上海师范大学, 2014.
|
[14] |
李坤, 谭梦羽. 基于小波支持向量机回归的股票预测. 统计与决策, 2014(6): 32-36. |
[15] |
陈懿冰, 张玲玲, 聂广礼, 等. 基于改进的支持向量回归机的金融时序预测. 数学的实践与认识, 2012, 42(4): 38-44. |
[16] |
王上飞, 周佩玲, 吴耿峰, 等. 径向基神经网络在股市预测中的应用. 预测, 1998(6): 44-46. |
[17] |
杜爱玲, 武敬. 神经网络在股市预测中的应用——基于BP, RBF与GRNN. 经营管理者, 2014(11): 394. |
[18] |
杨帆. 基于遗传神经网络算法的股票预测研究[硕士学位论文]. 兰州: 兰州大学, 2013.
|
[19] |
李聪. 基于BP神经网络的股票指数期货价格预测[硕士学位论文]. 青岛: 青岛大学, 2012.
|
[20] |
马东宇. 基于Gaussian型RBF神经网络的函数逼近与应用[硕士学位论文]. 长沙: 中南大学, 2011.
|
[21] |
Gilbert E, Karahalios K. Widespread worry and the stock market. Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media. Washington, DC, USA. 2010. 58–65.
|
[22] |
Liao XW, Chen H, Wei JJ, et al. A weighted lexicon-based generative model for opinion retrieval. 2014 International Conference on Machine Learning and Cybernetics (ICMLC). Lanzhou, China. 2014. 821–826.
|