﻿ 基于贝叶斯网络模型的高校贫困生预测实证分析
 计算机系统应用  2019, Vol. 28 Issue (1): 262-268 PDF

Empirical Analysis on Poor Student Predict in College and University Based on Bayesian Network Model
LI Bin, WANG Wei-Xing, HU Yi-Feng, WANG Ping
Modern Education Technology Center, School of Information Engineering, Henan University of Science and Technology, Sanmenxia 472000, China
Foundation item: Education Bureau Program for Teaching Reform and Practice of Higher Education, Henan Province (2017SJGLX636); Research Topics of Henan Social Science Federation and Henan Economic League Federation in 2018 (SKL-2018-665)
Abstract: Bayesian network performs probabilistic inference for network model by determining variable node network structure and parameter learning, under the condition of sample data is not too big, an accurate prediction results can be obtained. The training sample data are selected from each data platform for the standardization of college and university student behavior, which is used to build a Bayesian network and to learn the parameters by the network to get the inference model, and then the poverty status of college students is predicted by the model. The predict results show that there are no significant differences between the predict results and the actual samples. Thus the poverty level of college student can be accurately determined by data analysis.
Key words: Bayesian network     poor students     predict

1 高校贫困生判定方案设计 1.1 现阶段环境下的贫困生判定

1.2 贫困生的界定特征构建

2 构建高校贫困生等级预测模型 2.1 高校贫困生预测的贝叶斯网络模型

2.2 高校贫困生预测的贝叶斯网络拓扑结构

1) X是网络中节点的集合, ${{{X}}_{{i}}} \in {\rm{X}}$ 表示一个限制定义域的随机变量; A是网络中有向边的集合, ${{{a}}_{{{ij}}}} \in {\rm{A}}$ 表示节点之间的直接依赖关系,aij表示XiXj之间的有向连接, ${{{X}}_{{i}}} \leftarrow {{{X}}_{{j}}}$ .

 图 1 高校贫困生判定模型的构建方法

2) 确定每个网络参数 ${\theta _i}$ 的取值和状态空间数, ${\theta _i} \in {\rm{\theta }}$ 表示与节点Xi相关的条件概率分布函数, 是结点的概率取值, 因此, 贝叶斯网络所表示的所有节点的联合概率就可以表示为各节点条件概率的乘积:

 $P\left( {{X_1},{X_2}, \cdots, {X_n}} \right) = \prod\limits_{i = 1}^n {p\left( {{X_1}{\rm{|}}{X_2}, \cdots {X_n}} \right)} {\rm{ = }}\prod\limits_{i = 1}^n {p\left( {\pi {X_i}{\rm{|}}\left( {{X_1}} \right)} \right)}$

3) 贝叶斯网络蕴涵了条件独立性假设, 即给定一个节点的父节点集, 该节点独立于它的所有非后代节点. 因此分析每个网络参数 ${\theta _i}$ 的之间及其与Xi之间的因果依赖关系继而进行条件独立性分析.

4) 完成贝叶斯网络的DAG(有向无环图)结构, 也就是高校贫困生预测模型的贝叶斯网络拓扑结构, 如图2所示[17,18].

 图 2 贫困生判定的贝叶斯网络拓扑结构

2.3 贝叶斯网络节点参数学习

 $L\left( {\theta |{\rm K}} \right) = P\left( {{\rm{K|}}\theta } \right) = \prod\limits_{i = 1}^m {p\left( {{\rm{K|}}\theta } \right)}$

 $l\left( {\theta |{\rm K}} \right) = \log L\left( {\theta |{\rm K}} \right) = \log \left( {\prod\limits_{i = 1}^m {p\left( {{{{K}}_i}{\rm{|}}\theta } \right)} } \right) = \sum\limits_{i = 1} {\log } p\left( {{{{K}}_i}{\rm{|}}\theta } \right)$

 $l\left( {\theta |{{\rm K}^{{t}}}} \right) = \sum\limits_{l = 1}^m {\sum\limits_{{x_l} \in {X_l}} {P\left( {{X_l} = {x_l}|{K_l},{\theta ^t}} \right)} } \log P\left( {{{{K}}_i},{X_l} = {x_l}|\theta } \right)$

2.4 贝叶斯网络推理和预测

3 应用分析与实证

3.1 预测因子的选取和数据的清洗

3.2 数据离散化和贝叶斯网络参数学习

 图 3 贝叶斯网络结构概率参数

3.3 模型的有效符合度测试

4 结论

 图 4 SPSS对300组数据的独立样本T检验结果

 [1] 罗丽琳. 大数据视域下高校精准资助模式构建研究. 重庆大学学报(社会科学版), 2018, 24(2): 197-204. DOI:10.11835/j.issn.1008-5831.2018.02.017 [2] 穆扬, 张永福. 高校贫困生认定体系的重构. 西北工业大学学报(社会科学版), 2017, 37(1): 70-73, 77. [3] 宋德昌. 基于校园卡的学生经济状况评价方法研究. 中山大学学报(自然科学版), 2009, 48(S1): 9-11. [4] 段旭梅, 胡梦英, 钟俊男. 构建高校贫困生认定的数学模型及其应用. 吉林省教育学院学报, 2015, 31(5): 150-151. DOI:10.16083/j.cnki.1671-1580.2015.05.067 [5] 樊搏, 姜玉国. 基于数据挖掘的贫困生认定辅助系统设计. 软件开发与应用, 2015, 14(12): 134-135. [6] 张林. 基于差分隐私保护技术的高校贫困生认定系统设计. 计算技术与自动化, 2017, 36(3): 151-156. DOI:10.3969/j.issn.1003-6199.2017.03.031 [7] 史甜. 数据挖掘在高校贫困生认定系统中的应用研究[硕士学位论文]. 西安: 西安科技大学, 2017. 6. [8] 王平, 龚文涛. 基于SOA的高校贫困生认定体系的研究. 微型电脑应用, 2015, 31(10): 55-56, 59. [9] 龙钊, 梁静, 蒋志成. 基于灰色BP神经网络的高校贫困生认定模型. 教师, 2015(23): 125-126. [10] 张建明. 基于数据挖掘的高校贫困生认定系统设计和分析[硕士学位论文]. 南京: 东南大学, 2015. 6. [11] Jensen F. An Introduction to Bayesian Networks. New York: Springer, 1996. [12] Broom BM, Do KA, Subramanian D. Model averaging strategies for structure learning in Bayesian networks with limited data. BMC Bioinformatics, 2012, 13(Suppl 13): S10. [13] 乔秀全, 李晓峰, 廖建新. 基于贝叶斯网络的业务上下文认知模型构建方法. 电子与信息学报, 2008, 30(2): 464-467. [14] Huang S, Li J, Ye JP, et al. A sparse structure learning algorithm for Gaussian Bayesian network identification from high-dimensional data. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(6): 1328-1342. DOI:10.1109/TPAMI.2012.129 [15] De Campos LM, Castellano JG. Bayesian network learning algorithms using structural restrictions. International Journal of Approximate Reasoning, 2007, 45(2): 233-254. DOI:10.1016/j.ijar.2006.06.009 [16] 陈友玲, 张岳园, 凌磊, 等. 基于贝叶斯网络的个体隐性知识测度方法研究. 计算机应用研究, 2019, 36(6). DOI:10.3969/j.issn.1001-3695.2017.12.0799 [17] 李硕豪, 张军. 贝叶斯网络结构学习综述. 计算机应用研究, 2015, 32(3): 641-646. DOI:10.3969/j.issn.1001-3695.2015.03.001 [18] 化虎蝶, 王晨祥. 基于贝叶斯网络的大连市空气质量预测与诊断. 安全与环境工程, 2018, 25(1): 58-63. DOI:10.13578/j.cnki.issn.1671-1556.2018.01.010 [19] 范敏. 基于贝叶斯网络的学习与决策方法研究及应用[博士学位论文]. 重庆: 重庆大学, 2008. [20] 张连文, 郭海鹏. 贝叶斯网引论. 北京: 科学出版社, 2006. [21] Leray P, Francois O. Bayesian network structural learning and incomplete data. International and Interdisciplinary Conference on AKRR. Espo, Finland. 2005. [22] Zheng MK, Ming XG, Zhang XY, et al. MapReduce based parallel bayesian network for manufacturing quality control. Chinese Journal of Mechanical Engineering, 2017, 30(5): 1216-1226. DOI:10.1007/s10033-017-0179-0 [23] 黄良斌. 高校贫困生认定标准与认定模型研究. 职业教育研究, 2012(4): 11-12. [24] 张文彤, 邝春伟. SPSS统计分析基础教程. 2版. 北京: 高等教育出版社, 2011. [25] 陈小燕. 机器学习算法在数据挖掘中的应用. 现代电子技术, 2015, 38(20): 11-14. DOI:10.16652/j.issn.1004-373x.2015.20.030 [26] 黄卿, 谢合亮. 机器学习方法在股指期货预测中的应用研究——基于BP神经网络、SVM和XGBoost的比较分析. 数学的实践与认识, 2018, 48(8): 297-307. [27] 翟社平, 郭琳, 高山, 等. 一种采用贝叶斯推理的知识图谱补全方法. 小型微型计算机系统, 2018, 39(5): 995-999.