计算机系统应用  2023, Vol. 32 Issue (6): 212-220   PDF    
基于人工智能的高校学生表现预测模型
陈立军, 潘正军, 陈孝如     
广州软件学院 软件工程系, 广州 510990
摘要:教育是实现可持续发展目标的重要推动因素, 为了实现可持续发展目标, 人工智能(AI)是一项蓬勃发展的技术, 人们对理解学生行为和评估学生表现越来越感兴趣, 人工智能在改善教育方面有着巨大的潜力, 因为它已经开始在教育领域被开发出创新的教学方法, 以创造更好的学习. 介绍了一种基于人工智能的分析工具, 用于预测某所大学一年级信息技术课的学生表现, 建立了基于随机森林的分类模型, 预测第6周学生的学习成绩, 准确率为97.03%, 敏感性为95.26%, 特异性为98.8%, 精密度为98.86%, 马修斯相关系数为94%, 证明了这种方法在预测学生课程的早期表现, 非常有用. 在COVID-19疫情期间, 实验结果表明, 建议的预测模型满足预测虚拟教育系统中学生的学习行为要素所需的准确性、精确度和召回率.
关键词: 可持续发展    人工智能    高等教育    机器学习    数据分类    预警系统    学生成绩预测    
Artificial Intelligence-based Model for Predicting Student Performance in Higher Education
CHEN Li-Jun, PAN Zheng-Jun, CHEN Xiao-Ru     
Department of Software Engineering, Software Engineering Institute of Guangzhou, 510990, China
Abstract: Education is an important enabler for achieving sustainable development goals (SDGs). Artificial intelligence (AI) is a booming technology, and people are showing increasing interests in understanding students’ behavior and evaluating their performance. For the SDGs, AI has great potential to improve education as it has started to be developed in the education field with innovative teaching methods to create better learning. This study presents an artificial intelligence-based analytic tool for predicting the performance of students in a first-year information technology course at a university. A random forest-based classification model is built to predict students’ performance in Week 6, and the model reports the accuracy of 97.03%, sensitivity of 95.26%, specificity of 98.8%, precision of 98.86%, and the Mathews correlation coefficient of 94%. The result demonstrates that this method is useful in predicting the early performance of students in courses. During the COVID-19 pandemic, experimental results showed that the proposed prediction model met the accuracy, precision, and recall required to predict elements of students’ learning behavior in a virtual education system.
Key words: sustainability     artificial intelligence (AI)     higher education     machine learning     data classification     early warning systems     student performance prediction    

人工智能(AI)、连接性(物联网)、信息数字化、增材制造(如3D打印)、虚拟或增强现实、机器学习、区块链、机器人、量子计算和合成生物学, 都是数字革命可以帮助促进可持续发展目标(SDGs)的技术[1]. 同样, 数字化转型将从根本上影响全球社区和经济的许多方面, 导致可持续发展范式的解释方式发生转变, 数字化是颠覆性、多尺度变化的关键驱动力, 而不仅是解决可持续性问题的“工具”, 数字革命已经在重塑休闲、工作、教育、行为和治理等方面发挥重要作用. 一般来说, 这些贡献可以提高劳动、能源、资源和碳生产力以及降低生产成本, 改善服务的获取, 并使生产非物质化, 数字资源的快速增长影响了教育部门可持续发展目标.

全球领导人在2015年批准的联合国可持续发展目标的议程中, 包括减缓气候变化、消除贫困和普及教育[1], 今天, 在所有职能部门实现可持续发展目标是非常重要的, 而在实现这些可持续发展目标中, 教育的作用是至关重要的, 可持续发展目标是不可分割的, 包含了经济、社会和环境3个方面[1], 公平的优质教育(EQE)是全球大多数学术机构所面临的主要挑战之一, 可持续发展目标中谈到了“公平的优质教育”的概念, 优质教育被认为会带来一个更可持续的世界, 可持续发展教育(ESD)的主要标准是提供一种文化, 协助学生完成学业, 同时也为解决问题提供更大的机会. 尽管有这些目标, 但可持续发展教育打算做什么还是值得怀疑. 以下是一些历史上的政策声明[2].

(1)联合国教育、科学及文化组织(UNESCO)与联合国环境规划署(UNEP)合作, 于1977年10月14日至26日在格鲁吉亚(苏联)第比利斯举办了世界上第1次政府间环境教育会议.

(2) 1992年在里约热内卢举行的地球峰会上, 启动了可持续发展教育(ESD). 联合国环境与发展会议(里约峰会, 地球峰会)和《21世纪议程》关于教育、培训和公众意识的第36章巩固了关于教育、培训和公众意识在实现可持续发展中的关键作用的国际讨论.

(3) 2002年, 在可持续发展问题世界首脑会议期间, 宣布了“可持续发展教育十年”. 《约翰内斯堡执行计划》中包括了“可持续发展教育十年”的建议. 在2002年12月的第57届会议上, 联合国大会通过了一项决议, 宣布联合国可持续发展教育十年(DESD)将于2005年1月开始.

(4) 2014年, 在联合国教科文组织世界可持续发展教育大会上, 宣布了可持续发展教育全球行动方案(GAP).

(5) 2015年, 在韩国仁川举行的世界教育论坛强调了教育作为发展和实现可持续发展目标的主要动力的重要性.

因此, 根据上述论点, 这些努力是否成功地改变了课程和教学方法, 使之更具有可持续性, 也是值得商榷的, 可持续性的概念和理解对于发展可接受的教育教学法、其实施以及提供其创建目的的能力至关重要. EQE是一个国家经济繁荣的关键驱动力之一, 并支持可持续能力, 在过去的20年里, 高等教育机构(HEI)的入学率呈指数级增长, 这是由于人们认识到继续教育对职业发展和机会的重要性, 与历史上进入高等教育的学生相比, 学生的人口结构发生了变化, 越来越多的异质性学生接受多模式的课程, 随着学生人数的增加, 学习者对最先进的服务和资源的需求也在升级.

高等教育机构之间的竞争非常激烈, 因为它们努力吸引学生参加他们的课程, 随着高等教育的消费升级, 学生选择高等院校的标准更加复杂, 除了传统的社会经济因素外, 还要考虑服务的提供、声誉和获得更好职业的可能性等因素. 虽然学生入学取决于学校的声誉和提供的吸引力, 但学生的满意度和成功是推动学生保留的动力, 因此, 导致学生成功的因素被赋予越来越多的重要性.

高等教育机构使用各种衡量学生成功和成就的方法, 包括使用横断面和纵向数据来衡量学生的进步、课程和项目的完成率. 高校努力通过学生支持服务、工具和技术来最大限度地成功完成课程和项目, 这些都被证明可以提高学生的学习, 这就需要使用新的和创新的教学法来吸引学生的兴趣, 并最大限度地发挥学习者的潜力.

今天, 教育在很大程度上依赖于信息和通信技术, 在高等教育领域有新的工具[3], 例如, 远程学习不再是一个挑战, 校外学生可以通过电子学习和移动学习工具获取学习资源[4]. 除此之外, 人工智能也越来越受到关注, 因为它可以用来执行通常与人类智能相关的任务[5], 如语音识别、学习管理系统(LMS)、决策、云学习服务、视觉感知、移动学习应用和语言翻译. 目前, 大多数大学都在进行现场直播授课, 并在网上提供完整的课程, 大规模开放在线课程(MOOCs), 使世界上一些最著名大学的高等教育课程, 可以被世界上任何地方拥有合理互联网连接的人使用. 虚拟现实技术将越来越多地让学生参与实地考察, 获得实践经验, 而无需离开教室或家. 通过像chegg.com这样的互联网平台, 学生可以每天24 h从全球任何地方接触到“个人”教师, 学校图书馆甚至校园的出勤率都在下降.

可持续发展目标旨在“提供包容和公平的优质教育, 鼓励为每个人提供终身学习的机会”, 结合这一目标, 教育领域的数字革命无疑将提高世界各地获得优质教育的机会. 然而, 为了做到这一点, 必须在贫困国家和农村地区同时提供必要的宽带和能源基础设施, 教育的快速数字革命将对我们城市的结构和社会联系产生影响, 随着教育越来越多地被远程提供, 允许学生在家单独学习或通过“虚拟课堂”学习, 对集中式校园和相应的基础设施的需求将缩小.

学生的表现是任何教育机构最重要的因素之一, 学生的注册和出勤记录, 以及他们的考试成绩, 是高等教育机构中最传统的数据挖掘(DM)形式, 在这个大数据时代, 教育数据挖掘(EDM)是一个跨学科领域, 机器学习、统计学、DM、心理教育学、信息检索、认知心理学和推荐系统的方法和技术被用于各种教育数据集, 以解决教育问题. 到目前为止, 在发展中国家的教育中使用人工智能进行EDM的工作还很少, 在目前EDM的动态状态下, 已经进行了许多与教育环境中DM不同类型有关的研究[6], 常见的代表作分类如下.

(1)数据分析与可视化.

(2)为支持教师提供反馈.

(3)对学生的建议.

(4)预测学生的表现.

(5)学生建模.

(6)社会网络分析.

在教育环境中使用人工智能势在必行, 因为它可以极大地促进教学和学习过程的改善, 并鼓励知识构建的过程[7], 本研究旨在为高等教育在线课程中的学生成绩建立一个基于人工智能的预测模型, 论文的重要贡献可以叙述如下.

(1)提出了一个基于人工智能的学生成绩预测模型.

(2)数字资源被用于通知与学生成绩有关的决策.

(3)为某所大学一年级的信息技术课程设计并分析了学生成绩的人工预测.

1 相关工作

目前, 有几种与预警系统(early warning system, EWS)相关的技术方法, 最常见的技术之一是使用统计分析来预测成绩, 直到最近, 统计学方法主要被应用于教育机构, 以了解潜在的学生通过率和辍学率. 最近, 不同的方法被结合起来, 以显示教育数据挖掘(EDM)中更好的表现, 为了有更好的预测率, 本文使用了不同的预测技术、不同的分类方法被应用于给定的数据集. 图1描述了EWS用于学生成绩预测的常用方法的图形表示.

图 1 EWS中作为预测工具使用的常见方法

1.1 高等教育中预警系统(EWS)的演变

预测算法的主题通常被认为是数据分析学科中最相关的研究领域, EWS被广泛地应用于各个研究领域, 最近更是影响到了教育领域[8], 应用EWS的主要原因之一是, 大学用它来跟踪学生的学习进度, 识别有可能挂科(成绩不及格)或退学的学生, 各种技术正在被提出、应用和测试, 文献中也有许多先进的工具, 在EDM领域有较好的预测准确性[9], EDM的预处理算法之一被称为聚类, 有趣的是, DM是最流行的技术之一, 被广泛地应用于教育领域, 以分析学生的表现, EWS在美国的中学里已经被广泛使用了很多年, 它已被用来跟踪学生在学校的表现, 并确定预测辍学可能性的措施[10]. 一旦EWS识别出有风险的学生, 教师可以选择提供纠正措施, 这包括在学生的Moodle (是一个用于制作网络课程或网站的软件包)页面上显示不同的警报信号, 以及通过电子邮件信息或文本信息发出警报信息. 此外, 学生可以被推荐给学术顾问, 以解决在特定课程中面临的问题.

在学习分析中使用不同类型的预测模型也在增加, 根据文献[11], 分析研究人员正试图以更好的准确性进行预测, 并采用不同的分类工具来比较准确性, 常见的分类算法, 如EM (expectation maximization, 期望最大)、C4.5 (目标是通过学习, 找到一个从属性值到类别的映射关系, 并且这个映射能用于对新的类别实体进行分类)、朴素贝叶斯分类算法、支持向量机、K-NN、神经网络模型和决策树方法也被采用.

在大多数情况下, 分析是根据二元反应变量“通过或不及格”来预测学生的成绩, 原则上, 分析通常是在单一课程上进行, 而不是用于几门课程, 作为一种系统性的方法, 模型特征和响应变量被用于对高危学生进行分类, 但对于预测模型来说, 学期开始的时间对于识别高危学生来说还太早, 通常很难对这些研究进行对比.

Azcona等人[12]认为, 就准确性而言, 单一课程的分析更为有效, 这可能是因为每门课程的结构不同, 因此, 在不同的课程中, 分类的特征会不一样. 在Avella等人[13]的类似研究中, 很明显, 预测模型可以应用于多门课程, 然而, 他们指出, 学科的内在差异导致特定变量对某些课程来说很强, 而对其他课程来说很弱, 因此, 在为预警系统选择变量之前, 应该考虑课程的性质.

1.2 预警系统中的人工智能

前些年, 人工智能的参与吸引了一些有争议的言论, 人工智能在计算能力、DM和大数据技术方面的使用似乎是一种更先进的预测工具, 具有更好的准确性, 如前所述, AI使用了更好的分类工具来预测任何EDM的准确性. Avella等人[13]研究了学习平台中使用的AI方法以及教育和AI之间的关系, 作为补充, Vasileva-Stojanovska等人[14]研究了基于游戏的学术研究以及翻转教学技术. McIntosh等人[15]提出了一项通过监督学习来使用安卓应用程序的研究, 学生的行为特征被用来为系统建模, 该系统产生了22.1%的准确率, 后来, 使用集合方法, 他们注意到准确率增加了25.8%[16].

在Keras库[17]中使用了一个深度神经网络(DNN)来分析学生的表现, 他们使用了在线数据集, 取得了83.4%的准确率, 分类器的质量由成本函数和准确率来衡量. 2017年, 实现了一个循环神经网络(RNN), 对108名学生的日志数据进行预测学生的成绩, 使用的预测特征是一个LMS的日志数据, 结果显示准确率达到90%[18]. 一项关于使用DM方法预测学生成绩的评论显示, 神经网络和决策树的结果分别达到98%和91%的准确率[19], 使用人工神经网络(ANN)开发了一个预测模型, 这项工作是为了预测学生的累积平均分, 学术数据集是在孟加拉国的一所大学中建立的模型, 他们用预测的成绩和原始成绩进行了测试, 该工作的最高准确率为99.98%, 均方根误差为0.176 546[20].

2 智能预警系统(iEWS)模型的设计和架构

本研究检索了美国大学一年级在线课程《信息技术》的本科生一个学期的完整在线互动数据, 他们使用的工具软件是Moodle LMS, 所有的在线、面授和混合课程都在这里托管, Moodle要求用户认证以访问特定学生的注册课程, 每个学生在课程中的详细互动都记录在Moodle数据库中, 包括系统登录、注销、资源访问、作业提交、讨论区活动、分数包记录、测验活动以及许多其他活动和资源数据, 所有这些数据都存储在个人活动/资源表中, 课程中所有其他的互动都存储在日志表中.

在本学期的第4周, 在该课程中实施了由USP(unique selling proposition)科学、技术和环境学院开发的EWS (学生警报Moodle插件)[4], 来自EWS插件的数据被用来提取特征以开发iEWS预测模型, 模型如图2所示, 流程如下.

图 2 iEWS模型

第1步. 学生和教师与课程活动进行互动.

第2步. 所有的互动都记录在Moodle数据库中.

第3步. EWS数据使用Moodle DB计算并记录在EWS DB中.

第4步. 提取EWS数据, 并进行数据预处理(数据清洗和提取EWS特征).

第5步. EWS特征被用来开发iEWS预测模型.

第6步. 用测试数据对iEWS预测模型进行测试.

第7步. 如果iEWS预测一个学生失败, 那么老师就会为这些学生制定策略.

3 方法

本研究讨论了所提出的名为iEWS的预测模型, 它利用学生基于在线课程登录、互动和完成情况的EWS数据, 最早在第6周预测学生这门课是否会通过或失败, 以下部分讨论了数据集、数据清洗和特征提取、用于衡量性能的统计措施和验证方案以及用于预测的随机森林(RF)分类器.

3.1 数据集

在实施EWS的第4周, 完成率、互动率和每周的平均登录次数都有所增加, 完成率是基于学生在每周完成的前面提到的课程活动数量, EWS的数据收集从第4周开始, 在EWS实施后, 每周/每两周一次的互访, 在这项研究中, 共使用了1 523个学生数据集, 其中1 271名学生通过(正面样本), 252名学生失败(负面样本).

3.2 EWS插件属性

本研究使用了EWS插件的以下属性.

(1) AvgCompRate: 学生每周完成在线活动的平均百分比.

(2) AvgLogin: 学生每周登录的平均次数.

(3) CourseworkScore: 第6、8和10周的课程作业分数.

3.3 减少班级之间的不平衡性

在对数据集进行调查后, 很明显, 正面样本(学生通过)的数量远远大于负面样本(学生失败), 这显然导致了数据集的高等级不平衡性, 为了减少数据集的不平衡性(即样本和班级之间的不平衡性), 本文采用了K-NN技术来去除多余的阳性样本, 计算了数据集中所有样本之间的欧氏距离, 首先, 通过除以阳性样本和阴性样本的数量(1271/252)来设定截止点, 该比例等于5.04, 因此设定K=5, 这意味着, 如果在5个最近的邻居中至少存在一个阳性样本, 就会有一个阳性样本被删除, 经过最初的过滤, 不平衡的类仍然存在, 因此, K值不断增加, 直到两个集合的大小大致相似, 这种方法最终将最初的1 271个阳性样本减少到256个, 阈值为29 (k=29), 这意味着如果在29个最近的邻居中至少有一个阴性样本存在, 那么阳性样本就被删除, 负样本没有改变, 仍为252个, 过滤后的最终数据集(过滤后的负样本和正样本)被用来进行第6、8、10周[21]的交叉验证, 并评估预测模型的性能.

3.4 实验环境

使用Matlab软件进行数据预处理和特征提取, 减少类之间的不平衡, 将数据集分成样本量大致相同、正负数相似的“N”个折叠, 为Weka分类器创建Weka数据格式(ARFF)文件, Weka是由新西兰的怀卡托大学开发的, 用于分类和性能评估.

代码用Java编写的, 用于训练和测试Weka提供的一组分类器, 对不同的“N”折叠进行了性能评估, Java代码使用Net beans ID, Weka.jar库从 http://www.cs.waikato.ac.nz/ml/weka/snapshots/weka_snapshots.html(2022年7月5日访问)下载, 并在Java项目中引用以访问和运行所需的Weka分类器, 不同的分类器被用来训练和测试, 以最终确定iEWS预测器的最佳分类器, 基于以下所述的每个分类器的性能.

3.5 分类器

C4.5 (J48)是一种用于生成决策树的算法, 用于不同应用的分类, PART是一种部分决策树算法, 由C4.5和RIPPER算法发展而来, 决策表代表了条件逻辑, 它有一个任务列表, 描述了可用于相同数量条件的业务规则, 这使得它与决策树不同, OneR是一种简单的分类算法, 它为数据中的预测者创建一个规则, 然后选择错误率最低的规则, 决策树桩由一级决策树组成, 只使用一个属性进行分割. Logistic回归是一种统计模型, 它使用Logistic函数来模拟和预测一个可以有两个值或二进制类别结果的概率, 顺序最小优化(SMO)算法是基于支持向量机(SVM)解决二次编程(QP)问题, 该问题在SVM的训练过程中出现, 多层感知器(MLP)是神经网络的一种类型, 它的结构与单层感知器相似, 有一个或多个隐藏层和两个阶段.

3.6 随机森林(RF)

RF和决策树是众所周知的, 用于监督学习模型的相关学习算法, 分析用于分类和回归分析的数据, 它已被用于许多其他类似的研究[22], 它给出了高准确率, 如图2所示. RF是一种集合方法, 包括很多树的决策, 候选特征集中树的生长水平是由一个最优法则计算出来的, 候选特征集是所有特征的随机子集, 它在每个树级都是不同的, RF分组是一个集合识别, 对应于一个新的方法, 不仅包括一个分类器, 也包括几个分类器, 在现实中, 数以百计的分类器被建立在RF分组中, 它们的选择通常是通过复数投票来组合, 有时组合的分类器比任何一个组合都更可靠, 驱逐了特征子集之间的冲突, 因此, RF分类常用于遥感图像处理, 所有这些程序的共同点是, 对于第k棵树, 产生一个随机矢量 $\phi_k$ 是独立于先前的随机向量 $\phi_{k-1}$ , 但具有相同的分布, 树使用训练集和 $\phi_k$ 生长, 产生一个分类器h( $\phi_k$ ), 其中x是一个输入向量, 预测一个观察值的类别遗传表达式是通过以下方式获得的.

$ H(x) = \arg {{\rm{max}} _y}\sum\nolimits_{i - 1}^k {I({h_i}} (X, {\theta _k}) = Y) $ (1)

其中, argmaxy代表 $\displaystyle \sum\nolimits_{i - 1}^k {I({h_i}} (X, {\theta _k}) = Y) $ Y最大化值, I(hi(X, θk)=Y是输出变量, I(hi(X, θk)是指标函数, hi(X, θk)是一个单一的决策树.

分类器包括各种树, 这些树是通过伪随机选择特征向量成分的子集来统一组装, 也就是说, 树是在随机挑选的子空间中组装, 这些子空间保留了训练数据的最大精度, 并随着复杂性的增加而提高了泛化的准确性.

3.7 统计措施

为了评估所提出的预测模型的性能, 并与现有的预测模型进行比较, 本工作采用了一些措施, 如敏感性(sensitivity)、特异性(specificity)、准确性(accuracy)、精确度(precision)和马修斯相关系数(MCC).

另一方面, 特异性评估了正确识别通过的学生人数比例, 特异性为1表明预测模型能够预测准确的数据集的正面实例, 而特异性等于0表明预测模型无法识别通过的学生人数, 特异性的指标定义为:

$ {\textit{sensitivity}} = \frac{{{P_ + }}}{{{P_ + } + {P_ - }}} $ (2)

其中, P+是预测正确通过的学生人数, P代表被预测模型错误分类的学生人数.

同理, 特异性评估了正确识别不及格的学生人数比例, 特异性为1表明预测模型能够预测准确的数据集的负面实例, 而特异性等于0表明预测模型无法识别不及格的学生人数, 特异性的指标定义为:

$ {\textit{specificity}} = \frac{{{F_ + }}}{{{F_ + } + {F_ - }}} $ (3)

其中, F+是预测正确的不及格学生人数, F代表预测模型错误分类的不及格学生人数.

对于一个预测模型来说, 要正确区分阳性样本和阴性样本, 就要评估预测模型的准确性, 准确率等于1的预测模型表明是一个准确的预测模型, 而准确度为0意味着预测模型完全不正确, 准确率的计算方法是:

$ accuracy = \frac{{{P_ + } + {F_ + }}}{{P + F}} $ (4)

其中, PF分别为通过和未通过的学生总数.

精度是预测器的另一个评估指标, 定义为正确识别通过的学生人数与正确分类的通过和未通过学生人数之和的比率.

$ precision = \frac{{{P_ + }}}{{{P_ + } + {F_ + }}} $ (5)

本文使用的最后一个统计指标是马修斯相关系数(MCC), 它显示了预测实例和观察实例之间的相关系数值, MCC指标的计算方法是:

$ MCC = \frac{{({F_ + } \times {P_ + }) - ({F_ - } \times {P_ - })}}{{\sqrt {({P_ + } + {P_ - })({P_ + } + {F_ - })({F_ - } + {P_ - })({F_ + } + {F_ - })} }} $ (6)

最佳预测模型是指在所讨论的5种统计措施中取得高绩效的预测模型, 然而, 与现有的预测模型相比, 它至少应该在某些指标上表现得更好, 一个无法正确预测通过或未通过学生的预测器不能用于预测.

3.8 验证方案

一个新的预测模型的有效性需要用验证方法来评估, 两种最常用的方法是jackknife和n-fold验证方案[21], 在验证阶段, 必须使用一个独立的测试集来评估预测模型, jackknife验证比n-fold交叉验证的随意性要小, 并为一个数据集提供独特的结果, 根据文献[23], 本研究采用了相同的验证方案(n-fold交叉验证)技术,n-fold交叉验证技术按以下步骤进行, 并在图3中显示.

第1步. 将预处理后的数据集拆分为n倍, 样本大小大致相等, 每个样本中的正负样本相似.

第2步. 将其中一个折叠作为独立的测试集, 将其他n–1折叠作为训练数据.

第3步. 用训练数据训练模型并调整预测器的参数.

第4步. 使用独立测试集计算所有统计量度来验证预测器.

第5步. 对其他折叠重复步骤1–4, 直到n折叠进行验证, 并计算n折叠的每个统计测量的平均值并记录结果.

图 3 n折交叉验证技术

在这项研究中, 进行了第6周(6-fold)、第8周(8-fold)折和第10周(10-fold)的交叉验证来评估iEWS预测, 并记录了结果.

4 结果和讨论

为了验证提议的预测模型的性能, 必须使用不同的措施进行评估, 本研究使用了通常使用的5个统计指标: 敏感性(sensitivity)、特异性(specificity)、准确性(accuracy)、精确度(precision)和马修斯相关系数(MCC), 并介绍了所提出的预测模型的结果.

4.1 与统计分析的比较

在以前的研究中[8], 开发了一个统计模型, 准确率为60.8%, 值得注意的是, 同样的数据集被用来开发一个iEWS预测器, 并对其准确性进行了比较, 与旧的EWS模型相比, 这个新的iEWS预测精度为97%, 至少提高了36.2%, 第6周的预测准确率为97%, 第8周为98%, 第10周为98.4%.

此外, 所提出的iEWS的主要优点是, 它可以预测学生是否能通过或失败, 因此可以尽早采取纠正措施, 该模型仅通过分析3个属性(即AvgCompRate、AvgLogin和CourseworkScore)就能识别和预测学生的表现, 值得注意的是, 在9种不同的分类工具中, RF用给定的属性预测了最好的成绩(准确性), 因此, 第6、8和10周的数据集被用来开发模型, 可以看出, 第6周显示了非常有希望的结果, 为此计算了6-fold、8-fold和10-fold交叉验证试验的iEWS的敏感性、特异性、精确性、准确性、马修斯相关系数(MCC).

4.2 用RF进行iEWS预测

基于Moodle的EWS的目的是监测学生在课程中的学习进度, 并尽早发现有风险的学生, 以便教师能够实施策略来帮助这些学生, 拟议的iEWS在学期的第6周进行的早期预测(准确率非常高)显示了一个很有前途的工具, 高等教育机构可以用它来干预和帮助更脆弱的学生, 这一预测使用了平均完成率、平均登录频率和EWS插件在第1年IT课程中的课件等重要特征.

RF分类器在EWS中的有效使用也对结果有所贡献, 简而言之, EWS数据与RF分类器的组合在预测学生是否通过课程方面发挥了重要作用, 图4中给出了第6周的结果, 有3个不同的折线, 与文献[8]中的统计模型相比, 提议的iEWS的准确率有了巨大的提高, 至少提高了36.2%, 本文还注意到, iEWS预测模型记录了高灵敏度、特异性、精确性和MCC, 这意味着它的性能很好, 这些可喜的结果表明, 拟议的iEWS预测模型有能力在学期的第6周就正确地识别学生的合格和不合格, 因此, 使用基于RF的模型有可能加速教育的发展, 教育的效率可能会显示出极大的提高. 通过在教学中有效和高效地使用RF方法, 教育将被改变, 从根本上改变教学与学习. 使用数字工具的教育工作者将更好地了解他们学生在学习上的发展情况, 使他们能够早期干预, 提高学生的成绩和保留率.

图 4 iEWS 预测

一项类似的研究, 他们创建了一个特定的课程预测模型来识别第5周有问题的学生[24], 研究中使用的常用工具是SVM、K-NN和朴素贝叶斯分类器, 朴素贝叶斯分类器在7个测试模型中的结果最好, 所使用的预测模型的不同准确率显示在图5中.

图 5 预测模型的不同准确度

在大多数情况下, EWS报告依靠的是期中成绩[11], 此时, 往往已经进入学期末了, 学生要么无法应付, 要么就退学了, 这一直是EWS的缺点之一, 出于这个原因, 提高EWS的准确性和更早地预测成绩是非常重要的, 在iEWS中, 使用了RF分类, 它能在学期中更准确地进行预测, 在本研究中, 由于EWS是在第4周引入课程的, 所以最早的预测可以在第4周进行, 即如果EWS在课程中参与的时间更早, 检测可能会更早.

如前所述, 所提出的模型能够最早在学期的第6周预测学生的成绩, 准确率为97.03%, 此外, 大多数文献研究提出了自行开发的模型来预测学生的表现, 但他们都没有提到在学期的早期对学生表现的预测是如何进行的, 然而, 所提出的模型通过为学生以及教育者提供一个iEWS, 实现了教育的可持续性, 在尽早预测学生成绩的同时, 它也节省了时间和资源.

5 结论及未来工作

本文进行了基于人工智能的预测模型研究, 可以在可持续发展目标的时代, 从系统的角度尽早预测学生的表现, 信息和通信技术工具的使用有助于在学生形成良好的学习环境, 这样的工具大量参与了当前的教育系统, 它提升并连接了整个社会. 在这项工作中, 人工智能方法被应用于同一模型, 用第6周的EWS数据开发了RF分类器模型, 准确率达到了97.03%; 用LMS和EWS设计了一个人工智能平台, RF分类器的应用具有各自的敏感性、特异性和精确度. 所有方法似乎都对类的数量增加很敏感, 与其他分类方法相比, RF的准确率为97.03%, 使用分类特征显示出更好的性能(见图5). 当使用iEWS预测学生成绩的准确率与通过统计分析确定的准确率进行比较时, 它被证明高出35%以上. 在未来, 这项工作可以通过使用不同的预测方法和来自不同课程的不同长度的特征向量来扩展. 此外, 还可以使用教育前的成绩、学生的提交、登录、性别、原籍地和社会交往行为来创建不同的混合特征向量, 以考察各种与时间有关的指标对EWS的影响和高危学生预测的影响.

参考文献
[1]
Walker TR. (Micro)plastics and the UN sustainable development goals. Current Opinion in Green and Sustainable Chemistry, 2021, 30: 100497. DOI:10.1016/j.cogsc.2021.100497
[2]
Bosco F, Fiorani G, Biagetti A. Opportunities and challenges of sustainable development and digital revolution: The Italian case of toolery. European Journal of Social Impact and Circular Economy, 2021, 2(2): 29-39.
[3]
Sharma B, Nand R, Naseem M, et al. Effectiveness of online presence in a blended higher learning environment in the Pacific. Studies in Higher Education, 2020, 45(8): 1547-1565. DOI:10.1080/03075079.2019.1602756
[4]
Chand AA, Lal PP, Chand KK. Remote learning and online teaching in Fiji during COVID-19: The challenges and opportunities. International Journal of Surgery, 2021, 92: 106019. DOI:10.1016/j.ijsu.2021.106019
[5]
Xu H, Zhou J, Asteris PG, et al. Supervised machine learning techniques to the prediction of tunnel boring machine penetration rate. Applied Sciences, 2019, 9(18): 3715. DOI:10.3390/app9183715
[6]
Aldowah H, Al-Samarraie H, Fauzy WM. Educational data mining and learning analytics for 21st century higher education: A review and synthesis. Telematics and Informatics, 2019, 37: 13–49.
[7]
Zawacki-Richter O, Marín VI, Bond M, et al. Systematic review of research on artificial intelligence applications in higher education—Where are the educators?. International Journal of Educational Technology in Higher Education, 2019, 16(1): 39. DOI:10.1186/s41239-019-0171-0
[8]
Alyahyan E, Düştegör D. Predicting academic success in higher education: Literature review and best practices. International Journal of Educational Technology in Higher Education, 2020, 17(1): 3. DOI:10.1186/s41239-020-0177-7
[9]
Romero C, Ventura S. Educational data mining and learning analytics: An updated survey. WIREs Data Mining and Knowledge Discovery, 2020, 10(3): e1355.
[10]
Hasan R, Palaniappan S, Mahmood S, et al. Predicting student performance in higher educational institutions using video learning analytics and data mining techniques. Applied Sciences, 2020, 10(11): 3894. DOI:10.3390/app10113894
[11]
Wong BTM, Li KC. A review of learning analytics interven-tion in higher education (2011–2018). Journal of Computers in Education, 2020, 7(1): 7-28. DOI:10.1007/s40692-019-00-143-7
[12]
Azcona D, Casey K. Micro-analytics for student performance prediction. International Journal of Computer Science and Software Engineering, 2015, 4(8): 218-223.
[13]
Avella JT, Kebritchi M, Nunn SG, et al. Learning analytics methods, benefits, and challenges in higher education: A systematic literature review. Online Learning, 2016, 20(2): 13-29.
[14]
Vasileva-Stojanovska T, Malinovski T, Vasileva M, et al. Impact of satisfaction, personality and learning style on educational outcomes in a blended learning environment. Learning and Individual Differences, 2015, 38: 127-135. DOI:10.1016/j.lindif.2015.01.018
[15]
McIntosh A, Hassan S, Hindle A. What can Android mobile APP developers do about the energy consumption of machine learning?. Empirical Software Engineering, 2019, 24(2): 562-601. DOI:10.1007/s10664-018-9629-2
[16]
Amrieh EA, Hamtini T, Aljarah I. Mining educational data to predict student’s academic performance using ensemble me-thods. International Journal of Database Theory and Application, 2016, 9(8): 119-136. DOI:10.14257/ijdta.2016.9.8.13
[17]
Bendangnuksung, Prabu P. Students’ performance prediction using deep neural network. International Journal of Applied Engineering Research, 2018, 13(2): 1171-1176.
[18]
Amoo MA, Alaba OB, Usman OL. Predictive modelling and analysis of academic performance of secondary school students: Artificial neural network approach. International Journal of Science and Technology Education Research, 2018, 9(1): 1-8. DOI:10.5897/IJSTER2017.0415
[19]
Rastrollo-Guerrero JL, Gómez-Pulido JA, Durán-Domínguez A. Analyzing and predicting students’ performance by means of machine learning: A review. Applied Sciences, 2020, 10(3): 1042. DOI:10.3390/app10031042
[20]
Adriani ZA, Palupi I. Prediction of university student performance based on tracer study dataset using artificial neural network. Jurnal Komtika (Komputasi dan Informatika), 2021, 5(2): 72-82. DOI:10.31603/komtika.v5i2.5901
[21]
Xu FY, Li ZQ, Yue JQ, et al. A systematic review of educational data mining. In: Arai K, ed. Intelligent Computing. Cham: Springer, 2021. 764–780.
[22]
Panessai IY, Lakulu MM, Rahman MHA, et al. PSAP: Improving accuracy of students’ final grade prediction using ID3 and C4.5. International Journal of Artificial Intelligence, 2019, 6(2): 125-133. DOI:10.36079/lamintang.ijai-0602.42
[23]
Li YW, Pu F, Wang JR, et al. Machine learning methods in prediction of protein palmitoylation sites: A brief review. Current Pharmaceutical Design, 2021, 27(18): 2189-2198. DOI:10.2174/1381612826666201112142826
[24]
Akçapınar G, Altun A, Aşkar P. Using learning analytics to develop early-warning system for at-risk students. International Journal of Educational Technology in Higher Education, 2019, 16(1): 40. DOI:10.1186/s41239-019-0172-z