咨询案例

高校大学生学业成绩与毕业去向预测

时间:2021-09-22

1. 研究背景

教育大数据是指整个教育活动过程中所产生的以及根据教育需要采集到的,一切用于教育发展并可创造巨大潜在价值的数据集合。高等教育作为培养高级专业人才的重要形式,随着教育体制的改革、教育形式的多样化、各大高校的持续扩招,高校学生信息管理系统中的学生数据从数量和维度上得到了极大的提升。教育大数据的最终价值应体现在与教育主流业务的深度融合以及持续推动教育系统的智慧化变革上,具体表现在驱动教育管理科学化、驱动教学模式改革、驱动个性化学习真正实现、驱动科学研究范式转型。大数据和数据挖掘与教育的结合真正意义在于促进教育的转型升级。

教育数据挖掘目前主要有以下几方面应用:学生行为建模、成绩预测、个性化教育、预测退学和留级、推荐学习资源研究等。在高校教育大数据分析中,根据学生历史成绩、行为层面信息和其他相关数据进行分析,来预测学生成绩和毕业去向,一直是教育大数据挖掘的重点目标之一。

2. 研究目标

当前,我国教育大数据的发展与利用已具备一定基础,但在实际业务方面还存在诸多问题,如数据量不足、数据来源不足、预测方法单一、预测精度不足等。这些问题是目前教育大数据亟待解决的瓶颈。本研究以目前教育大数据的热点——高校大学生学业成绩与毕业去向预测为研究方向,采用机器学习领域的Lasso-Logisitic、XGBOOST与CATBOOST算法构建高精度预测模型,以期为我国教育大数据研究面临的主要问题提供解决思路。

3. 研究思路

首先,就数据获取而言,本研究针对业务问题(1)高校大学生成绩预测预警;(2)学生毕业去向预测,以及统计问题(1)数据量不足;(2)数据来源单一,以问题导向作为数据来源的基准进行了如下的工作:

(1)规划设计、划分边界:明确研究侧重点,关注个体行为、状态数据、情景数据等方面的信息采集;舍弃边际效用低的数据,如而学生的饮食、出行等方面的数据;

(2)获取数据:比较各类教育数据的信息价值和获取难度,统筹各方面因素,从本科生入学信息、入学半年后学生问卷数据和教务处的成绩数据获取整理了包括因变量(学生成绩、毕业去向)在内的45个变量、13888个观测。

随后对获取数据进行描述性分析预处理。描述性分析主要从成绩、问卷调查和毕业去向三个方面描述了数据的分布情况。预处理部分对数据进行综合处理,过滤无效和冗余的数据,清除数据中的噪声,利用统计方法填充丢失数据;将问卷数据进行one-hot编码处理。

最后采用机器学习领域的Lasso-Logisitic、XGBOOST与CATBOOST算法,构建了精准度高达70%以上的学生成绩预测预警模型和毕业生去向预测模型

(1)LASSO-Logistic回归进行毕业去向预测。对于是否工作、是否出国深造、是否在国内深造三个不同的毕业去向,分别建立3个回归模型,估计出每个毕业生选择工作、出国和国内深造的可能性大小,并通过预测准确率对模型精度进行度量评价。

(2)XGBOOST和CATBOOST算法进行成绩预测预警。通过比较两种算法在数据上的优劣,选择最优算法。其次,找到对成绩影响较大的特征,从而能够对学生学习情况进行实时了解和督促指导。最后对比模型对不同学科学生的预测能力,更深层次探究预测精度问题。

图 1 思维导图

4. 研究结论

本案例利用高校教育大数据,从学生的成绩、心理、社交、生活等各个方面的表现中挖掘有效信息,以达到学生的成绩预测预警与毕业生去向预测的目的。研究发现:

(1) 在学生成绩预测中,Xgboost和Catboost模型预测效果非常接近,并且能较好地区分出成绩较差的学生,AUC都能达到0.8左右。Xgboost模型预测效果略优于Catboost,但相比Catboost存在过拟合。高考成绩、性别、专业类别等特征较为重要。此外不同学科中起重要作用的特征表现也有不同,这对于学院精准预测学生成绩是一个不小的启发。

图 2 结果示例:Xgboost分学科学生预测效果

本案例为高校学生成绩管理、毕业生去向把握等方面提供了思路。首先从数据来源上,应当扩大教育数据的来源,不只局限于学生的在校表现,学生的高考成绩、家庭情况、生源等方面的数据也要多多关注。此外,学生心理、社交、生活等信息也需要关注。分析手段上,本案例采用机器学习的方法,其意义不仅在于提供了解决高校学生成绩预警和毕业生就业预测的具体方法, 更在于提出了通过高校行政大数据整合以实现学生个性化诊断预测的系统化思路。基于这一思路,各高校可以利用大数据管理平台,通过迭代算法,不断筛选出最适宜本校学生的预测模型,帮助高校学生服务与管理者对学生早期成绩和毕业时的行为进行预先识别,为学校管理者采取精准服务或精准干预提供了重要的决策依据。

北京市海淀区中关村大街59号 电话:(86)10-62511318 传真:(86)10-62515246 邮编:100872

版权所有 © 中国人民大学统计学院