公务员期刊网 论文中心 正文

数据挖掘下的慕课学习需求特征分析

前言:想要写出一篇引人入胜的文章?我们特意为您整理了数据挖掘下的慕课学习需求特征分析范文,希望能给你带来灵感和参考,敬请阅读。

数据挖掘下的慕课学习需求特征分析

【摘要】本文通过挖掘慕课数据来研究学习者对课程需求的特征。首先构建了非线性回归的学习人数预测模型和基于随机森林的学习人数分类模型,得到开课时间、课程类别、开课学校这三个变量对学习人数有影响。然后用TF-IDF提取关键词并进行可视化以及基于Gibbs抽样建立主题个数为9的LDA主题模型,发现学习者对高等数学这门课的讲解思路、习题答疑、课程内容以及开课学校都有较强的关注点。

【关键词】非线性回归;随机森林;课程特征;可视化;LDA主题模型

1引言

现阶段国内有许多提供慕课学习资源的平台,如中国大学MOOC、智慧树等,覆盖大部分学科,且资源充足,授课形式各式各样。但是海量的慕课资源也带来一定的问题,如慕课质量参差不齐,这给慕课学习者在选择课程时带来一定的困扰,并且造成资源的浪费。因此,如何制作出高质量且能满足绝大部分学习者需求的慕课成为一大重点,本文将从数据挖掘角度去建立学习人数预测模型以及分类模型,推断影响学习者选择的课程特征;并对评论进行文本挖掘来研究学习者所期望的课程特征。

2数据采集与预处理

本文用Python工具爬取中国大学MOOC平台的十五类课程数据,每类课程数据包括学习人数、开课时间、学时安排、开课学校以及课程评论五个变量。然后清洗数据,剔除异常值。接着对变量进行赋值,定义学习人数为因变量y,课程类别为自变量x1,开课时间为自变量x2,学时安排为自变量x3,开课学校为自变量x4。将所有课程汇总为86种搭配,对每一种搭配的学习人数取均值,来反映某一特征课程的受欢迎程度。

3学习人数预测模型与分类模型

3.1预测模型的建立——多元回归模型

将预处理后的数据随机拆分为75%的训练集和25%的测试集,然后对训练集分别建立线性回归模型与非线性回归模型,并对测试集进行预测。首先,通过参数检验剔除不显著变量后,最终拟合的线性回归方程为:y=597.10χ1+596.56χ4此时模型相对误差较大,拟合效果较差,接下来通过非线性对回归模型做进一步改进。分别拟合y对每个自变量的单因素最佳一元非线性回归模型,得到最终拟合的非线性回归模型的方程:y=326.28χ1-8493.14χ2+1951.45χ22+2142.69χ4+2968.25e1/χ4将两个模型的拟合结果、预测结果以及显著性检验情况进行对比,根据拟合模型的R2a以及预测结果的RRMSE,认为非线性回归模型优于线性回归模型。

3.2分类模型的建立——支持向量机与随机森林

对某一类型的课程学习人数取均值,均值小于等于3000的课程赋值为0,均值大于3000的课程赋值为1,然后将数据集按照7:3的比例随机分为训练集和测试集。利用RBF核函数建立支持向量机模型,并假设RBF核函数的模型参数cost=100,gamma=1,得到的模型分类效果,效果较为一般。为改进支持向量机模型的不足,使用默认参数建立随机森林模型。准确率结果可以看出,随机森林模型(准确率76.92%)比支持向量机模型(准确率69.23%)的分类模型效果更好,且从准确率和特异性的角度分析发现,开课时间和课程类别这两个特征相对较为重要。

4课程评论的文本挖掘

4.1特征选择与可视化

以高等数学课程评论为对象,利用ROSTCM软件做初步处理,删除重复评论、空行、英文字符。然后用R的tm包对初步处理后的评论中文分词和去除停用词。对预处理后的评论建立语料库,约束每个词最少2个字符,生成TF-IDF权重矩阵,并调整稀疏性,然后将同一个词的权重值相加,并用词云图进行可视化,结果发现该门课程学生关注的焦点,“内容”、“清晰”、“讲解”,“详细”“知识”等词汇突出,权重值较大,说明学生对课程内容的安排以及老师讲课的思路重视程度大。对评论进行情感分析,对情感分析的好评提取关键词,其中“思路”、“时间”、“细致”、“全面”这几个词的权重大,说明该门课程的时长、内容安排比较合理。对情感分析的差评提取关键词,其中“在念”、“解析”、“考试”、“作业”、“口音”等词权重大,说明有些课程尚存在讲解者口音重、念ppt以及考试题目安排难度不合理的现象。

4.2基于Gibbs抽样的文本主题建模

设定主题先验参数α=0.1,β=0.1,主题数K的范围为3到30,基于Gibbs抽样算法,使用最大似然估计得到最优主题个数为9个。根据词语在不同主题上的最大概率分布,将模型生成的九个主题中的前五个高频词取出,结果说明主题一、二、五、六、七、九能反映学习者在慕课学习过程中的关注点,主要有以下四点:(1)授课老师的讲解思路;(2)习题的讲解;(3)课程内容的合理安排;(4)开课的学校。

5结语

非线性回归预测模型得到开课时间、课程类别以及开课学校对学习人数有显著影响,并且寒假期间开课的课程学习人数最少,所以平台可以在暑假时多推出新课程。分类模型的分类结果显示,文学文化、计算机以及理学类的学习人数相对较多,这与当今时代的行业潮流发展有莫大关系,所以课程的数量比要跟时代相结合。对于高等数学这门课的慕课,学习者对课程的内容设置、授课老师的思路以及开课学校这四个方面关注点高,建议平台设置阶梯式课程以适应不同水平的学习者。

【参考文献】

[1]王江荣,文晖.基于多元非线性回归理论的坦克蓄电池剩余容量非线性回归预测研究[J].电气自动化,2015,37(06):109-110,113.

[2]于韬,王洪岩.基于TF-IDF算法的文本信息提取[J].科技视界,2018(16):117-11.

作者:林媛 叶幸 郭桂璇 肖莉 周燕 单位:华南农业大学