基于学习分析的在线学业成就影响因素研究

发布时间:2019-08-07 来源: 短文摘抄 点击:


  摘要:如何利用数据和模型来预测学业成功与失败是学习分析领域的核心问题。该文通过对现有文献检索分析出目前研究中主要影响学业成就的要素,结合对原始数据的深度处理,得到和学习相关的高级行为指标,利用机器学习中神经网络、决策树及线性回归算法分别建模分析。研究发现:学习态度、学习及时水平和投入水平是影响在线学业成就的主要因素,耐挫水平为次要因素,而互动水平、积极水平和阶段成效对最终的学业成就无关。该文最后对研究结果进行了反思后认为,课程选取对研究在线学业成就要素有非常大的影响。
  关键词:学习分析;在线课程;学业成就;机器学习
  中图分类号:G434 文献标识码:A
  一、引言
  随着大数据的应用普及,很多行业(如金融、零售)都发生了巨大的变化。但一直以来,教育领域是在大数据中受益最少的领域之一,缺乏“数据驱动的思维(Data-driven Mind-set)”是教育领域当今面临的主要障碍。相对于流程清晰规范的金融系统,教育是一个超级复杂的系统,各类教育实践活动产生了比金融行业要多得多的数据。因此,如何利用好教育数据,并从中发掘其背后的教育规律成了研究者最近关注的重点。自2010年起,学习分析(Learning Analytics,简称LA)逐渐从分析领域独立出来,吸纳数据挖掘、社会网络分析、统计分析等多种分析方法,形成了一个独立的新兴领域。从此,学习分析作为分析技术在教育领域中的应用和发展,受到越来越多研究者的关注和重视。运用在教育领域的学习分析主要任务是通过对学习者产生和收集到的相关数据进行分析和阐释,来评估学习者的学业成就、预测其学习表现并发现存在问题的过程。因此如何利用学习分析技术来预测学业成功与失败是该领域核心问题。
  二、文献综述
  最近几年,围绕学业分析与学业成就这一话题,国内外学者的研究主要聚焦在学业成就模型和指标的研究上。Usamah通过对14个典型的学习分析系统和应用进行研究后指出,学习分析中数据输入应该包含尽可能多的数据,而不应绑定在两种或三种类型的数据中,并最终梳理出包含学习者往期学业表现、课程参与情况、学习者背景、社交表现等多个预测学业表现的重要指标。Bukralia使用学业能力、经济水平、学业目标、技术准备、人口统计、课程动机与参与以及课程特征作为预测学业风险或成就的指标。G.Siemens等对学习者基本情况、学习目标、动机水平、认知风格、学习需要的数据进行收集,并对在线学习影响因素进行分析,其成果为促进学生学业成功提供了有力支撑。武法提和牟智佳基于学习者行为分析提出了以教学目标分类理论、个性化学习理论和社会认知理论为指导的,以“目标-过程-结果”为思想的学习结果分类预测框架,并以edX平台上一门MOOC课程的学习行为数据为研究对象进行探索,通过将视频学习次数、文本学习次数、评价参与时长、评价参与次数和论坛主题发起数作为行为指标组合,发现学习次数的预测效果要好于學习时长,并与学习时长和学习次数结合后的预测效果接近。李爽等基于学习者在线学习行为投入归纳出参与、坚持、专注、交互、学术挑战、学习自我监控等六个在线学业成就评价指标维度。陈子健等通过计算所有单个数据属性和学业成绩类别之间的相关系数及计算所有属性的信息增益率两种方法共同确定学业成绩的影响因素。
  通过对以上分析研究发现,在研究内容及数据的处理上,目前大部分研究主要以理论探讨、框架分析为主,部分以数据为基础的实证分析主要是使用了在线平台基础的原始数据,如各类行为的时长、频次等,对同一行为的多条数据的处理方法主要是取均值,如用所有练习的成绩平均值来代表最终成绩等。鉴于在线学习不同用户的学习习惯不同、分配时间的方式不同、每个练习难度也不同,同一个学习者完成相似任务所需要的时间及次数差异都非常大,不同的学习者完成不同任务的次数和时间会相差更大,对原始数据简单的均值处理显然不太合理,因此需要对原始数据进行归一化处理。如Grabe和Sigler通过研究对各类时间进行了估计,所有超过2分钟的学习行为时间将被替换成2分钟,选择题答题时间最高设定为90秒,使用这种简单规则,的确降低了数据的处理难度,在一定程度上对数据进行了归一化处理,但同时也丢失了包含大量用户特征的数据。在研究方法上,很多研究都通过理论分析指出了影响在线学习学业成就的因素,然后通过调查问卷或少量在线数据来建模验证,数据处理的方式多用回归分析或结构方程模型,很少使用大数据研究所采用的机器学习算法来进行建模并对模型进行深入分析。
  三、分析框架
  本研究参照上述文献中关于学业成就框架的研究结果,对基本的原始数据进行归一化处理后,结合文献中研究得出的影响学业成就指标,选取了及时水平、投入水平、互动水平、耐挫水平、积极水平、学习态度、阶段成效等七个维度作为分析在线学业成绩的指标,并选择了对相关底层数据进行更深入挖掘后所形成的“高级数据”作为以上维度的指标项,构建了学业成绩要素分析的框架,如表1所示。使用线下成绩作为学业成就的标签数据,利用机器学习算法构建模型,分析哪些指标是影响在线学习成就的主要指标。
  (一)第一次学习课程时间
  考虑到课程的创建与发布时间不一定就是学习者可以学习的时间,因此本研究使用课程第一个学习者开始学习的时间为起始点,其他学习者第一次学习课程的时间与起始点之间的间隔,即为该学习者的第一次学习课程时间,该时间为相对时间,以天为单位。第一次学习课程的时间反映了学习者能否迅速开始学习活动。
  (二)平均客观题开始答题时间
  客观题开始答题时间:采用和第一次学习课程时间相同的研究方法,将从每个客观题作业第—个学习者开始答题的时间开始,到其他学习者开始作答该客观题作业时间结束,定义为该学习者该客观题的开始答题时间,该时间为相对时间,以天为单位。
  平均客观题开始答题时间:某学习者某一门课程全部客观题作业的客观题开始答题时间的平均值定义为该学习者的平均客观题开始答题时间。通过平均客观题开始答题时间,可以反映出学习者开始学习课程新资源的主动性和及时性。

相关热词搜索:在线 学业 成就 因素 影响

版权所有 蒲公英文摘 www.zhaoqt.net