智慧教育
数据分类 可将其分为四类: 一是学生管理类大数据,包括学生基本信息数据、学生考勤数据、学生作业数据、学生成绩数据、学生在学校的各类表现数据等; 二是教师管理类大数据,包括教师基本信息数据、教师备课教案数据、教师课堂教学数据、教师批改作业数据、教师辅助学生数据等; 三是综合管理类大数据,包括学校基本信息数据、学校各项评比类数据等; 四是第三方应用类大数据,包括 GPS、地图、天气、安全、网上课堂、教学资源等。
数据采集
校通大数据采集途径目前可来自个人 PC 端录入、手机校通 APP 应用程序、移动 PAD 应用程大数据时代的教育管理变革序、第三方应用数据等。例如,PC 端主要采集基础信息类数据,手机校通 APP 应用程序主要采集学生日常表现数据、作业数据、成绩数据、家校沟通数据等。
校通大数据应用分为五个阶段:
数据存储,数据预处理,数据转换,数据建模,数据应用。
1、数据存储阶段是从各种数据源采集到数据的统一存储,采用 HDFS 的分布式存储技术;
2、数据预处理阶段是依据一定的规则对采集到的脏数据、垃圾数据进行必要的清洗处理,减少不必要的工作量;
3、数据转换阶段是将采集来源不一、格式不一的数据按照约定的格式进行统一的转换,为数据建模扫清障碍;
4、数据建模阶段是根据各种不同的主题分析模型、数据挖掘模型的需求进行对应数据模型的搭建,并能满足各种商业智能应用,这是校通大数据应用的最核心之处;
5、数据应用阶段是在数据模型的基础上进行的各类统计分析、报表分析、图形分析、商业智能 BI 应用和深度数据挖掘服务等。
他们还通过设计评论等互动环节来建立自己的信用,通过收藏等环节增加用户黏性。
学习分析就是利用数据和模型来预测学生在学习中的进步情况以及未来的表现和潜在的问题。
例如,相对单个学生而言,学生答题停留时间、对错状况、回头复习情况、网络提问、参与讨论等,计算机和网络都可以对此进行记忆分析,再以此为基础对学生的学习进行评价和诱导。由美国麦格劳-希尔教育出版集团开发的一种预测评估工具, 就能帮助学生评估自己的所学知识与达标测验所需要求之间的差距,进而分析判断学习中有待提高的地方。
智慧校园产生的大数据也能为教育舆情监控提供天然的服务,能及时反映教育舆情的主流观 点、传播趋势及相关的重要人物等信息。
在教育决策方面
大数据更能充分显示其作用之大。美国在大教育管理中就经常利用数据来就相关问题进行诊断和探索,以便作出相应的决策,如辍学危险期的学生状况、教育开支与学习成绩提升的关系、缺课与学生成绩的关系等。就此而言,大数据有利于推动 “决策智能化” ,使教育管理在业务驱动的基础上加强数据驱动的力度,即通过云平台使数据集聚,形成教育数据资源,然后深度挖掘和分析这些数据的价值,进而推动教育管理的智能决策。
( 三) 差异凸显教育管理的个性化
教育大数据的挖掘还可分析学生的兴趣、能力、特长,预测每个学生的需要。这样,大数据甚至可能颠覆传统教材、教学及考试制度。
2013 年 3 月,贵阳市白云区 9000 名学生开始英语教学信息化试点,教师与学生通过电子化教学手段进行互动,作业在平板电脑上完成,教师及时通过另一个终端进行作业批改,并进行个性化分析,从而在一定程度上实现了高效率的因材施教。例如,以平板电脑为载体,将课本内容、课后习题收录其中,然后对学生做题习惯、计算能力和速度、学生性别等数据进行区分,在教学的各个环节为学生提供个性化学习方案,就可以起到提高教学效率和教学质量的效果。
( 四) 共享数据凸显教育管理的整合性
哈佛大学和麻省理工大学就共同投入 6000 万美元开发在线教育平台,免费开放两校的授课过程,并以开源形式向其他大学和教育机构免费开放。教育领域区域性的数据共享也是重要的发展趋势。如美国科罗拉多 州 教 育 部 正 在 开 发 全 州 纵 向 数 据 系 (SLDS),旨在建立统一平台,将全州 178 个学区和 28 所公立高校的学生数据与福利、收入和劳动力等数据进行整合,并分析学生从幼儿园到大学的成绩,使地方行政官员和任课教师都能通过该系统了解和比较该州学生之间的表现,了解和分析收入水平、学前教育与中学阶段教育等因素对学生上大学、找工作等方面产生的影响。
教育领域中的大数据有广义和狭义之分,广义的教育大数据泛指所有来源于日常教育活动中人类的行为数据,它具有层级性、时序性和情境性的特征;而狭义的教育大数据是指学习者行为数据,它主要来源于学生管理系统、在线学习平台和课程管理平台等。
目前教育领域中大数据的应用主要有教育数据挖掘和学习分析两大方向,两个研究方向虽然同源,却在研究目的、研究对象和研究方法等方面截然不同。
一:教育数据挖掘
教育数据挖掘是综合运用数学统计、机器学习和数据挖掘的技术和方法,对教育大数据进行处理和分析,通过数据建模,发现学习者学习结果与学习内容、学习资源和教学行为等变量的相关关系,来预测学习者未来的学习趋势。 《报告》通过对教育数据挖掘领域专家进行访谈,列出了教育数据挖掘的四个研究目标 :
( 1 )通过整合学习者知识、动机、元认知和态度等详细信息进行学习者模型的构建,预测学习者未来学习发展趋势。
( 2 )探索和改进包含最佳教学内容和教学顺序的领域模型。
( 3 )研究各种学习软件所提供的教学支持的有效性。
( 4 )通过构建包含学习者模型、领域模型和教育软件教学策略的数据计算模型,促进学习者有效学习的发生。
《报告》指出,为了达到以上四个研究目标,研究者主要采用以下五类技术方法:
( 1 )预测。 建立一个能够从整合多个预测变量推断单一被预测变量的模式,例如,研究者通过在线学习环境中学习者参与在线讨论的情况、 测试情况等,预测学习者在该门课程的学习中是否有失败的风险。
( 2 )聚类。根据数据特性,将一个完整的数据集分成不同的子集,例如,研究者根据学习者在在线学习环境中学习困难、交互模式等将学习者分成不同的群组,进而为不同的群组提供合适的学习资源和组织合适的学习活动。
( 3 )关系挖掘。 探索数据集中各变量之间的相关关系,并将相关关系作为一条规则进行编码,例如,研究者利用关系挖掘,探索在线学习环境中学习者学习活动和学习成绩的相关关系,进而用于改进学习内容呈现方式和序列,以及在线教学方法。
( 4 )人类判断过程简化。用一种便于人类理解的方式描述数据,以便人们能够快速地判断和区分数据特征,该方法主要以可视化数据分析技术为主,用以改善机器学习模型。
( 5 )模型构建。 通过对数据集的聚类、相关关系挖掘等过程,构建供未来分析的有效现象解释模型。
二:学习分析
学习分析是近年来大数据在教育领域较为典型的应用,在国际上有专门针对学习分析研究和应用的国际会议“学习分析技术与知识国际会议”,目前已举办两届。 在首届会议上将学习分析定义为“测量、收集、分析和报告有关学习者及其学习情景的数据集,以理解和优化学习及其发生情景”。 新媒体联盟( New Media Consortium )将学习分析定义为:利用松散耦合的数据收集工具和分析技术,研究分析学习者学习参与、学习表现和学习过程的相关数据,进而对课程、教学和评价进行实时修正。 我国学者顾小清认为,学习分析是围绕与学习者学习信息相关的数据,运用不同的分析方法和数据模型来解释这些数据,根据解释的结果来探究学习者的学习过程和情景,发现学习规律;或者根据数据阐释学习者的学习表现,为其提供相应的反馈从而促进更加有效的学习 。学习分析是综合运用信息科学、社会学、计算机科学、心理学和学习科学的理论和方法,通过对广义教育大数据的处理和分析,利用已知模型和方法去解释影响学习者学习重大问题,评估学习者学习行为,并为学习者提供人为的适应性反馈。 例如,教师和学校根据学习分析的结果,调整教学内容、对有学习失败风险的学生进行干预等。 学习分析一般包括数据采集、数据存储、数据分析、数据表示和应用服务五个环节。
(一)自适应学习系统中教育大数据应用
(二)教育数据挖掘和学习分析典型应用
教育
IBM
IBM 与亚拉巴马州的莫白儿县公共学区进行大数据合作。结果显示,大数据对学校的工作具有重要作用。
希维塔斯学习(Civitas Learning)
“希维塔斯学习”是一家专门聚焦于运用预测性分析、机器学习从而提高学生成绩的年轻公司。该公司在高等教育领域建立起最大的跨校学习数据库。通过这些海量数据,能够看到学生的分数、出勤率、辍学率和保留率的主要趋势。通过使用100多万名学生的相关记录和700万个课程记录,这家公司的软件能够让用户探测性地知道导致辍学和学习成绩表现不良的警告性信号。此外,还允许用户发现那些导致无谓消耗的特定课程,并且看出哪些资源和干预是最成功的。
渴望学习(Desire 2 Learn)
这家公司的新产品名为“学生成功系统”(Student Success System)。“渴望学习”声称加拿大和美国的1000多万名高校学生正在使用其学习管理系统技术。“渴望学习”的产品通过监控学生阅读电子化的课程材料、提交电子版的作业、通过在线与同学交流、完成考试与测验,就能让其计算程序持续、系统地分析每个学生的教育数据。老师得到的不再是过去那种只展示学生分数与作业的结果,而是像阅读材料的时间长短等这样更为详细的重要信息,这样老师就能及时诊断问题的所在,提出改进的建议,并预测学生的期末考试成绩。
梦盒学习(Dream Box Learning)公司
纽顿(Knewton )公司
产品 “我的实验室/高手掌握”
教育数据与其他领域中的数据比较起来,有一些独特的特征。总结起来就是教育数据是分层的(hierarchical )。美国教育部教育技术办公室在《通过教育数据挖掘和学习分析增进教与学(公共评论草案)》的第18页中写道:“教育数据是„„分层的。有键击层(keystroke level)、回答层(answer level)、学期层(session level)、学生层(student level)、教室层(classroom level)、教师层(teacher level)和学校层(school level),数据就寓居在这些不同的层之中。”
智慧教育
数据分类 可将其分为四类: 一是学生管理类大数据,包括学生基本信息数据、学生考勤数据、学生作业数据、学生成绩数据、学生在学校的各类表现数据等; 二是教师管理类大数据,包括教师基本信息数据、教师备课教案数据、教师课堂教学数据、教师批改作业数据、教师辅助学生数据等; 三是综合管理类大数据,包括学校基本信息数据、学校各项评比类数据等; 四是第三方应用类大数据,包括 GPS、地图、天气、安全、网上课堂、教学资源等。
数据采集
校通大数据采集途径目前可来自个人 PC 端录入、手机校通 APP 应用程序、移动 PAD 应用程大数据时代的教育管理变革序、第三方应用数据等。例如,PC 端主要采集基础信息类数据,手机校通 APP 应用程序主要采集学生日常表现数据、作业数据、成绩数据、家校沟通数据等。
校通大数据应用分为五个阶段:
数据存储,数据预处理,数据转换,数据建模,数据应用。
1、数据存储阶段是从各种数据源采集到数据的统一存储,采用 HDFS 的分布式存储技术;
2、数据预处理阶段是依据一定的规则对采集到的脏数据、垃圾数据进行必要的清洗处理,减少不必要的工作量;
3、数据转换阶段是将采集来源不一、格式不一的数据按照约定的格式进行统一的转换,为数据建模扫清障碍;
4、数据建模阶段是根据各种不同的主题分析模型、数据挖掘模型的需求进行对应数据模型的搭建,并能满足各种商业智能应用,这是校通大数据应用的最核心之处;
5、数据应用阶段是在数据模型的基础上进行的各类统计分析、报表分析、图形分析、商业智能 BI 应用和深度数据挖掘服务等。
他们还通过设计评论等互动环节来建立自己的信用,通过收藏等环节增加用户黏性。
学习分析就是利用数据和模型来预测学生在学习中的进步情况以及未来的表现和潜在的问题。
例如,相对单个学生而言,学生答题停留时间、对错状况、回头复习情况、网络提问、参与讨论等,计算机和网络都可以对此进行记忆分析,再以此为基础对学生的学习进行评价和诱导。由美国麦格劳-希尔教育出版集团开发的一种预测评估工具, 就能帮助学生评估自己的所学知识与达标测验所需要求之间的差距,进而分析判断学习中有待提高的地方。
智慧校园产生的大数据也能为教育舆情监控提供天然的服务,能及时反映教育舆情的主流观 点、传播趋势及相关的重要人物等信息。
在教育决策方面
大数据更能充分显示其作用之大。美国在大教育管理中就经常利用数据来就相关问题进行诊断和探索,以便作出相应的决策,如辍学危险期的学生状况、教育开支与学习成绩提升的关系、缺课与学生成绩的关系等。就此而言,大数据有利于推动 “决策智能化” ,使教育管理在业务驱动的基础上加强数据驱动的力度,即通过云平台使数据集聚,形成教育数据资源,然后深度挖掘和分析这些数据的价值,进而推动教育管理的智能决策。
( 三) 差异凸显教育管理的个性化
教育大数据的挖掘还可分析学生的兴趣、能力、特长,预测每个学生的需要。这样,大数据甚至可能颠覆传统教材、教学及考试制度。
2013 年 3 月,贵阳市白云区 9000 名学生开始英语教学信息化试点,教师与学生通过电子化教学手段进行互动,作业在平板电脑上完成,教师及时通过另一个终端进行作业批改,并进行个性化分析,从而在一定程度上实现了高效率的因材施教。例如,以平板电脑为载体,将课本内容、课后习题收录其中,然后对学生做题习惯、计算能力和速度、学生性别等数据进行区分,在教学的各个环节为学生提供个性化学习方案,就可以起到提高教学效率和教学质量的效果。
( 四) 共享数据凸显教育管理的整合性
哈佛大学和麻省理工大学就共同投入 6000 万美元开发在线教育平台,免费开放两校的授课过程,并以开源形式向其他大学和教育机构免费开放。教育领域区域性的数据共享也是重要的发展趋势。如美国科罗拉多 州 教 育 部 正 在 开 发 全 州 纵 向 数 据 系 (SLDS),旨在建立统一平台,将全州 178 个学区和 28 所公立高校的学生数据与福利、收入和劳动力等数据进行整合,并分析学生从幼儿园到大学的成绩,使地方行政官员和任课教师都能通过该系统了解和比较该州学生之间的表现,了解和分析收入水平、学前教育与中学阶段教育等因素对学生上大学、找工作等方面产生的影响。
教育领域中的大数据有广义和狭义之分,广义的教育大数据泛指所有来源于日常教育活动中人类的行为数据,它具有层级性、时序性和情境性的特征;而狭义的教育大数据是指学习者行为数据,它主要来源于学生管理系统、在线学习平台和课程管理平台等。
目前教育领域中大数据的应用主要有教育数据挖掘和学习分析两大方向,两个研究方向虽然同源,却在研究目的、研究对象和研究方法等方面截然不同。
一:教育数据挖掘
教育数据挖掘是综合运用数学统计、机器学习和数据挖掘的技术和方法,对教育大数据进行处理和分析,通过数据建模,发现学习者学习结果与学习内容、学习资源和教学行为等变量的相关关系,来预测学习者未来的学习趋势。 《报告》通过对教育数据挖掘领域专家进行访谈,列出了教育数据挖掘的四个研究目标 :
( 1 )通过整合学习者知识、动机、元认知和态度等详细信息进行学习者模型的构建,预测学习者未来学习发展趋势。
( 2 )探索和改进包含最佳教学内容和教学顺序的领域模型。
( 3 )研究各种学习软件所提供的教学支持的有效性。
( 4 )通过构建包含学习者模型、领域模型和教育软件教学策略的数据计算模型,促进学习者有效学习的发生。
《报告》指出,为了达到以上四个研究目标,研究者主要采用以下五类技术方法:
( 1 )预测。 建立一个能够从整合多个预测变量推断单一被预测变量的模式,例如,研究者通过在线学习环境中学习者参与在线讨论的情况、 测试情况等,预测学习者在该门课程的学习中是否有失败的风险。
( 2 )聚类。根据数据特性,将一个完整的数据集分成不同的子集,例如,研究者根据学习者在在线学习环境中学习困难、交互模式等将学习者分成不同的群组,进而为不同的群组提供合适的学习资源和组织合适的学习活动。
( 3 )关系挖掘。 探索数据集中各变量之间的相关关系,并将相关关系作为一条规则进行编码,例如,研究者利用关系挖掘,探索在线学习环境中学习者学习活动和学习成绩的相关关系,进而用于改进学习内容呈现方式和序列,以及在线教学方法。
( 4 )人类判断过程简化。用一种便于人类理解的方式描述数据,以便人们能够快速地判断和区分数据特征,该方法主要以可视化数据分析技术为主,用以改善机器学习模型。
( 5 )模型构建。 通过对数据集的聚类、相关关系挖掘等过程,构建供未来分析的有效现象解释模型。
二:学习分析
学习分析是近年来大数据在教育领域较为典型的应用,在国际上有专门针对学习分析研究和应用的国际会议“学习分析技术与知识国际会议”,目前已举办两届。 在首届会议上将学习分析定义为“测量、收集、分析和报告有关学习者及其学习情景的数据集,以理解和优化学习及其发生情景”。 新媒体联盟( New Media Consortium )将学习分析定义为:利用松散耦合的数据收集工具和分析技术,研究分析学习者学习参与、学习表现和学习过程的相关数据,进而对课程、教学和评价进行实时修正。 我国学者顾小清认为,学习分析是围绕与学习者学习信息相关的数据,运用不同的分析方法和数据模型来解释这些数据,根据解释的结果来探究学习者的学习过程和情景,发现学习规律;或者根据数据阐释学习者的学习表现,为其提供相应的反馈从而促进更加有效的学习 。学习分析是综合运用信息科学、社会学、计算机科学、心理学和学习科学的理论和方法,通过对广义教育大数据的处理和分析,利用已知模型和方法去解释影响学习者学习重大问题,评估学习者学习行为,并为学习者提供人为的适应性反馈。 例如,教师和学校根据学习分析的结果,调整教学内容、对有学习失败风险的学生进行干预等。 学习分析一般包括数据采集、数据存储、数据分析、数据表示和应用服务五个环节。
(一)自适应学习系统中教育大数据应用
(二)教育数据挖掘和学习分析典型应用
教育
IBM
IBM 与亚拉巴马州的莫白儿县公共学区进行大数据合作。结果显示,大数据对学校的工作具有重要作用。
希维塔斯学习(Civitas Learning)
“希维塔斯学习”是一家专门聚焦于运用预测性分析、机器学习从而提高学生成绩的年轻公司。该公司在高等教育领域建立起最大的跨校学习数据库。通过这些海量数据,能够看到学生的分数、出勤率、辍学率和保留率的主要趋势。通过使用100多万名学生的相关记录和700万个课程记录,这家公司的软件能够让用户探测性地知道导致辍学和学习成绩表现不良的警告性信号。此外,还允许用户发现那些导致无谓消耗的特定课程,并且看出哪些资源和干预是最成功的。
渴望学习(Desire 2 Learn)
这家公司的新产品名为“学生成功系统”(Student Success System)。“渴望学习”声称加拿大和美国的1000多万名高校学生正在使用其学习管理系统技术。“渴望学习”的产品通过监控学生阅读电子化的课程材料、提交电子版的作业、通过在线与同学交流、完成考试与测验,就能让其计算程序持续、系统地分析每个学生的教育数据。老师得到的不再是过去那种只展示学生分数与作业的结果,而是像阅读材料的时间长短等这样更为详细的重要信息,这样老师就能及时诊断问题的所在,提出改进的建议,并预测学生的期末考试成绩。
梦盒学习(Dream Box Learning)公司
纽顿(Knewton )公司
产品 “我的实验室/高手掌握”
教育数据与其他领域中的数据比较起来,有一些独特的特征。总结起来就是教育数据是分层的(hierarchical )。美国教育部教育技术办公室在《通过教育数据挖掘和学习分析增进教与学(公共评论草案)》的第18页中写道:“教育数据是„„分层的。有键击层(keystroke level)、回答层(answer level)、学期层(session level)、学生层(student level)、教室层(classroom level)、教师层(teacher level)和学校层(school level),数据就寓居在这些不同的层之中。”