1、大数据背景下的自学考试决策支持系统研究摘 要 在大数据时代,数据已经成为基础性资源,文章分析了大数据的基本概念及对决策支持系统的影响,在明确自学考试管理的决策需求基础上,提出了大数据背景下的自学考试决策支持过程模型,描述了大数据与决策行为的对应关系,设计了自学考试决策支持系统功能,包含数据管理子系统、分析模型管理子系统、用户交互环境子系统、数据安全管理子系统等。关键词 大数据;自学考试;决策支持中图分类号 G434 文献标志码 A作者简介 马尚玮(1966),男,甘肃天水人。副教授,硕士,主要从事教育考试理论与管理方面的研究。人、机、物三元世界的高度融合引发了数据规模的爆炸式增长和数据模式的高
2、度复杂化,世界已进入网络化的大数据(Big Data)时代。12由于大数据隐含着巨大的社会、经济、科研价值,已引起了各行各业的高度重视。345当前对大数据的研究以与国计民生密切相关的科学决策、环境与社会管理、金融工程、应急管理、电子商务以及知识经济为主要应用领域。决策支持系统结构化、非结构化混合的基础数据特征与“大数据”特征高度吻合,不断深入的大数据研究和应用,必将为决策支持系统的建设和应用带来更大的发展空间。一、大数据的特点及对决策支持系统的影响目前对大数据尚未有一个公认的定义,维基百科对大数据的定义是:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。6还有研究
3、者从大数据的特征出发,通过这些特征的阐述和归纳试图给出其定义,在这些定义中,比较有代表性的是 3V 定义,7即大数据的特点可以总结为三个 V:规模性(Volume)、多样性(Variety)和高速性(Velocity)。(1)规模性:当前数据集的规模不断扩大,已从GB 到 TB 再到 PB 级,甚至开始以 EB 和 ZB 来计数。(2)多样性:大数据的数据类型,从结构化数据(如关系型数据库中保存的数据),拓展到文本、音频、视频、图片、地理位置、Web 页面、微博、即时通讯等其他半结构化或非结构化的数据。(3)高速性:大数据往往以数据流的形式动态、快速地产生,具有很强的时效性,用户只有把握好对数
4、据流的掌控才能有效利用这些数据。另外,数据自身的状态与价值也往往随时空变化而发生演变,数据的涌现特征明显。大数据的 3V 特征使得数据已从传统意义上的简单处理对象变为一种基础性的资源,这些资源可以用来辅助解决其他领域的问题。在决策支持领域,获取了规模性、多样性和高速性的数据,决策支持系统可以立足于更大、更完整的数据集,通过数据分析,为决策者提供全局性的决策支持。随着“大数据”处理相关的人工智能、数据挖掘、数据可视化、数据分析等技术的进步,决策者可以从中挖掘出更多支持决策的有价值的信息。但同时也应看到,“大数据”时代,由于提供给决策支持系统的数据是全面的,所以要求高度重视决策支持系统的数据安全问
5、题,否则数据泄漏,对决策者可能产生不可估量的损失。二、自学考试管理对决策支持的需求自学考试管理包括专业计划、报考、助学、命题、考务考籍等方面。在整个工作流程中,涉及的数据多、结构复杂、来源广泛,部分数据具有很强的时效性,具有典型的大数据特征。正是由于这些数据中蕴含的大量有价值的知识和信息使得支持自学考试决策成为可能,在自学考试各个环节中产生了大量决策支持需求。随着大数据的规模、种类、真实性等的变化还会产生更多的需求。1.专业计划管理专业计划管理指对已开设的专业和准备开设专业的管理。在新开设和停、并、转某专业时,需要分析目前国家自考管理部门已同意开设专业基本情况及其发展趋势,未开设专业基本情况及
6、其发展趋势,不同专业计划的课程之间是否存在课程顶替的可能性,专业是否符合社会需求等。2.考生报考管理需要分析各专业的报考情况、报考考生基本特征、考生报考趋势等。3.助学组织管理目前自学考试助学组织有高等院校和社会助学组织。管理部门需要及时了解助学组织的招生情况和教学效果,并采取相应的监督、激励措施。助学组织需要及时了解自身的境遇,及时调整办学方向和思路。助学组织还需要为其学生提供个性化的学习策略指导和学习资源支持。4.命题管理在命题时,需要分析历年命题难易度、风格、形式,分析本次命题与历年命题的相似度、关联度,分析命题人员的特征,分析命题的潜在风险等。5.考务考籍管理在编排考场、印制试卷、实施
7、考试、网上阅卷、登录成绩等过程中,考务部门需要分析考区监考质量,分析监考人员、考生、阅卷人员、成绩登录人员、考区、考场之间的关联度及各自的特征等。三、自学考试决策支持系统研究(一)自学考试决策过程模型自学考试决策过程模型独立于具体的决策分析模型和决策系统,从方法论的角度明确形成决策支持的流程和步骤。如图 1 所示。图 1 自学考试决策过程模型1.提出需求自学考试管理人员从自身业务工作实际出发,提出决策支持的具体需求。2.评价需求评价需求指行业专家和数据专家共同分析自学考试管理人员提出的需求,共同参与沟通,最终明确需求并将之转化为决策系统易于理解的描述方式。3.构造数据集明确自学考试决策需求后,
8、通过数据抽样,检验数据质量,根据业务需求精选样本数据子集,必要时进行净化和数据转换,构造最终的数据集合。大数据来源广泛,类型复杂,这些大数据中往往包含很多数据噪音,需要在分析前进行数据的清洗和整理,甚至还需要人为补充相关内容。这一阶段的工作,主要由数据操作人员、数据管理人员、数据专家共同完成。4.构建模型依据数据特征和需求目标,选择相关技术手段和方法,建立模型,并不断校正和优化各种模型参数。模型的构建和完善是整个决策支持过程中最重要的环节。在具体实施中,需要自学考试管理人员、数据管理人员、数据专家、数据分析人员共同参与模型构建。表 1 自学考试中的大数据及其决策支持5.评价模型对模型分析结果进
9、行综合评价,找出效果最优化的模型。模型的优劣直接关系到分析结果的准确性,在模型正式发布之前一定要反复进行评价和调整,确保建立最优化的模型。在模型评价阶段,除技术专家在架构、算法上进行综合评价外,还需要自学考试管理人员对模型进行适用性评价,避免技术人员的理解偏差导致分析结果的失误。6.发布并实施模型通过提供易于使用、方便快捷的原型演示及图表演示软件,全面并快速显示数据分析结果,便于有效决策。7.支持决策自学考试管理人员依据系统提供的结构化、半结构化或者非结构化的分析结果进行决策。(二)决策过程中的大数据支持从决策过程模型可以看到,自学考试决策的每个环节都需要大数据的支持,这些数据包括已有的历史数
10、据、产生的过程性数据和结论性数据,它们都直接或间接地支持着决策分析。数据描述及对决策的支持见表 1。需要说明的是,在进行数据分析时,各决策模型还需要不断调整,对数据进行分解或合并,甚至要对已有的数据按照新规则进行重组。(三)自学考试决策系统功能设计依据自学考试对决策的需求和大数据背景下的决策支持流程,构建了自学考试决策支持系统。主要包含四个子系统:数据管理子系统、分析模型管理子系统、用户交互环境子系统和数据安全子系统。如图 2 所示。图 2 自学考试决策系统功能模型1.数据管理子系统自学考试的各类数据,包括结构性的数据(如数据库数据)、半结构化的数据(如HTML 网页数据)和非结构化的数据(如
11、考场视频监控存档文件),这些数据构成了开展数据挖掘的全集,但大数据并不代表着高价值,对这些数据必须要进行清洗,保证数据可靠的前提下,进行数据的抽取和集成,构成数据样本集合。2.分析模型管理子系统分析模型管理子系统主要在构建的数据样本集合上建立分析模型,对数据进行分类、聚合、关联和预测。该子系统的主要功能包含两部分:一是对各类分析模型的管理,二是依据模型对数据进行分析。分类是依据历史数据形成刻画用户特征的类标志,继而可以预测未来数据的归类情况。聚类是一种无指导的学习,在事先不知道数据分类的情况下,根据数据之间的相似程度进行划分,目的是使得同类别的数据对象之间的差别尽可能地小,不同类别的数据对象之
12、间的差别尽可能地大。预测基于输入的用户信息,通过模型的训练学习找出数据中的规律和趋势,以确定未来目标数据的预测值。关联是从数据子集合找出数据之间的联系。自学考试系统中主要需要建立的分析模型有专业报考趋势分析、助学组织招生人数趋势分析、考试合格率关联因素分析、助学组织教学质量分析、考生特征分析、命题难易度分析、考区监考质量分析、试题泄露风险预测、自学考试对社会贡献的分析等。3.用户交互环境子系统用户向系统提出分析请求及系统反馈分析结果都通过此子系统进行交互。数据分析产生的结果必须采用适当的显示方式展示给最终决策用户,良好的数据解释可以帮助用户更好地理解分析结果并支持决策行为。数据的可视化是目前常
13、采用的数据解释方式。数据可视化的内容至少包含三个方面:数据来源简述、数据图标或专业报表、数据参考结论。数据来源帮助用户更好地理解分析结果的由来,数据图标或专业报表可视化展示数据及数据之间的联系,数据参考总结了分析模型管理子系统的分析结果,该结果为用户提供结构化、半结构化、非结构化的决策支持。在自学考试管理过程中,常常需要通过在各个工作环节向系统提出决策需求,如报考人数分析、专业发展趋势分析、试题难易度分析等。这些分析结果都需要以专业图表的形式显示出来,并给出与图标相关联的解释信息,便于管理者快速作出考场编排、专业计划调整、命题修改等决策。4.数据安全管理子系统大数据环境下,由于决策支持所抽取的
14、数据均为自学考试的重要信息,要保证数据在存储、抽取、集成、分析、展示时的绝对安全,防止非法用户窃取或篡改考试信息。同时大数据分析过程中还会产生一些隐私数据,对这类数据的保护也非常重要。数据安全管理子系统贯穿于上述三个子系统中,为整个决策系统提供安全保障。四、小 结大数据时代的到来,使得人们开始面对更多大规模、种类繁杂的数据。对自学考试管理者而言,如何在大数据中获得有价值的信息,从而支持管理决策显得尤为重要。本文对自学考试主要工作对决策支持的需求作了分析,给出了自学考试管理决策支持的过程模型,描述了大数据对具体决策行为的支持关系,同时着重设计了自学考试管理决策支持系统功能。本文只是从需求出发设计
15、了系统功能模型,要真正去实现这样一个系统,还需要依赖于数据抽取和集成关键技术、数据挖掘技术、人工智能等各类研究的成果。同时,期望本研究能给同行研究者的相关研究提供一定的参考。参考文献1 李国杰.大数据研究的科学价值J.中国计算机学会通讯,2012,8(9):815.2 3 James Manyika,Michael Chui,Brad Brown et al.Big Data:The NextFrontier for Innovation,Competition,and ProductivityZ.McKinsey GlobalInstitute,2011.4 Divyakant Agrawa
16、l,Philip Bernstein,Elisa Bertino et al.Challengesand Opportunities with Big DataEB/OL.Cyber Center Technical Reports,February 2012.http:/docs.lib.purdue.edu/cctech/1.5 Pattern-Based Strategy:Getting Value from Big DataZ.Gartner GroupPress Release,2011.6 Big DataEB/OL.2012-10-02.http:/en.wikipedia.org/wiki/Big_data.7 Grobelnik,M.Big-data Computing:Creating RevolutionaryBreakthroughs in Commerce,Science,and SocietyR/OL.2012-1-02.http:/