欢迎光临112期刊网!
网站首页 > 论文范文 > 计算机论文 > 应用电子技术 > 决策树算法在高职院校成绩分析中的应用研究

决策树算法在高职院校成绩分析中的应用研究

日期:2023-01-24 阅读量:0 所属栏目:应用电子技术


摘 要:高职院校的学生的成绩是一项重要的数据,它不仅是对学生学习情况的评价,也是对教师教学质量的检查。本文研究了使用决策树算法对学生的成绩进行挖掘分析,分析学生的毕业设计成绩与基础类课程、专业类课程以及专项实践类课程之间隐藏的内在联系,指导教师在今后的教学中加强学生实践操作能力的训练,进而提高教学质量。

关键词:决策树; ID3算法; 数据挖掘 ;学生成绩分析

1.引言
  高职院校在多年的教学和管理工作中,积累了大量的教学管理数据,这些数据中蕴含了很多有价值的信息。如果利用数据挖掘技术对学院教务管理系统中教师和学生的数据进行挖掘,可以使教师更好的把握学生、把握教学过程,实现教学过程动态化管理,为学校合理设置课程、优化教育资源配置、提高教学质量提供可靠的数据依据,同时对提高学校教学和管理水平也有一定的帮助。[1]
  数据挖掘(Data Mining),即数据库中的知识发现,就是对庞大的数据集或数据库进行分析,挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则,可以为用户提供决策的依据[2]。决策树算法是数据挖掘的核心算法之一,决策树方法以树型结构表达最终分类结果的,也能生成If-Then形式的规则,便于使用者理解。
  在教务管理系统中,学生的成绩是一项重要的数据,它不仅是对学生学习情况的评价,也是对教师教学质量的检查。本文中研究使用决策树算法对学生的成绩进行挖掘分析,全面地分析学生的毕业设计成绩与实践类课程、专业类及基础类课程中隐藏的内在联系,体现出学生课程之间有一定的相互关联关系,可以及时指导教师在以后的教学工作中采取恰当的方法,加强学生实践操作能力的训练,指导学生进行专业、基础类课程的学习,提高教学质量。
2.决策树算法
  2.1决策树算法基本概念
  决策树是一种常用的、直观的分类归纳算法。决策树是一种类似流程图的树状结构,根据层次的不同,结点分为根结点、内部结点和叶结点三种类型。[3] 每个结点对应一个样本集,树的最高层结点就是根结点,对应整个样本集,内部结点对应一个类标志。根结点和内部结点都包含一个对样本属性的测试,根据测试的结果将样本集划分为两个或多个子集,每个子集生成一个分支,分支用测试属性值来标识。叶结点包含一个类标志,表示对应样本集的类别。决策树的中间结点通常用矩形表示;而叶子结点常用椭圆表示。
  决策树的构造包括两个步骤,一是生成决策树,二是进行剪枝。决策树的生成是从一个根结点开始,从下到下的递归过程,通过不断地将训练样本分割成子集来构造决策树,从根结点开始对该样本的属性进行测试,根据测试结果确定下一个结点,直至到达叶结点为止。决策树的剪枝是对树结构进行修剪,删除多余分支的过程,得到一棵最小期望错误率的决策树。
  2.2 ID3算法
  ID3算法是决策树学习算法中最有影响力、使用最广泛的一种决策树算法。ID3的基本思想是自顶向下递归地使用搜索训练样本集,是一种典型的贪心算法,在决策树的每个结点处测试每一个属性,用信息增益作为属性的选择标准,选择信息增益最大的属性作为决策树结点,从而构建决策树。[4]在算法中,在决策树结点属性的选择上使用信息论中熵(Entropy)的概念来完成。
  2.2.1 信息熵
  信息熵是各自信息量的期望,用信息熵可以用来度量整个信息源X整体的不确性。设样本数据集为X, n是信号源所有可能的符号数,ai是可能取到的值,P(ai)是取值为ai的概率。其信息熵如下:
   

  2.2.3平均信息增益
  信息增益表示两个信息量之间的差值,在进行分类属性的选择时,应该选择最大的信息增益作为分类属性。信息增益如下:
       Gain(XY)= H(X)-H(XY)
3.决策树算法在教学质量分析中的应用
  学生的毕业设计通常是学生对三年来所学的各种基础素养类课程、专业类课程、专项实践类课程的综合掌握,是体现一个学生的综合素质的重要依据,也是教师培养学生的教学质量的重要体现。因此,通过对学生的毕业设计和各种基础课、专业课及专业实践课的考试成绩的挖掘,分析出其中的关系,为今后教师调整教学方案提供依据。
  决策树算法对学生成绩进行分析,是将决策树的相关算法应用于学生成绩挖掘,对大量的考试成绩数据进行分析,从而更好的分析和预测成绩数据。[5]其主要过程如下:
  3.1数据收集
  数据收集阶段主要工作是从教务管理系统中收集与挖掘相关的学生成绩数据,并进行简单的统计分析,检查这些学生成绩数据是否完整。
  在进行数据挖掘之前,主要收集了我院2008级软件技术专业0801班42名学生不同学期的课程成绩作为原始数据,一共选择了9门课程。学生成绩表的主要内容包括学号及各门课程成绩。进行分类整理后,得到学生成绩数据表。

学号

计算机网络基础

C语言程序设计

WEB开发技术

数据库原理与应用

程序设计

C#程序设计

数据库设计与开发

基于C#的应用程序设计

基于C#的Windows应用程序设计

毕业设计

100080563

80

80

76

74

90

89

良好

良好

良好

中等

100080575

85

86

88

76

92

94

良好

优秀

优秀

优秀

100080593

60

75

95

69

79

80

中等

及格

及格

及格

……

 

 

 

 

 

 

 

 

 

 

  其中计算机网络基础、C语言程序设计、WEB开发技术三门为基础类课程,数据库原理与应用、程序设计、C#程序设计三门为专业类课程,数据库设计与开发、基于C#的应用程序设计、基于C#的Windows应用程序设计三门为专项实践类课程。
  3.2数据预处理
  数据预处理的主要工作就是检查数据库中不完整的、含噪声的,不一致的的数据,并且进行清理,除去噪音,填补记录中遗漏的数据值、删除无效数据等,提高挖掘算法的精度和有效性。并且要对数据进行转换,生成新的属性或记录,使之适合数据挖掘处理的格式,预处理后的数据可以节省数据处理的时间。
  在学生成绩表中,对学生因缺考、缓考、违纪、休学、退学等情况产生的成绩记录的缺失,可考虑进行清理,删除这些记录,确保表格数据的完整。最后形成有效数据共42条记录。
  3.3数据转换
  将收集到的数据信息转换为一个数据模型, 决策树算法中使用的是离散型数据,学生成绩是连续型的,因此,要将其数据属性进行离散化处理。
  学生成绩的成绩评价指标可分为三个等级,A:85-100(优秀),B:70-84(良好),C:69以下(一般)。离散化后的学生成 绩表如下图所示:

学号

基础课

专业课

专项实践课

毕业设计

100080563

B

B

B

B

100080575

A

A

A

A

100080593

B

C

C

C

……

 

 

 

 

  3.4  数据分类挖掘
  根据生成的分析模型,利用决策树算法对数据进行挖掘,具体情况如下。
  学生成绩表中样本类别属性为毕业设计,首先计算出毕业设计的信息熵。毕业设计成绩分为A(优秀)、B(良好)、C(一般)三种类别,其中优秀为3人,良好为28人,一般为11人,根据公式计算其信息熵如下:
  

(3)根据专项实践课成绩计算条件熵。
  专项实践课成绩为"A"人数为7人。其中毕业设计成绩为"A"的2人,为"B"的5人,为"C"的0人。专项实践课成绩为"B"人数为25人,其中毕业设计成绩为"A"的1人,为"B"的16人,为"C"的8人。专项实践课成绩为"C"人数为10人。其中毕业设计成绩为"A"的0人,为"B"的7人,为"C"的3人。因此其条件熵为:
  H(X专项实践课)=
  =1.022
  其信息增益为:
  Gain(专项实践课)=1.168-1.022=0.146
  由上述计算可见,专项实践课成绩属性所获得的信息增益最大,被作为根结点,并依次取专业课成绩、基础课成绩属性做为分支结点。通过构造和剪枝后,形成如图所示的决策树:

3.5 结果分析
  通过对上述决策树的分析,可得出如下结论:
  专项实践、专业课、基础课成绩均优秀的同学,毕业设计成绩优秀。专项实践优秀、专业课成绩一般的同学,无论基础课成绩如何,毕业设计成绩均为一般。由决策树分析可见,专项实践、专业课、基础课在学生的综合素质的培养中起到了不同程度的作用。专项实践课对学生的综合能力的培养有重要的影响,但不是绝对因素,基础课和专业课的教学安排,对学生的实践能力的训练起到了很大的支撑作用。因此,在专业的课程安排和教师的教学组织中,要注重学生的知识的学习与技能的训练的有机结合,提高学生的综合能力。
  
4.结束语
  利用决策树分类算法的ID3 算法对学生的成绩进行分析,构造出学生成绩分析决策树,可以挖掘出学生的毕业设计成绩与基础课程、专业课程、专项实践课程之间的隐藏关系,同时也挖掘出各类课程的学习对学生综合素质培养的影响。教师可以根据分析结果在今后的教学过程中,注重加强学生的专业能力培养、实践能力训练,培养出合格的高端技能型人才。
  
参考文献:
[1]丁智斌,袁方,董贺伟.数据挖掘在高校学生学习成绩分析中的应用[J].计算机工程与设计.2006.2(590-592)
[2]邵峰晶,于忠清,王金龙,孙仁诚. 数据挖掘原理与算法[M].北京:科学出版社.2009.
[3]陈安,陈宁,周龙骧.数据挖掘技术及应用[M].北京:科学出版社.2006.
[4]廖芹,郝志峰,陈志宏.数据挖掘与数学建模[M].北京:国防工业出版社.2010.
[5]邢晓宇,余建坤,陈磊.决策树算法在学生考试成绩中的应用[J].云南民族大学学报(自然科学版).2009.1(77-80) 

本文链接:http://www.qk112.com/lwfw/jsjlw/yydzjs/232527.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学