知识点讲解
 
       数据挖掘常用技术
知识路径: > 计算机系统综合知识 > 数据库系统 > 数据仓库与数据挖掘技术 > 数据挖掘技术 > 
被考次数:1次
被考频率: 低频率
总体答错率: 54%
知识难度系数:
考试要求: 掌握     
相关知识点:12个
        常见和应用最广泛的数据挖掘方法有:
        (1)决策树。利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性,建立决策树的一个节点,再根据该属性的不同取值建设树的分支,在每个分支子集中重复建立树的下层节点和分支的过程。国际上最早的、也是最有影响的决策树方法是Quiulan研究的ID3方法。
        (2)神经网络。模拟人脑神经元结构,完成类似统计学中的判别、回归、聚类等功能,是一种非线性的模型,主要有3种神经网络模型,分别是前馈式网络、反馈式网络和自组织网络。人工神经网络最大的长处是可以自动地从数据中学习,形成知识,这些知识有些是我们过去未曾发现的,因此它具有较强的创新性。神经网络的知识体现在网络连接的权值上,神经网络的学习主要表现在神经网络权值的逐步计算上。
        (3)遗传算法。模拟生物进化过程的算法,它由3个基本过程组成,分别是繁殖(选择)、交叉(重组)、变异(突变)。采用遗传算法可以产生优良的后代,经过若干代的遗传,将得到满足要求的后代,即问题得解。
        (4)关联规则挖掘算法。关联规则是描述数据之间存在关系的规则,一般分为两个步骤:首先求出大数据项集,然后用大数据项集产生关联规则。
        除了上述的常用方法外,还有粗集方法、模糊集合方法、最邻近算法等。无论采用哪种方法完成数据挖掘,从功能上可以将数据挖掘的分析方法划分为6种,即关联分析、序列分析、分类分析、聚类分析、预测和时间序列分析。
        (1)关联分析。关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是事件发生的概率和条件概率应该符合一定的统计意义。
        (2)序列分析。序列分析技术主要用于发现一定时间间隔内接连发生的事件。这些事件构成一个序列,发现的序列应该具有普遍意义,其依据除了统计上的概率之外,还要加上时间的约束。
        (3)分类分析。分类分析通过分析具有类别的样本的特点,得到决定样本属于各种类别的规则或方法。利用这些规则和方法对未知类别的样本分类时应该具有一定的准确度。其主要方法有基于统计学的贝叶斯方法、神经网络方法、决策树方法等。
        (4)聚类分析。聚类分析是根据物以类聚的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程。其主要依据是聚到同一个组中的样本应该彼此相似,而属于不同组的样本应该足够不相似。
        (5)预测。预测与分类分析相似,但预测是根据样本的已知特征估算某个连续类型的变量的取值的过程,而分类则只是用于判别样本所属的离散类别而已。预测常用的技术是回归分析。
        (6)时间序列分析。时间序列分析的是随时间而变化的事件序列,目的是预测未来发展趋势,或者寻找相似发展模式或者是发现周期性发展规律。
 

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5
京公网安备 11010502032051号 | 营业执照
 Copyright ©2000-2023 All Rights Reserved
软考在线版权所有