数据挖掘分类方法

创始人

2024-03-21 19:26:47

0次

分类的目的是学会一个分类函数或分类模型（分类器），该模型能把数据库中的数据项映射到给定类别中的某一个类别。
分类可用于预测，常用的方法是回归，主要应用于医疗诊断，信用卡系统的信用分级、图像模式识别等。
分类器的构造方法有统计方法、机器学习方法、神经网络方法。

分类的基本概念与步骤

定义：给定一个数据库D = {t1，t2，……，tn }和一组类C={C1，C2，……，Cn}，分类问题是去确定一个映射f：D->C，每个元素ti被分配到一个类中。一个类Cj包含映射到该类中的所有元组，即Cj={ti|f(ti)=Cj,1<=i<=n,且ti∈D}。
数据分类分为两个步骤，建模和使用。目的是分析输入数据，为每个类找到一种准确的描述或模型。
基本步骤：建立一个模型，描述预定的数据类集或概念集，然后使用模型进行分类。
数据元组也称作样本、实例或对象，为建立模型而被分析的数据元组形成训练数据集。样本随机抽取，并独立于训练样本。

基于距离的分类算法

给定一个数据库D= {t1, t2, …, tn}和一组类C={C1，C2, …, Cm}。对于任意的元组ti = {ti1, ti2, …, tik}∈D，如果存在一个Cj属于C，使得：sim(ti, Cj) ≥ sim(ti, Cp), 任意Cp∈C， Cp ≠ Cj，则ti被分配到类Cj中，其中sim成为相似性。
在实际的计算中往往用距离来表征，距离越近，相似性越大，距离越远，相似性越小。
简单的基于距离寻找待分类数据类表示的搜索算法：假定每个类Ci用类中心来表示，每个元组必须和各个类的中心来比较，从而可以找出最近的类中心得到确定的类别标记，复杂性一般为O(n)。
基本步骤：

dist = INF;//距离初始化
for i = 1 to m doif dis(ci, t)

 
k-最临近分类算法（kNN）：假定每个类包含多个训练数据，且每个训练数据都有一个唯一的类别标记，k-最临近分类的主要思想就是计算每个训练数据到待分类元组的距离，取和待分类元组距离最近的k个训练数据，k个数据中哪个类别的训练数据占多数，则待分类元组就属于哪个类别。复杂度为O(nq)。
 具体描述： 
输入：	训练数据T；最临近数目k；待分类的元组t。
输出：	输出类别c。
N = σ;
for each d∈T do beginif |N|≤k thenN = N∪{d};elseif 存在u∈N such that sim(t,u) < sim(t,d) thenbeginN = N-{u};N = N ∪{d};end
end
c = class related to such u∈N which has the most number;
 
决策树分类方法 
决策树：采用自顶而下的递归方式，在决策树内部结点进行属性值的比较并根据不同的属性值判断从该节点向下的分支，在决策树的叶节点得到结论。 
决策树基本算法概述 
决策树生成：决策树生成算法的输入是一组带有类别标记的例子，构造的结果是一棵二叉树或多叉树。 
Generate_decision_tree//决策树生成算法
输入：训练样本sample，由离散值属性表示；候选属性的集合attribute_list。
输出：一棵决策树//由给定的训练数据产生一棵决策树
创建结点N
if sample 都在同一个类C then返回N作为叶节点，以类C标记；
if attribute_list 为空 then返回N作为叶节点，标记为samples中最普通的类；//多数表决
选择attribute_list中具有最高信息增益的属性test_attribute;
标记结点N为test_attribute;
for each test_attribute中的已知值ai//划分samples由结点N长出一个条件为test_attribute=ai的分支；
设si是samples中test_attribute=ai的样本的集合；//一个划分
if si 为空 then加上一个树叶，标记为samples中最普通的类；
else 加上一个由Generate_decision_tree(si,attribute_list-test_attribute)返回的结点；
 
决策树修剪：剪枝是一种克服噪声的基本技术，同时也能使树变得简化。
 预先剪枝：子生成树的同时决定是继续对不纯的训练子集进行划分还是停机。
 后剪枝：为一种拟合-化简的两阶段方法。首先生成于训练数据完全拟合的决策树，然后从树的叶子开始剪枝，逐步向根的方向剪。如果存在某个叶子剪去后使得在测试集上的准确度或其他测度不降低，则减去该叶子；否则停机。 
ID3算法 
ID3：决策树中每个非叶节点对应一个非类别属性，树枝代表这个属性的值。一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性值。每个非叶结点都将与属性中具有最大信息量的非类别属性相关联。采用信息增益来选择出能够最好地将样本分类的属性。
 信息增益基于信息论中熵的概念，ID3总是选择具有最高信息增益的属性作为当前结点的测试属性。


            
            
                
                
                词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。
                            
            
                
                    上一篇：提升Java性能的优化细节

                
                
                    下一篇：[附源码]JAVA毕业设计砂石矿山管理系统（系统+LW）                
            
            
            
                
                相关内容


    

    
    
        
        
            
            
                
                
                    
                    
                        
                        热门资讯
                        
                    
                    
                
                
            
            
            
            

                                
                
                    
                    
                        
                    
                    
                    
                    
                        保存时出现了1个错误，导致这篇...
                        当保存文章时出现错误时，可以通过以下步骤解决问题：查看错误信息：查看错误提示信息可以帮助我们了解具体...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        汇川伺服电机位置控制模式参数配...
                        1. 基本控制参数设置 1）设置位置控制模式    2）绝对值位置线性模...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        不能访问光猫的的管理页面
                        光猫是现代家庭宽带网络的重要组成部分，它可以提供高速稳定的网络连接。但是，有时候我们会遇到不能访问光...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        表格中数据未显示
                        当表格中的数据未显示时，可能是由于以下几个原因导致的：HTML代码问题：检查表格的HTML代码是否正...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        本地主机上的图像未显示
                        问题描述：在本地主机上显示图像时，图像未能正常显示。解决方法：以下是一些可能的解决方法，具体取决于问...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        表格列调整大小出现问题
                        问题描述：表格列调整大小出现问题，无法正常调整列宽。解决方法：检查表格的布局方式是否正确。确保表格使...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        不一致的条件格式
                        要解决不一致的条件格式问题，可以按照以下步骤进行：确定条件格式的规则：首先，需要明确条件格式的规则是...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        Android|无法访问或保存...
                        这个问题可能是由于权限设置不正确导致的。您需要在应用程序清单文件中添加以下代码来请求适当的权限：此外...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        【NI Multisim 14...
                          目录  序言 一、工具栏 🍊1.“标准”工具栏 🍊 2.视图工具...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        银河麒麟V10SP1高级服务器...
                        银河麒麟高级服务器操作系统简介： 银河麒麟高级服务器操作系统V10是针对企业级关键业务...

数据挖掘 分类方法

分类的基本概念与步骤

基于距离的分类算法

决策树分类方法

决策树基本算法概述

ID3算法

相关内容

热门资讯

数据挖掘分类方法