数据挖掘章概念描述特征化与比较



《数据挖掘章概念描述特征化与比较》由会员分享,可在线阅读,更多相关《数据挖掘章概念描述特征化与比较(55页珍藏版)》请在装配图网上搜索。
1、,,,,,,,Click to edit Master title style,,Click to edit Master text styles,,Second level,,Third level,,Fourth level,,Fifth level,,*,*,*,概念描述,2024/11/1,1,,特征化和比较,什么是概念描述?,,数据概化和基于汇总的特征化,,解析特征化,:,分析属性之间的关联性,,挖掘类比较,:,获取不同类之间的不同处,,在大型数据库中挖掘描述统计度量,,讨论,,总结,2024/11/1,2,,什么是概念描述?,描述性,vs.,预测性 数据挖掘,,描述性数据挖掘:,,
2、预测性数据挖掘:,,概念描述:,,特征化,:,对所选择的数据集给出一个简单明了的描述,汇总,,比较,:,提供对于两个或多个数据集进行比较的描述,2024/11/1,3,,概念描述和,OLAP,区别,概念描述:,,,能够处理复杂的数据类型和各种汇总方法,,,更加自动化,,OLAP:,,只能限制于少量的维度和数据类型,,用户控制的流程,2024/11/1,4,,特征化和比较,什么是概念描述?,,数据概化和基于汇总的特征化,,分析特征化,:,分析属性之间的关联性,,挖掘类比较,:,获取不同类之间的不同处,,在大型数据库中挖掘描述统计度量,,讨论,,总结,2024/11/1,5,,数据概化和基于汇总的
3、特征化,数据概化,,将大量的相关数据从一个较低的概念层次抽象、转化到一个比较高的层次,,,方法:,,OLAP,方法:,,面向属性的归纳,,2024/11/1,6,,OLAP,方法,在数据立方体上进行计算和存储结果,,优点,,效率高,,能够计算多种汇总,,如:,count,average,sum,min,max,,还可以使用,roll-down,和,roll-up,操作,,限制,,只能处理非数值化数据和数值数据的简单汇总。,,只能分析,不能自动的选择哪些字段和相应的概念层次,2024/11/1,7,,面向属性的归纳,KDD Workshop(89),中提出,,不限制于种类字段和特定的汇总方法,,
4、方法介绍:,,使用,SQL,等收集相关数据,,通过数据属性值删除和属性值概化来实现概化,,聚集通过合并相等的广义元组,并累计他们对应的计数值进行,,和使用者之间交互式的呈现方式.,,,2024/11/1,8,,基本方法,数据聚焦,:,选择和当前分析相关的数据,包括维。,,属性删除,:,如果某个属性包含大量不同值,但是,,1)在该属性上没有概化操作,,,或者2)它的较高层概念用其它属性表示。,,属性概化,:,如果某个属性包含大量不同值,同时在该属性上有概化操作符,则运用该操作符进行概化。,,属性阈值控制,:,,typical 2-8, specified/default.,,概化关系阈值控制,:
5、,控制最终关系的大小,2024/11/1,9,,基本算法,InitialRel,:,,得到相关数据,形成初始关系表,,PreGen,:,,通过统计不同属性的含有的不同值的个数决定是丢弃该属性还是对其进行汇总。,,PrimeGen,:,根据上一步的计算结果,对属性概化到相应的层次,计算汇总值,得到主概化关系。,,结果的表示,:,概化关系、交叉表、3,D,立方体,,2024/11/1,10,,示例,DMQL:,,,use,,Big_University_DB,,mine characteristics as,“Science_Students”,,in relevance to,name, gen
6、der, major, birth_place, birth_date, residence, phone#,,gpa,,from,,student,,where,status in “graduate”,,相应的,SQL:,,Select,name, gender, major, birth_place, birth_date, residence, phone#,,gpa,,from,student,,where,,status in {“,Msc,”, “MBA”, “PhD” },,2024/11/1,11,,类特征化:示例,Prime Generalized Relation,Ini
7、tial Relation,2024/11/1,12,,概化结果的表示,概化关系,:,,一个表格,其中有属性字段,后附汇总方法。,,交叉表,:,,二维交叉表,,可视化方法,:,,Pie charts, bar charts, curves, cubes, and other visual forms.,,量化特征规则,:,(,上表与,136,页例,4.26,),,2024/11/1,13,,表达方式-概化关系,(,133,页例,4.22,),,,,,,,,,,2024/11/1,14,,表达方式—交叉表,(,133,页例,4.23,),,,,,,,,,,2024/11/1,15,,使用,Cub
8、e,技术进行实现,对给定的数据动态创建数据立方体:,,便于有效的下钻操作,,可能增加响应时间,,解决方法:实现存储一些较高层次的统计信息。,,使用预定义的数据立方体:,,预先构建数据立方体,,Cube,计算的花费和额外的存储空间,2024/11/1,16,,特征化和比较,什么是概念描述?,,数据概化和基于汇总的特征化,,分析特征化,:,分析属性之间的关联性,,挖掘类比较,:,获取不同类之间的不同处,,在大型数据库中挖掘描述统计度量,,讨论,,总结,2024/11/1,17,,属性相关性分析,why?,,哪些维需要包括?,,需要概化到什么层次?,,减少属性;从而容易理解模型结果,,What?,,
9、使用统计的方法进行数据预处理,,过滤掉一些不相关或者相关性比较弱的字段,,保留并对相关属性进行排序,,相关性和维度、层次有关,,分析特征化,分析比较,2024/11/1,18,,属性相关性分析,步骤:,,数据收集,,,使用保守的,AOI,进行预相关分析,,,相关性分析,删除不相关和弱相关属性,,,使用,AOI,产生概念描述,,2024/11/1,19,,相关性度量标准,相关性度量标准决定了如何对属性进行判断的标准,,方法,,信息增益,information gain (ID3),,增益比,gain ratio (C4.5),,Gini,索引,gini,index,,不确定性,,相关系数,202
10、4/11/1,20,,Entropy,和,Information Gain,集合,S,中类别,C,i,的记录个数是,s,i,,个,i = {1, …, m},,期望信息,,,属性,A,的熵是,,,信息增益,,2024/11/1,21,,一个例子,(,131,页例,5.9,),任务,,使用分析特征化来了解研究生的一般特征,,,,属性名称,,gender, major,,birth_place,,,birth_date,, phone#,, and,gpa,,Gen(a,i,),= concept hierarchies on,a,i,,U,i,= attribute analytical thr
11、esholds for,a,i,,T,i,= attribute generalization thresholds for,a,i,,R,= attribute relevance threshold,2024/11/1,22,,例子:分析特征化(续),1. 数据收集,,target class: graduate student,,contrasting class: undergraduate student,,2.,使用,U,i,分析概化,,属性删除,,remove,name,and,phone#,,属性概化,,generalize,major,,,birth_place,,,birt
12、h_date,,and,,gpa,,accumulate counts,,候选关系:,gender,,,major,,,birth_country,,,age_range,and,gpa,,2024/11/1,23,,例子:分析特征化 (2),Candidate relation for Target class: Graduate students (,=120),Candidate relation for Contrasting class: Undergraduate students (,=130),2024/11/1,24,,例子:分析特征化 (3),3. 相关性分析,,计算期
13、望信息,,,,计算每个属性的熵,,,Number of grad students in “Science”,Number of undergrad students in “Science”,2024/11/1,25,,例子:分析特征化 (4),得出每个属性的熵,,,,计算每个属性的,Information Gain,,,Information gain for all attributes,,2024/11/1,26,,例子:分析特征化 (5),4.,Initial working relation (W,0,) derivation,,R = 0.1,,删除不相关或者弱相关的属性,=>
14、drop,gender,,,birth_country,,删除比较类的关系,,,,,,,,5.,在,W,0,进行,AOI,分析,Initial target class working relation W,0,: Graduate students,2024/11/1,27,,特征化和比较,什么是概念描述?,,数据概化和基于汇总的特征化,,分析特征化,:,分析属性之间的关联性,,挖掘类比较,:,获取不同类之间的不同处,,在大型数据库中挖掘描述统计度量,,讨论,,总结,2024/11/1,28,,挖掘类比较,比较:,比较两个或者更多类,.,,方法:,,,将相关的数据分成目标类和比较类。,,将两
15、个类别的数据概化到相同的层次。,,用相同层次的描述对元组进行比较。,,对于每个元组展现其描述和两个衡量标准:,,support - distribution within single class,,comparison - distribution between classes,,将差异很大的元组特别显示出来,,相关性分析:,,发现最能体现类别之间差异的属性.,2024/11/1,29,,例子:分析性比较,(,133,页例,5.10,),Task,,使用区别规则来分析本科生和研究生,,DMQL query,,,,use,Big_University_DB,,mine comparison
16、as,“,grad_vs_undergrad_students,”,,in relevance to,,name, gender, major, birth_place, birth_date, residence, phone#,,gpa,,for,“graduate_students”,,where,status in “graduate”,,versus,“undergraduate_students”,,where,status in “undergraduate”,,analyze,count%,,from,student,2024/11/1,30,,例子:分析性比较 (2),条件:
17、,,attributes,name, gender, major,,birth_place,,,birth_date,, residence, phone#,and,gpa,,Gen(a,i,),= concept hierarchies on attributes,a,i,,U,i,= attribute analytical thresholds for attributes,a,i,,T,i,= attribute generalization thresholds for attributes,a,i,,R,= attribute relevance threshold,,,,2024
18、/11/1,31,,例子:分析性比较(3),1. 数据收集,,目标类和比较类,,,2.,属性相关性分析,,remove attributes,name, gender, major, phone#,,,3.,同步概化,,controlled by user-specified dimension thresholds,,prime target and contrasting,class(es,) relations/cuboids,,2024/11/1,32,,例子:分析性比较 (4),Prime generalized relation for the target class: Grad
19、uate students,Prime generalized relation for the contrasting class: Undergraduate students,2024/11/1,33,,例子:分析性比较 (5),4. 在目标和比较类别上,,Drill down, roll up and other OLAP operations,,确定概化层次.,,,5.,展现方式,,generalized relations,,crosstabs,, bar charts, pie charts, or rules,,比较性的度量,以体现目标类和比较类之间的差别,,e.g. coun
20、t%,,,,2024/11/1,34,,量化区分规则,Cj,=,目标类,,q,a,=,概化元组,,也覆盖比较类别的元组,,d-weight,,范围: [0, 1],,,,量化区别规则,,,2024/11/1,35,,例子: 量化区别规则,量化区别规则,(,135,页例,5.11,),,,,,where 90/(90+120) = 30%,Count distribution between graduate and undergraduate students for a generalized,tuple,2024/11/1,36,,类别描述,量化特征规则,,,必要,,量化区别规则,,,充分
21、,,量化描述规则,,,,必要和充分,,,,2024/11/1,37,,例子: 量化描述规则,(,136,页例,5.13,),,,,,,对于目标类,Europe,的量化描述规则,(,137,页例,5.14,),,,,,Crosstab,showing associated t-weight, d-weight values and total number (in thousands) of TVs and computers sold at,AllElectronics,in 1998,2024/11/1,38,,特征化和比较,什么是概念描述?,,数据概化和基于汇总的特征化,,分析特征化,:,
22、分析属性之间的关联性,,挖掘类比较,:,获取不同类之间的不同处,,在大型数据库中挖掘描述统计度量,,讨论,,总结,2024/11/1,39,,挖掘数据散布特征,动机,,更好的了解数据: 集中趋势, 差别 和 分布,,数据散布特征,,,median, max, min,,quantiles,, outliers, variance,,等.,2024/11/1,40,,衡量中心趋势,平均值,,带权平均,,中位数,: 一个整体度量,,如果是奇数,则为中间数,偶数则为中间两数的平均,,用插值的方法进行估计,,模,,出现次数最多的值,,Unimodal,, bimodal,,trimodal,,Empi
23、rical formula:,,2024/11/1,41,,衡量离散趋势,四分位数, 异常 和 盒图,,四分位数:,,Q,1,(25,th,percentile), Q,3,(75,th,percentile),,中间四分位区间:,,IQR = Q,3,–,,Q,1,,五数概括:,,min, Q,1,, M,,,Q,3,, max,,盒图:,,ends of the box are the quartiles, median is marked, whiskers, and plot outlier individually,,异常:,,usually, a value higher/lowe
24、r than 1.5 x IQR,,方差和标准差,,Variance,,s,2,: (algebraic, scalable computation),,,Standard deviation,s,is the square root of variance,s,2,2024/11/1,42,,,盒图分析,五数概括,:,,Minimum, Q1, M, Q3, Maximum,,盒图,,数据用盒子的形式表现,,盒子的两端分别是两个分位数,,i.e., the height of the box is IRQ,,中位数用一条线来表示。,,延长线: 从盒子延长到最大和最小值,2024/11/1,4
25、3,,A,Boxplot,A,boxplot,2024/11/1,44,,数据分布的可视化:盒图分析,2024/11/1,45,,在大型数据库中挖掘统计信息,方差,,,,,标准差:,方差的平方根,,衡量分散程度,,当且仅当所有值一样的时候为0。,,方差和标准差都是代数的,2024/11/1,46,,直方图(频率直方图),图形化表示类描述的基本统计信息,,频率直方图,,2024/11/1,47,,分位数图,2024/11/1,48,,分位数-分位数,(Q-Q),图,2024/11/1,49,,散布图,2024/11/1,50,,Loess,曲线,2024/11/1,51,,图形化的表示基本统计描
26、述,直方图:,,盒图,:,,分位数图,:,,each value,x,i,,is paired with,f,i,,indicating that approximately 100,f,i,,% of data are,,,x,i,,,分位数-分位数图,(,q-q,) : graphs the,quantiles,of one,univariant,distribution against the corresponding,quantiles,of another,,散布图:,,each pair of values is a pair of coordinates and plott
27、ed as points in the plane,,Loess (local regression),曲线:,,add a smooth curve to a scatter plot to provide better perception of the pattern of dependence,2024/11/1,52,,特征化和比较,什么是概念描述?,,数据概化和基于汇总的特征化,,分析特征化,:,分析属性之间的关联性,,挖掘类比较,:,获取不同类之间的不同处,,在大型数据库中挖掘描述统计度量,,讨论,,总结,2024/11/1,53,,面向属性的归纳,vs.,示例学习方法,原理和基本假设的不同,,机器学习:正负样本。,,概念描述:只有正样本。,,训练样本集的大小,,机器学习:训练样本集小,,概念描述:训练样本集大。,,概化方法的不同,,机器学习:按照元组概化,,概念描述:按照属性概化,2024/11/1,54,,特征化和比较,什么是概念描述?,,数据概化和基于汇总的特征化,,分析特征化,:,分析属性之间的关联性,,挖掘类比较,:,获取不同类之间的不同处,,在大型数据库中挖掘描述统计度量,,讨论,,总结,,2024/11/1,55,,
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 36个关键词详解2025政府工作报告
- 学习2025年政府工作报告中的八大科技关键词
- 2025年政府工作报告要点速览接续奋斗共谱新篇
- 学习2025政府工作报告里的加减乘除
- 深化农村改革党课ppt课件(20250305)
- 弘扬雷锋精神凝聚奋进力量学习雷锋精神的丰富内涵和时代价值
- 深化农村改革推进乡村全面振兴心得体会范文(三篇)
- 2025年民营企业座谈会深度解读PPT课件
- 领导干部2024年述职述廉述责述学述法个人报告范文(四篇)
- 读懂2025中央一号党课ppt课件
- 2025年道路运输企业主要负责人安全考试练习题[含答案]
- 2024四川省雅安市中考英语真题[含答案]
- 2024湖南省中考英语真题[含答案]
- 2024宁夏中考英语真题[含答案]
- 2024四川省内江市中考英语真题[含答案]