厦门大学数据挖掘数据的排序即有向聚类分析课件



《厦门大学数据挖掘数据的排序即有向聚类分析课件》由会员分享,可在线阅读,更多相关《厦门大学数据挖掘数据的排序即有向聚类分析课件(68页珍藏版)》请在装配图网上搜索。
1、,,,,,,,单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,*,*,第五章,数据的排序及有向聚类分析,,§5.1,引言,,,§5.2,事务项的排序标准,,,§5.3,属相项的排序标准,,,§5.4,数据的衍生,,,§5.5,有序近邻聚类分析,,,§5.6,有序平均秩效应聚类分析,11/28/2024,§5.1,引 言,,数据排序在数据挖掘中显得尤为重要,但往往被人们所忽视,.,因为在数据量较少时,对于排序看起来不是什么问题,也无需专门去研究和讨论,.,然而,对于海量数据的分析,排序问题就不是那么简单了,.,可以想象利用,Web,的有关资料,
2、我们如何将网络广告、街头广告、报刊广告等对电视广告的影响程度排序呢?又如,在大学生成长和发展过程,因素,q,1,,q,2,,...,q,25,所起的作用大小又是如何呢?,这些问题的解决不仅为进一步的数据挖掘提供适合的数据形式,而且为数据分析过程中的算法改进、提高精度、增强有效性奠定了理论基础,.,11/28/2024,,数据排序必须要有,研究对象,,即我们是对属性项,(,变量,),进行排序,还是对事务项,(,样本,),进行排序,这一点必须要明确,.,研究对象要根据问题的研究目的和内容来确定,.,,,,在明确了排序的对象后,进行排序前还要确定一个,排序标准,,标准不一样,排序的结果不一样,.,排
3、序标准的确定不是那么轻而易举的,如果标准确定不好,不仅反映不出实际问题,而且还有可能误导人们对问题的认识,.,因此,排序标准的确定既要建立在一定的理论基础上,而且又要有一定的实际背景,.,这方面的内容我们将在后面详细探讨,.,11/28/2024,,随着对数据的进一步考虑,我们将会发现,,排序后数据之间的“距离”,(包括相似的概念,以后不再强调),并不相等,,也就是排序后数据的稀疏程度不均匀.由于数据量过大,我们自然要关心的是对一个数据集合进行分析,,这样就提出了如何对排序资料进行聚类分析.,11/28/2024,,我们知道聚类分析源于许多研究领域,包括数据挖掘、统计学、生物学以及机器学习,,
4、但对有序样品的聚类分析的理论内容并不多,,(,胡国定,张润楚,(1989), 286-319),,而且所研究的内容立足点是,已知变量,(,或样品,),具有一定的顺序,其顺序在聚类中是不能打乱的,即只能按其顺序分成若干类,.,例如,欲了解儿童的生长发育规律,对所获得的儿童的体重按发育阶段进行分类,这里很清楚,只能按年龄由小到大分成若干个发育阶段,如果按不同的年龄,(,非顺序性,),将儿童的体重进行聚类分析,这样的结果不适合生长发育规律的要求,.,这类有序变量,(,或样品,),是客观现实中存在的,这种有序我们称为,客观有序,.,,11/28/2024,,对于非有序数据进行聚类分析,这在数据挖掘中已
5、经成为一个非常活跃的研究课题 (Trespv,V. (2001),Van,,Hulle,M.M.(2000),Gardner,M.,,,,Lalmas,M.and Ruthven,I.(2001),Friedman,J.H.,,(1997)).但是根据我们研究的内容和聚类的目的,将数据排序后,再进行聚类分析,这样不仅会对聚类的结果有更细致深刻的认识,还会大大提高聚类的运算速度.,在这里我们所涉及到的有序数据是根据某一研究的目的排列而成的,这种有序我们称为目的有序.,11/28/2024,§5.2.1,以信息源为标准的排序,§5.2,事务项(样品)的排序标准,11/28/2024,11/28/2
6、024,§5.2.2,以综合属性项为标准的排序,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.2.3,移动通讯用户综合费用排序,,我们已经对某地区中国移动通讯用户数据库进行了压缩分析,得到了关于属性子集,A={,本地话费、长途话费、漫游费,},的压缩信息系统,.,现在将利用上面的方法对移动通讯用户的消费情况进行综合评价,以,2001,年,10,月的压缩信息系统为例分析,.,计算出综合评价指标,Z,,将其可视化得到,2001,年,10,月移动通讯用户消费属性综合评价分布,(,图,1-b),,比较接近用户消费概率分布,,(,图,
7、1-a),,综合排序以后的分布见图,2,,由于图,2,反映出排序以后前,20,位的综合指标较大,将其事务项列出见下表,.,11/28/2024,图,1-a,图,1-b,移动通讯用户消费概率分布与综合属性评价分布比较,11/28/2024,图,2,移动通讯用户消费综合属性评价排序,11/28/2024,11/28/2024,,通过分析我们可以挖掘出以下知识:,,,,,i).,以此排序结果看,该地区移动手机用户平均消费最大的综合评价指标值是,0.9865,,即本地话费在,3,档上,(100-300,元,),,长途话费和漫游费的消费在,2,档上,(0-100,元,).,从总体上,该地区的移动手机用户
8、的本地话费消费群体集中在,3,档,长途话费和漫游费的消费群体集中在,2,档上,处于中低档消费水平,.,,ii).,这里需要特别说明的是,所有的,1,档消费群体综合评价指标值为,0.0513,,排在第,13,位,这些消费者虽然拥有手机但没有消费,它直接影响着该地区移动通讯的业务总收入量,这部分消费者具有潜在流失倾向,公司应该针对此情况采取措施,.,我们对以后的几个月进行分析,发现这种情形越发严重,.,这种异常现象的发现,充分体现了数据挖掘的特点,.,11/28/2024,§5.3,属性项,(,变量,),的排序标准,11/28/2024,§5.3.1,以平均水平为标准的排序,11/28/2024,
9、11/28/2024,11/28/2024,§5.3.2,以秩效应为标准的排序,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.4,数据的衍生,§5.4.1,数据矩阵,,,聚类分析是一种重要的人类行为,通过聚类人们能够识别密集和稀疏的区域,因而发现全局的分布模式,以及数据属性之间有趣的相互关系,.,聚类分析作为数据挖掘的一种功能,不仅能独立地来获得数据分布情况,观察每个族的特点,集中对待定的某些族作出进一步的分析,而且还是进行其它数据分析,(,如回归、分类、网络分析等,),的预处理过程,(Owen, A. B. (1999))
10、.,可以说,聚类分析不论在理论上,还是在应用上正在蓬勃发展,有贡献的研究领域包括数据挖掘,(,Trespv,, V. (2001)),、统计学,(Van,Der,Ark, L. A., Van,Der,,Heijden,, P. G. M. and,Sikkel,, D. (1999)),、机器学习,(Krieger, A. M. and Green, P. E. (1999)),、空间数据库技术,(Nelson, D. E. (2001)),、生物学,(Segal, E. and,Koller,, D.),以及市场营销,(,Yun,, C. H.,,Chuang,, K. T. and
11、Chen, M. S.),等,.,由于数据库中收集了大量的数据,聚类分析的研究工作已经涉及到大型数据库的有效和实际的聚类分析寻找适当的方法上,.,那么,聚类分析所针对的数据类型如何呢?这一问题的明确,将会为聚类分析的方法研究澄清思路,.,11/28/2024,11/28/2024,§5.4.2,相异度矩阵,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.5,有序近邻聚类分析,§5.5.1,相似指标的确定及聚类分析,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.5.2 Fisher,最优求解法与有序近
12、邻方法的比较,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.6,有序平均秩效应聚类分析,§5.6.1,平均秩效应原则及聚类方法,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,,11/28/2024,11/28/2024,11/28/2024,,通过上面的计算结果我们可以挖掘出一下知识:,,
13、,,i).,第一类与第二类所包含水平的影响程度明显地高于平均影响程度,而且第一类远远高于其他类对大学生成长与发展的影响,,说明个人对未来的发展动机与家庭状况对自己的成长与发展影响最大,.,第二类仅次于平均影响程度,说明大学生对专业知识的加强在自己的成长与发展中起着相当重要的作用,.,,ii).,第三类包括社会政治环境、报刊杂志的内容、兄弟姐妹言行、校风学风状况,.,由于报刊杂志的内容、兄弟姐妹言行、校风学风状况均与社会环境的好坏有着密切的关系,,我们可以将这一类概括为在现社会大环境因素,它对大学生成长和发展的影响与平均影响程度没有显著性的差异,.,,iii).,第四类、第五类与第六类所包含水平
14、的影响程度均低于平均影响程度,.,11/28/2024,,第四类所包括的内容从两个方面影响大学生的成长与发展,即一是对物质方面的追求,二是老师言行及典型人物的影响,例如科学家和英雄人物,.,,,第五类包括校园文化活动、学校管理制度和学校周围环境,.,说明学校的各种状况对大学生成长与发展有一定的影响,.,,,第六类所包括的水平有一般性的学术讲座、学校政治思想工作、同班同学言行举止、录像或电影内容、老乡的各种行为,这一类涉及的内容比较广,称其为综合水平,.,其中老乡的各种行为影响程度最小,而且它与其它水平影响程度的差异比较大,说明老乡的各种行为在大学生成长与发展中作用极小,.,在这里需要强调的是,
15、一般性的学术讲座和学校政治思想工作的影响程度略低于第五类,表明它们对大学生成长与发展有影响,但这种影响远远低于平均影响程度,.,这就要求学校有针对性的开展一般性的学术活动和政治思想工作,.,11/28/2024,,最后需要说明的是,平均秩效应聚类分析是建立在秩分析基础之上的,类与类之间可以比较影响程度的大小,从中可以寻找出主要因素类和次要因素类,为解决实际问题提供较为可靠的依据,.,为了特别地突出主次之分,在平均秩效应聚类过程中,以,1/2,的平均影响程度或以,3/2,的平均影响程度为标准进行聚类分析,.,为了分析的更加细腻,可以将这些标准联合运用进行平均秩效应聚类分析,.,11/28/2024,聚类分析的效应检验,11/28/2024,,11/28/2024,,11/28/2024,,11/28/2024,参考文献,11/28/2024,11/28/2024,本章结束,11/28/2024,
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 踏春寻趣 乐享时光——春季旅游踏春出游活动
- 清明假期至安全不缺席风起正清明安全需守护
- 全国党员教育培训工作规划
- XX中小学公共卫生培训树立文明卫生意识养成良好卫生习惯
- 小学生常见传染病预防知识培训传染病的预防措施
- 3月18日全国爱肝日中西医结合逆转肝硬化
- 肝病健康宣教守护您的肝脏健康如何预防肝炎
- 垃圾分类小课堂教育绿色小卫士分类大行动
- 中小学班主任经验交流从胜任到优秀身为世范为人师表 立责于心履责于行
- 教师数字化转型理解与感悟教师数字化转型的策略与建议
- 团建小游戏团建破冰小游戏团队协作破冰游戏多人互动
- 教师使用deepseek使用攻略让备课效能提升
- 办公室会议纪要培训会议内容会议整理公文攥写
- 党员要注重培塑忠诚奋斗奉献的人格力量
- 橙色卡通风儿童春季趣味运动会