数据挖掘层次聚类ppt课件



《数据挖掘层次聚类ppt课件》由会员分享,可在线阅读,更多相关《数据挖掘层次聚类ppt课件(34页珍藏版)》请在装配图网上搜索。
1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,层次聚类,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,7.5,层次聚类方法,7.5层次聚类方法,1,2024/11/21,层次聚类,2,层次聚类方法概述,层次聚类方法将数据对象组成一棵聚类树。,根据层次分解是自底向上(合并)还是自顶向下(分裂),进一步分为凝聚的和分裂的。,2023/10/7层次聚类2层次聚类方法概述层次聚类方法将数,2,2024/11/21,层次聚类,3,层次聚类方法概述,凝聚的层次聚类:一种自底向上的策略,首先将每个对象作为一个簇,然后
2、合并这些原子簇为越来越大的簇,直到某个终结条件被满足。,分裂的层次聚类:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。,层次凝聚的代表是,AGNES,算法。层次分裂的代表是,DIANA,算法。,2023/10/7层次聚类3层次聚类方法概述凝聚的层次聚类:,3,2024/11/21,层次聚类,4,簇间距离,最小距离,2023/10/7层次聚类4簇间距离最小距离,4,2024/11/21,层次聚类,5,簇间距离,最大距离,2023/10/7层次聚类5簇间距离最大距离,5,2024/11/21,层次聚类,6,簇间距离,平均距离,2023/10/
3、7层次聚类6簇间距离平均距离,6,2024/11/21,层次聚类,7,簇间距离,均值距离,2023/10/7层次聚类7簇间距离均值距离,7,2024/11/21,层次聚类,8,AGNES,算法,AGNES(AGglomerative NESting),算法最初将每个对象作为一个簇,然后这些簇根据某些准则被一步步地合并。,两个簇间的相似度由这两个不同簇中距离最近的数据点对的相似度来确定。,聚类的合并过程反复进行直到所有的对象最终满足簇数目。,2023/10/7层次聚类8AGNES算法AGNES(AGg,8,2024/11/21,层次聚类,9,AGNES,算法,输入:,n,个对象,终止条件簇的数目
4、,k,。,输出:,k,个簇,达到终止条件规定簇数目。,(1),将每个对象当成一个初始簇;,(2)REPEAT,(3),根据两个簇中最近的数据点找到最近的两个簇;,(4),合并两个簇,生成新的簇的集合;,(5)UNTIL,达到定义的簇的数目;,2023/10/7层次聚类9AGNES算法输入:n个对象,终,9,2024/11/21,层次聚类,10,AGNES,算法例题,序号 属性,1,属性,2,1 1 1,2 1 2,3 2 1,4 2 2,5 3 4,6 3 5,7 4 4,8 4 5,第,1,步:根据初始簇计算每个簇之间的距离,随机找出距离最小的两个簇,进行合并,最小距离为,1,,合并后,1,
5、2,两个点合并为一个簇。,第,2,步:对上一次合并后的簇计算簇间距离,找出距离最近的两个簇进行合并,合并后,3,4,点成为一簇。,第,3,步:重复第,2,步的工作,,5,6,点成为一簇。,第,4,步:重复第,2,步的工作,,7,8,点成为一簇。,第,5,步:合并,1,2,,,3,4,成为一个包含四个点的簇。,第,6,步:合并,5,6,,,7,8,,由于合并后的簇的数目已经达到了用户输入的终止条件,程序终止。,步骤 最近的簇距离 最近的两个簇 合并后的新簇,1 1 1,,,2 1,2,,,3,,,4,,,5,,,6,,,7,,,8,1 3,,,4 1,2,,,3,4,,,5,,,6,,,7,,,
6、8,1 5,,,6 1,2,,,3,4,,,5,6,,,7,,,8,1 7,,,8 1,2,,,3,4,,,5,6,,,7,8,1 1,2,3,4 1,2,3,4,,,5,6,,,7,8,1 5,6,,,7,8 1,2,3,4,,,5,6,7,8,结束,2023/10/7层次聚类10AGNES算法例题序号,10,2024/11/21,层次聚类,11,2023/10/7层次聚类11,11,2024/11/21,层次聚类,12,2023/10/7层次聚类12,12,2024/11/21,层次聚类,13,2023/10/7层次聚类13,13,2024/11/21,层次聚类,14,AGNES,特点,A
7、GNES,算法比较简单,但经常会遇到合并点选择的困难。假如一旦一组对象被合并,下一步的处理将在新生成的簇上进行。已做处理不能撤销,聚类之间也不能交换对象。如果在某一步没有很好的选择合并的决定,可能会导致低质量的聚类结果。,2023/10/7层次聚类14AGNES特点AGNES算法比,14,2024/11/21,层次聚类,15,DIANA,算法,DIANA,(,Divisive ANAlysis),算法是典型的分裂聚类方法。,在聚类中,用户能定义希望得到的簇数目作为一个结束条件。,2023/10/7层次聚类15DIANA算法DIANA(Di,15,算法,DIANA,(自顶向下分裂算法),输入:,
8、n,个对象,终止条件簇的数目,k,。,输出:,k,个簇,达到终止条件规定簇数目。,(,1,)将所有对象整个当成一个初始簇;,(,2,),FOR,(,i=1;ik;i+)DO BEGIN,(,3,)在所有簇中挑出具有最大直径的簇,C,;,(,4,)找出,C,中与其它点平均相异度最大的一个点,p,并把,p,放入,splinter group,,剩余的放在,old party,中;,(,5,),REPEAT,(,6,)在,old party,里找出到最近的,splinter group,中的点的距离不大于到,old party,中最近点的距离的点,并将该点加入,splinter group,。,(,
9、7,),UNTIL,没有新的,old party,的点被分配给,splinter group,;,(,8,),splinter group,和,old party,为被选中的簇分裂成的两个簇,与其它簇一起组成新的簇集合。,(,9,),END.,算法 DIANA(自顶向下分裂算法),16,序号属性,1,属性,2,111,212,321,422,534,635,744,845,DIANA,算法例题,第,1,步,找到具有最大直径的簇,对簇中的每个点计算平均相异度(假定采用是欧式距离)。,1,的平均距离:(,1+1+1.414+3.6+4.24+4.47+5,),/7=2.96,类似地,,2,的平均距
10、离为,2.526,;,3,的平均距离为,2.68,;,4,的平均距离为,2.18,;,5,的平均距离为,2.18,;,6,的平均距离为,2.68,;,7,的平均距离为,2.526,;,8,的平均距离为,2.96,。,找出平均相异度最大的点,1,放到,splinter group,中,剩余点在,old party,中。,第,2,步,在,old party,里找出到最近的,splinter group,中的点的距离不大于到,old party,中最近的点的距离的点,将该点放入,splinter group,中,该点是,2,。,第,3,步,重复第,2,步的工作,,splinter group,中放入
11、点,3,。,第,4,步,重复第,2,步的工作,,splinter group,中放入点,4,。,第,5,步,没有在,old party,中的点放入了,splinter group,中且达到终止条件(,k=2,),程序终止。如果没有到终止条件,因该从分裂好的簇中选一个直径最大的簇继续分裂。,步骤具有最大直径的簇,splinter groupOld party,11,,,2,,,3,,,4,,,5,,,6,,,7,,,8 12,,,3,,,4,,,5,,,6,,,7,,,8,21,,,2,,,3,,,4,,,5,,,6,,,7,,,8 1,,,23,,,4,,,5,,,6,,,7,,,8,31,,
12、,2,,,3,,,4,,,5,,,6,,,7,,,8 1,,,2,,,34,,,5,,,6,,,7,,,8,41,,,2,,,3,,,4,,,5,,,6,,,7,,,8 1,,,2,,,3,,,45,,,6,,,7,,,8,51,,,2,,,3,,,4,,,5,,,6,,,7,,,8 1,,,2,,,3,,,45,,,6,,,7,,,8,终止,序号属性 1属性 2DIANA算法例题第1步,找到具有,17,2024/11/21,层次聚类,18,层次聚类方法的改进,层次聚类方法尽管简单,但经常会遇到合并或分裂点的选择的困难。,改进层次方法的聚类质量的一个有希望的方向是将层次聚类和其他聚类技术进行集
13、成,形成多阶段聚类。,下面介绍,3,个改进的层次聚类方法,BIRTH,,,ROCK,和,Chameleon,。,2023/10/7层次聚类18层次聚类方法的改进层次聚类方法,18,2024/11/21,层次聚类,19,BIRCH,算法,BIRCH,(,Balanced Iterative Reducing and Clustering,)利用层次方法的平衡迭代归约和聚类,用聚类特征(,CF,)和聚类特征树来概括聚类描述。,该算法通过聚类特征可以方便地进行中心、半径、直径及类内、类间距离的运算。,2023/10/7层次聚类19BIRCH算法BIRCH(B,19,2024/11/21,层次聚类,2
14、0,聚类特征(CF),CF(Clustering Feature),:包含簇信息的三元组,(N,LS,SS),,,N,:簇的数据点;,LS,:线性和;,SS,:平方和,假定在簇,C1,中有三个点,(2,5),(3,2),(4,3),聚类特征是:,CF1=,=,2023/10/7层次聚类20聚类特征(CF)CF(Clus,20,2024/11/21,层次聚类,21,聚类特征,树,CF,树是一个具有两个参数分支因子,B,和阈值,T,的高度平衡树。,分支因子,B,:非叶节点可以拥有的孩子数,阈值,T,:叶子节点中的子聚类的最大直径,2023/10/7层次聚类21聚类特征树CF树是一个具有两个,21,
15、2024/11/21,层次聚类,22,阶段一:扫描数据库,建立一个初始的,CF,树,它可以被看作一个数据的多层压缩,试图保留数据内在的聚类结构。当一个对象被插入到最近的叶节点(子聚类)中时,随着对象的插入,,CF,树被动态地构造,因此,,BIRTH,方法对增量或动态聚类也非常有效。,阶段二:采用某个聚类算法对,CF,树的叶节点进行聚类。在这个阶段可以执行任何聚类算法。,BIRCH,算法,2023/10/7层次聚类22 阶段一:扫描数据库,建立一个,22,2024/11/21,层次聚类,23,ROCK,ROCK(Robust Clustering using linKs,使用连接的鲁棒聚类,大多
16、数聚类算法在进行聚类时只估计点与点之间的相似度,即在每一步中那些最相似的几个点合并到一个簇中。这种“局部”方法很容易导致错误。例如:两个完全不同的簇可能有少数几个点的距离较近,仅仅依据点与点之间的相似度来做出聚类决定就会导致这两个簇合并。,ROCK,采用一种比较全局的观点,通过考虑成对点的邻域情况进行聚类。,2023/10/7层次聚类23ROCKROCK(Robust,23,2024/11/21,层次聚类,24,ROCK,两个概念:近邻和链接,近邻:两个点,pi,和,pj,是近邻,如果,sim(pi,pj)=,sim,是相似度函数,,是指定的阈值,链接:两个点,pi,和,pj,的链接数定义为这两点的共同近邻个数。,由于在确定点对之间的关系时考虑邻近的数据点,因此比只关注相似度的聚类方法更加鲁棒。,2023/10/7层次聚类24ROCK两个概念:近邻和链接,24,ROCK,例:购物篮数据库包含关于商品,a,b,g,的事物记录。簇,C1,涉及商品,a,b,c,d,e,簇,C2,涉及商品,a,b,f,g,假设:只考虑相似度而忽略邻域信息。,C1,中,a,b,c,和,b,d,e,之间的,Jac
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 踏春寻趣 乐享时光——春季旅游踏春出游活动
- 清明假期至安全不缺席风起正清明安全需守护
- 全国党员教育培训工作规划
- XX中小学公共卫生培训树立文明卫生意识养成良好卫生习惯
- 小学生常见传染病预防知识培训传染病的预防措施
- 3月18日全国爱肝日中西医结合逆转肝硬化
- 肝病健康宣教守护您的肝脏健康如何预防肝炎
- 垃圾分类小课堂教育绿色小卫士分类大行动
- 中小学班主任经验交流从胜任到优秀身为世范为人师表 立责于心履责于行
- 教师数字化转型理解与感悟教师数字化转型的策略与建议
- 团建小游戏团建破冰小游戏团队协作破冰游戏多人互动
- 教师使用deepseek使用攻略让备课效能提升
- 办公室会议纪要培训会议内容会议整理公文攥写
- 党员要注重培塑忠诚奋斗奉献的人格力量
- 橙色卡通风儿童春季趣味运动会