离群点分析ppt课件

上传人:阳*** 文档编号:81858666 上传时间:2022-04-28 格式:PPT 页数:18 大小:764.50KB
收藏 版权申诉 举报 下载
离群点分析ppt课件_第1页
第1页 / 共18页
离群点分析ppt课件_第2页
第2页 / 共18页
离群点分析ppt课件_第3页
第3页 / 共18页
资源描述:

《离群点分析ppt课件》由会员分享,可在线阅读,更多相关《离群点分析ppt课件(18页珍藏版)》请在装配图网上搜索。

1、离群点分析离群点分析离群点分析 离群点分析 一数据处理方法1离群点的简介2离群点的检测方法2.1 基于统计分布的离群点检测2.3 基于密度的离群点的检测2.2 基于距离的离群点的检测2.4 基于偏差的离群点的检测离群点分析第第1 1节节 离群点的简介离群点的简介1.1 1.1 离群点的含义离群点的含义在数据库中包含着少数的数据对象,它们与数据的一般行为或特征不一致,这些数据对象叫做离群点。1.2 1.2 离群点的来源离群点的来源一、测量或执行误差所导致的。比如:某人的年龄-999岁,这就是明显由误操作所导致的离群点;二、数据本身的可变性或弹性所致,比如:一个公司中CEO的工资肯定是明显高于其他

2、普通员工的工资,于是CEO变成为了由于数据本身可变性所导致的离群点。1.3 1.3 离群点检测的原因离群点检测的原因一个人的噪声也许是其他的信号”。换句话说,这些离群点本身也可能是用户感兴趣的,比如在欺诈检测领域,那些与正常离群点分析数据行为不一致的离群点,往往预示着欺诈行为,因此成为执法者所关注的。此外,在销售中确定极高和极低收入的客户的销售行为,或者在医疗分析中发现对各种医疗处置的不寻常的反应。1.4 1.4 离群点检测遇到的困难离群点检测遇到的困难第一,在时间序列样本中发现离群点一般比较困难,因为这些离群点可能会隐藏在趋势、季节性或者其他变化中;第二,对于维度为非数值型的样本,在检测过程

3、中需要多加考虑,比如对维度进行预处理等;第三,针对多维数据,离群点的异常特征可能是多维度的组合,而不是单一维度就能体现的。离群点分析第第2 2节节 离群点的检测方法离群点的检测方法2.1 2.1 基于统计分布的离群点检测基于统计分布的离群点检测基于统计分布的检测方法是为数据集构建一个概率统计模型(例如正态、泊松、二项式分布等,其中的参数由数据求得),然后根据模型采用不和谐检验识别离群点。不和谐校验过程中需要样本空间数据集的参数知识(例如假设的数据分布),分布的参数知识(例如期望和方差)以及期望的离群点数目。 离群点分析2.1.1 2.1.1 不和谐不和谐检验检验不和谐检验需要检查两个假设:工作

4、假设和备择假设。工作假设H,假设n个对象的整个数据集来自一个初始的分布模型F,即:不和谐检验就是检查对象 关于分布F是否显著地大(或小)。如果某样本点的某个统计量相对于数据分布的是显著性概率充分小小,那么我们则认为该样本点是不和谐的,工作假设被拒绝拒绝,此时备用假设被采用,它声明该样本点来自于另一个分布模型。如果某个样本点不符合工作假设,那么我们认为它是离群点。如果它符合某个备择假设,那么它就是符合这一备择假设分布的离群点。离群点分析例例1 1 假如我们设儿童上学的具体年龄总体服从正态分布,所给的数据集是某地区随机选取的开始上学的20名儿童的年龄具体的年龄特征如下: 年龄=6,7,6,8,9,

5、10,8,11,7,9,12,7,11,8,13,7,8,14,9,12那么.相应的统计参数是:均值=9.1; 标准差=2.3如果选择数据分布的阈值为:阈值=均值2标准差则在4.5 ,13.7区间以外的数据都是潜在的离群点,将最大值取整为13。所以年龄为14的孩子可能是个例外。而且由均值可知,此地的孩子普遍上学较晚.教育部门以后可据此作一些政策上的改进。 离群点分析2.1.2 2.1.2 基于统计分布的基于统计分布的离群点检测的离群点检测的优优缺点缺点优点优点建立在非常标准的统计学原理之上,当数据和检验的类型十分充分时,检验十分有效。缺点缺点第一,绝大多数检验是针对单个属性的,不适合多维度空间

6、,这也是一个主要的缺点;第二,需要预先知道样本空间中数据集的分布特征,而这部分知识很可能是在检测前无法获得的,就不能确保所有的离群点被发现。离群点分析2.2 基于距离的离群点检测基于距离的离群点检测2.2.1 基于距离的离群点含义基于距离的离群点含义基于距离的离群点检测,也叫基于近邻的离群点检测。此时离群点就是远离大部分对象的点,即与数据集中的大多数对象的距离都大于某个阈值的点。即:如果数据集合D中,对象至少有pct部分与对象o的距离大于dmin,则称对象o是以pct和dmin为参数的基于距离的离群点。即DB(pct,dmin)离群点。2.2.2 基于距离的离群点的算法基于距离的离群点的算法(

7、1)基于索引的算法)基于索引的算法搜索每个对象o在半径dmin范围内的近邻。设M是一个离群点的 dmin邻域内的最大对象数目。如果对象 o的 M+l 个近邻被发现,则对象 o就不是离群点。这个算法在最坏情况下的复杂度为 O(k*n *n ) , k 为维数, n 为数据集合中对象的数目。当 k 增加时,基于索引的算法具有良好的扩展性。 离群点分析(2 2)嵌套)嵌套循环算法循环算法嵌套一循环算法和基于索引的算法有相同的计算复杂度,但是它避免了索引结构的构建,它把内存的缓冲空间分为两半,把数据集合分为若干个逻辑块。通过精心选择逻辑块装入每个缓冲区域的顺序,能够提高效率。(3 3)基于单元的算法)

8、基于单元的算法基于单元的算法中,数据空间被划为边长等于dmin/( )的单元。每个单元有两个层围绕着它。第一层的厚度是一个单元,而第二层的厚度是 。该算法逐个单元地对离群点计数,而不是逐个对象地进行计数。2.2.3 2.2.3 基于距离的离群点检测的优缺点基于距离的离群点检测的优缺点基于距离的方法与基于统计的方法相比,不需要用户拥有任何领域知识,与序列异常相比,在概念上更加直观。三种类型的基于距离的离群检测算法中,都要求用户设置参数pct和dmin,寻找这些参数的合适设置可能涉及多次的试凑,复杂度高。k212k离群点分析2. 2. 2.4 2.4 基于距离和基于距离和(DS)(DS)检测算法检

9、测算法: :与DB (p, d)离群点一样,DS离群点使用同样的距离公式,如绝对距离或欧式距离,但不根据pct和dmin来判定孤立点,而是先计算数据对象两两之间的距离,再计算每个对象与其他对象的距离之和。设M为用户期望的孤立点个数,则距离之和最大的前M个对象即为要挖掘的孤立点,这样可消除用户设置参数pct和dmin的需要。离群点分析2.3 2.3 基于密度的离群点检测基于密度的离群点检测基于密度的离群点检测能够检测出基于距离的异常算法所不能识别的一类异常数据局部离群点。2.3.1 2.3.1 局部离群点局部离群点局部离群点,是指一个对象相对于它的局部邻域,特别是关于邻域密度,它是远离的。图1是

10、二维数据集,图中包含两个簇C1 ,C2和两个离群点o1 , o2,其中C2稠密,C1稀疏。 o2是全局离群点,根据上述定义及挖掘算法,o2离群点易于挖掘,但o1却难以挖掘,如果为了挖掘出o1,而调整参数dmin,假如使dmin小于C2与O1之间的最小距离,那么C1中的大多数数据点都将被标识为离群点。此时, o1是一个局部离群点。图1 基于密度的局部离群点检测的必要性离群点分析2.3.2 2.3.2 局部离群点因子(局部离群点因子(LOFLOF)图1中,O1相当于C2的密度来说是一个局部离群点,这就形成了基于密度的局部离群点检测的基础。此时,评估的是一个对象是离群点的程度,这种“离群”程度就是作

11、为对象的局部离群点因子(LOF),然后计算 。为了定义局部离群点因子,需要引入以下几个概念:(1 1)对象)对象p p的的k k距离距离对于正整数k,对象p的第k距离可记作k-distance(p)。在样本空间中,存在对象o,它与对象p之间的距离记作d(p,o)。如果满足以下两个条件,我们则认为k-distance(p)= d(p,o): 1) 在样本空间中,至少存在k个对象q,使得d(p,q)= d(p,o); 2) 在样本空间中,至多存在k-1个对象q,使得d(p,q)d(p,o)。 离群点分析显而易见,如果使用k-distance(p)来量化对象p的局部空间区域范围,那么对于对象密度较大

12、的区域,k-distance(p)值较小,而对象密度较小的区域,k-distance(p)值较大。(2 2)对象)对象p p的第的第k k距离邻域距离邻域已知对象p的第k距离,那么,与对象p之间距离小于等于k-distance(p)的对象集合称为对象p的第k距离领域,记作:该领域其实是以p为中心,k-distance(p)为半径的区域内所有对象的集合(不包括P本身)。由于可能同时存在多个第k距离的数据,因此该集合至少包括k个对象。可以想象,离群度较大的对象 范围往往比较大,而离群度小的对象 范围往往比较小。(3 3)对象)对象p p相对于对象相对于对象o o的可达距离的可达距离公式: 也就是说

13、,如果对象p远离对象o,则两者之间的可达距离就是它们之间的实际距离,但是如果它们足够近(即p在o的k距离邻域内),则实际距离用o的k距离代替。 )(pNk)(pNk)(pNk离群点分析(4 4)局部可达密度)局部可达密度 对象p的局部可达密度定义为p的k最近邻点的平均可达密度的倒数 (5 5)局部离群点因子)局部离群点因子 表征了称p是离群点的程度,定义如下: )(),(_)()(pNokkkkopdistreachpNplrd)()()()()(pNplrdolrdpLOFkpNokkkk离群点分析结论结论如果对象p不是局部离群点,则LOF(p)接近于1。即p是局部离群点的程度较小,对象o的局部可达密度和对象p的局部可达密度相似,最后所得的LOF(p)值应该接近1。相反, p是局部离群点的程度越大,最后所得的LOF(p)值越高。优点优点通过基于密度的局部离群点检测就能在样本空间数据分布不均匀的情况下也可以准确发现离群点。离群点分析2.4 2.4 基于偏差的离群点检测基于偏差的离群点检测基于偏差的离群点检测,它通过检查一组对象的主要特征来识别离群点,“偏差”这种特征的点我们认为是离群点。通常有两种技术:通常有两种技术:第一,顺序异常技术第二,采用OLAP数据立方体技术(参见数据挖掘概念与技术第三章和第四章)(参见数据挖掘概念与技术第三章和第四章)离群点分析Thank you!

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

相关资源

更多
正为您匹配相似的精品文档
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!