数据仓库和数据挖掘

上传人:xuey****n398 文档编号:253239100 上传时间:2024-12-09 格式:PPT 页数:39 大小:1.48MB
收藏 版权申诉 举报 下载
数据仓库和数据挖掘_第1页
第1页 / 共39页
数据仓库和数据挖掘_第2页
第2页 / 共39页
数据仓库和数据挖掘_第3页
第3页 / 共39页
资源描述:

《数据仓库和数据挖掘》由会员分享,可在线阅读,更多相关《数据仓库和数据挖掘(39页珍藏版)》请在装配图网上搜索。

1、,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二层,第三层,第四层,第五层,*,数据仓库和数据挖掘,1,第六章 数据仓库和数据挖掘,第一节 数据仓库的原理,第二节 数据仓库体系结构,第三节 数据仓库的开发,第四节 联机分析处理,OLAP,第五节 数据挖掘技术,第六节 数据挖掘的方法和工具,2,第一节数据仓库的原理,一、数据仓库的基本定义,1.基本定义,数据仓库专家的描述:,数据仓库是一个,面向主题的,(,Subject Oriented)、,集成的,(,Integrate)、,相对稳定的,(,Non-Volatile)、,随时间,不断变化,(,Time Variant),的,数据集合

2、,,用于支持管理决策。,3,第一节数据仓库的原理,一、数据仓库的基本定义,Informix,公司的负责人定义数据仓库为:,数据仓库将分布在企业网络中不同职能部门的,业务数据集成,,并存储在一个单一的,集成关系型数据库,中。,利用这种集成信息,可方便用户对信息的访问,更可使决策人员对一段时间的历史数据进行分析,研究事物发展走势。,4,第一节数据仓库的原理,2.数据仓库中的一些基本概念,粒度,粒度是数据仓库的数据单位中保存数据的细化或综合程度的级别;,分割,就是将数据分散到各自的物理单元中去,使它们能被独立地处理;,维,是人们观察数据的特定角度,是数据的视图,。,5,第一节数据仓库的原理,二、数据

3、仓库的特点,面向主题的,集成的,相对稳定的,随时间变化的,6,第一节数据仓库的原理,面向主题的,数据仓库中的数据是按一定的主题进行组织的,为按主题进行决策的过程提供信息。,集成的,数据仓库中数据是来源于分散的数据库数据,它们进入数据仓库中时必须通过一定的方法来使之在数据仓库中有统一的形式和含义。,T,或,F,转 换,T、F,是、否,0、1,(,a),集成,7,第一节数据仓库的原理,相对稳定的,也称为非易失性。数据仓库的数据主要供企业决策分析之用,某个数据一旦进入数据仓库,只要它没有数据仓库的数据存储期限,一般就不会被更新。,插入,删除,访问,修改,数据库,抽取、载入,时间维,数据仓库,(,b)

4、,非易失性,8,第一节数据仓库的原理,随时间变化的,数据仓库随着时间的变化,不断增加新的数据。,支持决策系统,数据仓库组织的根本目的在于对决策的支持。,9,第一节数据仓库的原理,三、数据仓库中的层次结构,一个典型的企业数据仓库系统3层结构:,数据获取层、,数据存储与管理层,、,数据访问层,10,第一节数据仓库的原理,数据获取层,对,MIS、,网管和其他外部数据源中的数据进行抽取、清洗、转换,并加载到数据仓库。,数据存储与管理层,实现对数据仓库中数据和源数据的集中存储与管理,进行抽取、清理和有效集成,按照主题进行组织,并可根据需求建立面向部门和主题的部门级数据仓库,或称为数据集市。,采用在线分析

5、处理(,OnLine Analysis Processing,OLAP),服务器技术对数据进行有效集成和组织,以便进行多角度、多层次的分析,并发现趋势。,11,第一节数据仓库的原理,数据访问层,通过多样化的前端分析展示工具(主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具),实现对数据仓库中数据的分析和处理,形成市场经营和决策工作所需要的科学、准确、及时的业务信息和知识。,12,第一节数据仓库的原理,四、数据仓库与数据库的区别,13,第二节数据仓库体系结构,一、数据仓库的体系结构,通常包括4个部分:,源数据、管理部分、数据仓库和应用部分,。

6、,14,第二节数据仓库体系结构,二、数据仓库体系结构中的重要组件,1.数据抽取、转换、装载工具,ETL(Extract/Transformation/Load),它是把数据从不同的操作型数据库中拿出来,进行必要的转化、整理,再存放到数据仓库内。,15,第二节数据仓库体系结构,2.元数据,元数据在数据仓库中的,用途,有:,起到辅助决策分析过程中,定位,数据仓库的,目录,作用,数据从业务环境向数据仓库环境传送时数据仓库的,目录内容,指导从近期基本数据到轻度综合数据和到高度综合数据的,综合算法选择,16,第二节数据仓库体系结构,3.数据集市(,Data Marts),为了特定的应用目的或应用范围,而

7、从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(,Subject data),4.数据仓库管理工具,数据仓库管理工具的主要内容有:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理,17,第三节数据仓库的开发,一、数据仓库的数据模式,1.,星式模式,一个简单的星式模式(,Star Schema),是由一个事实表和多个维表组成。复杂的星式模式包含若干个事实表和维表。,18,第三节数据仓库的开发,2.雪花模式,雪花模式(,Snow Flake Schema),是对星式模式的扩展,它的每个

8、维表都可以向外面连接多个维。,19,第三节数据仓库的开发,二、数据仓库的设计方法,在设计数据仓库时一般采用的方法有自顶向下方法、自底向上方法、自顶向下和自底向上综合的方法。,1.,自顶向下方法,自顶向下方法是从商业需求出发直接构建全局数据仓库,即从原来分散存储的已有的企业,OLTP,数据库中通过数据提取、净化、转换和聚集等处理建立全局数据仓库。,20,第三节数据仓库的开发,2.自底向上方法,自底向上方法是从实验和基于技术的原型入手,选择一个部门或特定商业问题的数据集市开始,全局数据仓库则建立在数据集市的基础上。,21,第三节数据仓库的开发,三、数据仓库的设计过程,1.需求分析,了解用户建立数据

9、仓库的商业目标、使用数据仓库的操作环境、数据仓库应具有的功能、特征和开发投资;,2.概念模型设计,确定各个主题域的内容以及它们之间的关系,建立,E-R,图;,3.逻辑模型设计,将概念模型转换为逻辑模型,主要工作有分析主题域、确定粒度划分层次、确定数据分割策略、确定关系模式、定义记录系统;,4.物理模型的设计,确定数据的存储结构、索引策略、数据的存储位置和存储分配;,22,第三节数据仓库的开发,四、数据仓库生命周期,数据仓库的整个生命周期:,调查需求,,分析环境,,确定体系结构,,数据仓库具体设计,,数据仓库的运行和数据管理,23,第三节数据仓库的开发,5个过程可分为两大阶段:,数据仓库生成阶段

10、,这一阶段的工作主要是将数据从操作型的数据库系统装载到数据仓库中来,如何正确抽取、综合、转换数据是要考虑的主要问题。,数据仓库的运行和维护阶段,24,第四节联机分析处理,OLAP,一、,OLAP,的基本概念,联机分析处理:,是一种使分析人员能迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的的软件技术。,是一种基于关系数据库并对数据进行分析的交互式决策方法。,25,第四节联机分析处理,OLAP,OLAP,的,功能特征,:,具有多维数据库,OLAP,给出了数据仓库中数据的多维逻辑视图,这种视图通过一种更为直观的分析模型,使得模型设计和分析就像是在层次之间与层次内部的计算一样便利。,2

11、6,第四节联机分析处理,OLAP,交互式的快速响应查询,OLAP,采用了细剖较低层的详细数据或统揽较高层的概括性和聚集数据来进行交互式查询,同时为了提高查询和响应速度,它还采用了数据的矩阵存储技术和一系列的数据压缩技术。,动态数据分析,OLAP,则是侧重于动态数据的分析,并可以在其内部对数据进行自动转换,使得用户可以在交互过程中获得明确的分析结果,切片功能、钻探功能,27,第四节联机分析处理,OLAP,多维检索功能,OLAP,能检索并显示二维或三维表格、图表和图表中的数据,并能容易地变换为基准轴,从而能综合不同角度分析到的数据,更好地支持决策,28,第四节联机分析处理,OLAP,二、,OLAP

12、,实例,29,第四节联机分析处理,OLAP,二、,OLAP,实例,30,第四节联机分析处理,OLAP,三、,OLAP,和,OLTP,的区别,OLTP,OLAP,数据源,数据库原始数据,数据库导出数据或数据仓库数据,数据类型,细节性数据,综合性数据,更新次数,经常更新,不可更新,但要周期性地刷新,用户数量,数量大,相对较少,面向对象,面向操作人员,支持日常操作,面向决策人员,支持管理需要,31,第五节数据挖掘技术,一、数据挖掘的基本概念,1.数据挖掘的定义,数据挖掘就是从大量的、不完全的、有噪声的、模糊和随机的实际应用数据中,提取,隐含的、目前未知但潜在有用的模式的非平凡,过程,;,数据挖掘作为

13、知识发现过程的一个特定步骤,它是对大容量数据和数据间关系进行考察和建模的方法集;,它的,目标,是将大容量数据转化为有用的知识信息,这些信息对预测趋势和决策行为是至关重要的。,32,第五节数据挖掘技术,2.数据挖掘的过程,数据挖掘的过程一般由3阶段组成:,数据准备、数据挖掘、结果的解释评估,。数据挖掘可以描述为这3个阶段的反复,.,33,第五节数据挖掘技术,3.数据挖掘的分类,根据数据挖掘的任务分:,预测模型挖掘、总结规则挖掘、关联规则挖掘、聚类规则挖掘、趋势分析、偏差分析等;,根据数据挖掘的对象分:,关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据、异质数据库、遗产(

14、,legacy),数据库,以及,Web,数据源;,根据数据挖掘的方法分:,决策树法、人工神经网络方法、统计分析方法、遗传方法和数据库方法。,34,第五节数据挖掘技术,二、数据挖掘的功能,自动预测趋势和行为,关联分析,聚类,概念描述,偏差检测,35,第五节数据挖掘技术,三、数据挖掘与,OLAP,数据挖掘和,OLAP,是两种不同基于数据仓库的应用工具,它们的,用途不同,,基于的,技术也大相径庭,;,OLAP,是,验证式,的工具,,OLAP,分析过程是一个,演绎推理,的过程;,数据挖掘与,OLAP,不同的地方是,数据挖掘不是用于验证某个假定的模型的正确性,而是在数据库中自己,寻找模型,;,数据挖掘过

15、程是一个,归纳,的过程。,36,第六节 数据挖掘的方法和工具,一、数据挖掘的方法,数据挖掘的方法大致可分为4类:,机器学习方法:,归纳学习方法、基于范例的推理,CBR、,遗传算法、贝叶斯信念网络等,统计方法:,回归分析、判别分析、探索性分析、以及模糊集、粗糙集、支持向量机等方法,神经网络方法:,前向神经网络、自组织神经网络,数据库方法:,基于可视化的维数据分析或,OLAP,方法,37,第六节数据挖掘的方法和工具,二、数据挖掘的系统,Enterprise Miner,(,SAS,公司),Intelligent Miner,(,IBM,公司),SetMiner,(,SGI,公司),Clementine,(,SPSS,公司),Warehouse Studio,(,Sybase,公司),See5,(,RuleQuest,Research,公司)等。,38,第六节数据挖掘的方法和工具,三、数据挖掘的应用,零售,/,市场,识别顾客的购买模式,发现顾客人口统计特征方面的关联,预测对邮寄促销活动的反映,市场购物分析,银行,发现伪信用卡使用模式,识别诚信顾客,预测可能更换信用卡的顾客,确定不同顾客群使用信用卡消费的情况,保险,需求分析,预测购买新险种的顾客,39,

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

相关资源

更多
正为您匹配相似的精品文档
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  sobing.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!