数据仓库与数据挖掘培训课件

上传人:igj****252 文档编号:253131280 上传时间:2024-11-29 格式:PPTX 页数:45 大小:504.85KB
收藏 版权申诉 举报 下载
数据仓库与数据挖掘培训课件_第1页
第1页 / 共45页
数据仓库与数据挖掘培训课件_第2页
第2页 / 共45页
数据仓库与数据挖掘培训课件_第3页
第3页 / 共45页
资源描述:

《数据仓库与数据挖掘培训课件》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘培训课件(45页珍藏版)》请在装配图网上搜索。

1、,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第

2、四级,第五级,*,29 十一月 2024,Data Mining:Concepts and Techniques,1,数据仓库与数据挖掘,任课教师,:,工作单位:,办公地点:,联系电话:,QQ号码,:,第1章,数据仓库与数,据,据挖掘概述,第,1,章,1.1 数据,仓,仓库的兴起,1.2 数据,挖,挖掘的兴起,1.3数据仓库和数,据,据挖掘的结合,1.1.1,从,从数据库到数,据,据仓库,(1),“,数据太多,信,息,息不足,”,的现状,(2)异构环,境,境的数据的转,换,换和共享,(3)利用数,据,据进行数据处,理,理转换为利用数据支持,决,决策,1.,数据库用于事,务,务处理,数据库中存放

3、,的,的数据基本上,是,是保存当前数,据,据,随着业务,的,的变化随时在,更,更新数据库中,的,的数据。,不同的管理业,务,务需要建立不,同,同的数据库。,例,例如,银行中,储,储蓄业务、信,用,用卡业务分别,要,要建立储蓄数,据,据库和信用卡,数,数据库。,数据库是为满,足,足事务处理需,求,求建立的,在,帮,帮助人们进行,决,决策分析时显,得,得不适用。(,举,举例),数据库的局限,性,性,传统数据库所,能,能做到的只是,对,对已有的数据,进,进行存取以及,简,简单的查询统,计,计,即使是一,些,些流行的,OLAP,工具,也无非,是,是另一种数据展,示,示方式而已。人们仍,然,然无法发现数

4、,据,据中存在的关,系,系和规则,无,法,法根据现有的,数,数据预测未来,的,的发展趋势。,这,这也直接导致,了,了目前,“,数据,爆,爆炸,但,但知,识,识匮,乏,乏,”,的现,状,状。,2.,数据,仓,仓库,用,用于,决,决策,分,分析,数据,库,库用,于,于事,务,务处,理,理,,数,数据,仓,仓库,用,用于,决,决策,分,分析,数据,库,库保,持,持事,务,务处,理,理的,当,当前,状,状态,,,,数,据,据仓,库,库既,保,保存,过,过去,的,的数,据,据又,保,保存,当,当前,的,的数,据,据,数据,仓,仓库,的,的数,据,据是,大,大量,数,数据,库,库的,集,集成,对数,据,据

5、库,的,的操,作,作比,较,较明,确,确,,操,操作,数,数据,量,量少,。,。对,数,数据,仓,仓库,操,操作,不,不明,确,确,,操,操作,数,数据,量,量大,3.,数据,库,库与,数,数据,仓,仓库,对,对比,数据,仓,仓库,与,与数,据,据库,的,的关,系,系,数据,库,库的,应,应用,包,包括,:,:事,务,务型,应,应用,和,和分,析,析型,应,应用,物理,数,数据,库,库实,际,际存,储,储的,数,数据,包,包括,:,:,事务,型,型数,据,据(,或,或称,操,操作,数,数据,),)和,分,分析,型,型数,据,据(,也,也可,称,称为,汇,汇总,数,数据,、,、信,息,息数,据,

6、据),。,。,起初,,,,两,类,类数,据,据放,到,到一,起,起,,即,即分,散,散存,储,储在,各,各底,层,层的,业,业务,数,数据,库,库中,。,。,后来,,,,随,着,着企,业,业规,模,模的,扩,扩展,、,、数,据,据量,的,的增,加,加、,以,以及,希,希望,在,在决,策,策分,析,析时,得,得到,更,更多,支,支持,需,需求,的,的日,益,益迫,切,切,,并,并且,考,考虑,保,保证,原,原有,事,事务,数,数据,库,库的,高,高效,性,性与,安,安全,性,性。,因,因此,将,将分,析,析型,数,数据,与,与事,务,务型,数,数据,相,相分,离,离,,单,单独,存,存放,,,,

7、即,形,形成,了,了所,谓,谓的,数,数据,仓,仓库,。,。,数据仓库与数据,库,库的关系,数据仓库只不过,是,是因为用户需求,增,增加而对某一类,数,数据库应用的一,个,个范围的界定。,单,单就其是数据的,存,存储容器这一点,而,而言,数据仓库,与,与数据库并没有,本,本质的区别。,而且在更多的时,候,候,我们是将数,据,据仓库作为一个,数,数据库应用系统,来,来看待的。,因此,不应该说,数,数据库到数据仓,库,库是技术的进步,。,。,1.1.2,从,OLTP,到,OLAP,1.,联机事物处理(,OLTP,),2.,联机分析处理(,OLAP,),3.OLTP,与,OLAP,的对比,1.,联机

8、事物处理(,OLTP,),联机事物处理(,On LineTransaction Processing,,,OLTP,)是在网络环境,下,下的事务处理工,作,作,以快速的响,应,应和频繁的数据,修,修改为特征,使,用,用户利用数据库,能,能够快速地处理,具,具体的业务。,OLTP,是用户的数据可,以,以立即传送到计,算,算中心进行处理,,,,并在很短的时,间,间内给出处理结,果,果。也称为实时系统,(Real time System),。,OLTP,主要用于包括银,行,行业、航空、邮,购,购订单、超级市,场,场和制造业等的,输,输入数据和取回,交,交易数据。如银,行,行为分布在各地,的,的自动取

9、款机,(ATM),完成即时取款交,易,易;机票预定系,统,统能每秒处理的,定,定票事务峰值可,以,以达到,20000,个。,OLTP,的特点在于事务,处,处理量大,应用,要,要求多个并行处,理,理,事务处理内,容,容比较简单且重,复,复率高。,大量的数据操作,主,主要涉及的是一,些,些增加、删除、,修,修改、查询等操,作,作。每次操作的,数,数据量不大且多,为,为当前的数据。,OLTP,处理的数据是高度结构化的,数据访问路,径,径是已知的,至,少,少是固定的。,OLTP,面对的是事务处,理,理操作人员和低,层,层管理人员。,但是,为高层领,导,导者提供决策分,析,析时,,OLTP,则显得力不从

10、心,。,。,2.,联机分析处理(,OLAP,),E.F.Codd,认为决策分析需要对多个关系,数,数据库共同进行,大,大量的综合计算,才,才能得到结果。,E.F.Codd,在,1993,年提出了多维数据库和多,维,维分析的概念,,即,即联机分析处理(,On LineAnalytical Processing,,,OLAP,)概念。,关系数据库是二,维,维数据(平面),,,,多维数据库是,空,空间立体数据。,新的挑战:如何,不,不被淹没在信息,的,的海洋里,OLAP,专门用于支持复,杂,杂的决策分析操,作,作,侧重对分析,人,人员和高层管理,人,人员的决策支持,,,OLAP,可以应分析人员,的,

11、的要求快速、灵,活,活地进行大数据,量,量的复杂处理,,并,并且以一种直观,易,易懂地形式将查,询,询结果提供给决,策,策制定人。,OLAP,软件,以它先进,地,地分析功能和以多维形式提供数据的能力,,,,正作为一种支,持,持企业关键商业,决,决策的解决方案,而,而迅速崛起。,OLAP,的基本思想是决策者从多方,面,面和多角度以多维的形式来观察企业的状,态,态和了解企业的,变,变化。,3.OLTP,与,OLAP,的对比,OLTP,OLAP,细节性数据,综合性数据,当前数据,历史数据,经常更新,不更新,但周期性刷新,一次性处理的数据量小,一次处理的数据量大,对响应时间要求高,响应时间合理,面向应

12、用,事务驱动,面向分析,分析驱动,1.1.4,数据仓库的定义,与,与特点,1.数据仓库定,义,义,(1)W.H.Inmon在,建,建立数据仓库,一,一书中,对数据,仓,仓库的定义为:,数据仓库是面向,主,主题的、集成的,、,、稳定的,不同,时,时间的数据集合,,,,用于支持经营,管,管理中决策制定,过,过程。,(2)SAS,软,软件研,究,究所观,点,点:,数据仓,库,库是一,种,种管理,技,技术,,旨,旨在通,过,过通畅,、,、合理,、,、全面,的,的信息,管,管理,,达,达到有,效,效的决,策,策支持,。,。,2.,数据仓,库,库特点,(1),数,数据仓,库,库是面,向,向主题,的,的,是

13、相对,于,于传统,数,数据库,的,的面向,应,应用而,言,言的。,所,所谓面,向,向应用,,,,指的,是,是系统,实,实现过,程,程中主,要,要围绕,着,着一些,应,应用或,功,功能。,而,而面向,主,主题则,考,考虑一,个,个个的问题域,对问,题,题域涉,及,及到的,数,数据和,分,分析数,据,据所采,用,用的功,能,能给予,同,同样的,重,重视。,主题是,数,数据归,类,类的标,准,准,每,一,一个主,题,题基本,对,对应一,个,个宏观,的,的分析,领,领域。,例如,,银,银行的,数,数据仓,库,库的主,题,题:客,户,户,。,DW的,客,客户数,据,据来源,:,:,从银行储,蓄,蓄DB,

14、、,、信用,卡,卡DB,、,、贷款DB等三个DB中,抽,抽取同,一,一客户,的,的数据,整,整理而,成,成。在D,W,中能全,面,面地分,析,析客户,数,数据,,再,再决定,是,是否继,续,续给予,贷,贷款。,(2),数,数据仓,库,库是集,成,成的,最重要,的,的特点,。,。数据,仓,仓库中,的,的数据,来,来自各,个,个不同,的,的数据,源,源(操,作,作数据,库,库)。,由,由于历,史,史的原,因,因,各,操,操作数,据,据库的,组,组织结,构,构往往,是,是不同,的,的,在,这,这些异,构,构数据,输,输入到,数,数据仓,库,库之前,,,,必须,经,经历一,个,个集成,过,过程。,对不

15、同,的,的数据,来,来源进,行,行统一数据结,构,构和编,码,码。统一原始数,据,据中的,所,所有矛,盾,盾之处,,,,如字,段,段的同,名,名异义,,,,异名,同,同义,,单,单位不,统,统一,,字,字长不,一,一致等,。,。,将原始,数,数据结,构,构做一,个,个从面向应,用,用到面向主,题,题的大转,变,变。,(3),数,数据仓,库,库是稳,定,定的(,不,不可修,改,改的),数据仓,库,库中包,括,括了大,量,量的历,史,史数据,。,。数据,经,经集成,进,进入数,据,据仓库,后,后是极,少,少或根,本,本不更,新,新的。,(4),数,数据仓,库,库是随,时,时间变,化,化的,数据仓,

16、库,库内的,数,数据时,限,限在5,10年,,,,故数,据,据的键,码,码包含,时,时间项,,,,标明,数,数据的,历,历史时,期,期,这,适,适合DSS进,行,行时间,趋,趋势分,析,析。,而数据,库,库只包,含,含当前,数,数据,,即,即存取,某,某一时,间,间的正,确,确的有,效,效的数,据,据。,(5),数,数据仓,库,库的数,据,据量很,大,大,大型DW的数,据,据是一,个,个TB,(,(1000GB)级,数,数据量,(,(一般,为,为10GB级DW,,相,相当于,一,一般数,据,据库100MB的100倍,),),(6),数,数据仓,库,库软、,硬,硬件要,求,求较高,需要一,个,个巨大,的,的硬件,平,平台,需要一,个,个并行,的,的数据,库,库系统,1.2,数据挖,掘,掘的兴,起,起,二十世,纪,纪末以,来,来,全,球,球信息,量,量以惊,人,人的速,度,度急剧,增,增长,据估计,,,,每二,十,十个月,将,将增加,一,一倍。,许,许多组,织,织机构,的,的,IT,系统中,都,都收集,了,了大量,的,的数据,(,(信息,),)。目,前,前的数,据,据库系,统,统虽然,可,

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

相关资源

更多
正为您匹配相似的精品文档
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  sobing.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!