数据仓库解决方案概述



《数据仓库解决方案概述》由会员分享,可在线阅读,更多相关《数据仓库解决方案概述(51页珍藏版)》请在装配图网上搜索。
1、Click to edit Master title style,,Click to edit Master text styles,,Second level,,Third level,,Fourth level,,Fifth level,,Sybase DW/Business Intelligence,,Sybase,中国有限公司,Sybase数据仓库解决方案,电信行业,议程,,数据仓库解决方案概述,,Sybase,数据仓库技术解决方案,,数据仓库设计工具,,抽取、转换、清洗和装载工具,,数据存储、管理服务器,,数据分析和展现工具,,数据字典(元数据)的管理工具,,,,“数据仓库是在企业管
2、理和决策中,,面向主题的,集成的, 与时间相关的,,和不可修改的数据集合”,Bill Inmon,数据仓库定义,,OLTP系统,财务系统,业务系统,计费系统,5-10 年,过去,,详细数据,当前,,详细数据,轻度,,汇总数据,高度,,汇总数据,数据集市,用户分析,网络资源分析,数据仓库,数据仓库/决策分析系统,网管系统,数据仓库是完全不同的数据库系统,,操作(业务)系统特性,事务处理性能是第一位的,,支持日常的业务,,事务驱动,,数据是当前的并在不断变化,,存储详细数据 (每一个事件或事务),,面向应用,,针对快速预定义的事务优化设计,,可预见的使用模式,,支持办事人员或行政人员,信息(分析)
3、系统特性,,支持长远的业务战略决策,,分析驱动,,数据是历史的,,数据是静态的,除数据刷新外,,数据反映某个时间点或一段时间,,数据是汇总的,,面向主题,,优化是针对查询而不是更新,,支持管理人员和执行主管人员,DW/BI 在电信行业的应用 - How ?,,立足于现有的OLTP系统,,当前数据和历史数据,,集中整合之后,构建一个庞大的数据仓库,,面向业务分析和决策层,,运用多维分析方法,充分挖掘数据中的信息,,应用DW/BI的三步曲,,数据抽取,数据管理,数据分析,INFORMATION,信 息,数据仓库(,Data Warehouse),是一种专为联机分析应用,,和决策支持系统提供数
4、据源的结构化的数据环境,,数据仓库要解决的问题是从数据库中获取信息的问题。,信 息,INFORMATION,,DW/BI 在电信行业的应用 - 小结什么是数据仓库(Data Warehouse) ?,,业务系统,外部数据,财务,计费,网管,Information Access Infrastructure,通用信息访问、处理层(基础数据库),企业级数据仓库,Global Catalog,,,集成的信息管理,设计和元数据维护,决策支持应用,Data,,Marts,Data,,Marts,Data,,Marts,Data,,Marts,Data,,Marts,Data,,Marts,数据仓
5、库的实际构造示意图,,议程,,数据仓库解决方案概述,,Sybase,数据仓库技术解决方案,,数据仓库设计工具,,抽取、转换、清洗和装载工具,,数据存储、管理服务器,,数据分析和展现工具,,数据字典(元数据)的管理工具,,,,Sybase数据仓库相关产品的技术构成,,Relational,Package,Legacy,External,,source,Data,,Clean,,Tool,Source Data,Data,,Staging,WareHouse,,Admin.,,Tools,Enterprise,,Data,,Warehouse,Data Extraction,,,Transform
6、ation,,and load,Datamart,Datamart,Enterprise/,,Central,,Data,,Warehouse,RDBMS,,ROLAP,RDBMS,RDBMS, Star Schema,Architected,,Datamarts,Central,,Metadata,Data,,Modeling,,Tool,End-User,,Tool,End-User,,Tool,MDB,End-User,,Tool,End-User,,Tool,Local Metadata,Local Metadata,Sybase数据仓库相关产品介绍,,一个集成化的产品集,集成的主要产
7、品,,Integrate,,Enterprise Connect,,Replication Server,,PowerMart,Design,,Warehouse Architect,Manage,,Sybase ASIQ,Visualize,,Brio,,Cognos,Administer,,Warehouse Control,Center,Warehouse,,Control,,Centre,议程,,数据仓库解决方案概述,,Sybase,数据仓库技术解决方案,,数据仓库设计工具,,抽取、转换、清洗和装载工具,,数据存储、管理服务器,,数据分析和展现工具,,数据字典(元数据)的管理工具,,,
8、,设计: 成功的关键,,数据库的设计对数据仓库系统的整体性能、装载和,,建立索引的时间以及数据量的增长等的影响超过,,任何其它方面。,数据仓库设计工具WarehouseArchitect,,为数据仓库的设计提供三大功能:,,多维建模,,度量、维、属性,,事实表,维表,,维层次表,事实层次表,,设计向导,,聚合(Aggregation Wizard),,分区(Partitioning Wizard),,逆向工程数据源,,优化代码生成,,目标数据仓库引擎(IQ,RDBMS),,OLAP,分析环境,Time identifier = Time identifier,Product identifie
9、r = Product identifier,Customer identifier = Customer identifier,Store identifier = Store identifier,Customer,Customer identifier,,double,Customer name,char(30),Sales Fact,Product identifier,,double,Time identifier,,double,Customer identifier,,double,Store identifier,,double,Sales total,real,Profits
10、,real,Store,Store identifier,,double,Store name,char(50),Time,Time identifier,,double,Date,timestamp,Month,char(50),Quarter,double,Year,double,Product,Product identifier,,double,Product description,char(80),设计:WarehouseArchitect,,议程,,数据仓库解决方案概述,,Sybase,数据仓库技术解决方案,,数据仓库设计工具,,抽取、转换、清洗和装载工具,,数据存储、管理服务器
11、,,数据分析和展现工具,,数据字典(元数据)的管理工具,,,,数据抽取、转换、清洗、集成,,挑战,,多个、多种异构数据源,,硬件,OS,RDBMS,文件,,数据不规范,需要做大量的清洗和整合,,转换规则复杂,繁多,,繁琐的日常性工作,占80%工作量,,数据质量保证,,数据增量抽取,,抽取工作过程化,自动化,,数据抽取、转换、清洗、集成,,成功的关键,,支持多个、多种异构数据源,,轻松方便地设计数据的清洗,转换和整合规则,,日常事务性工作自动化完成,,有完善的数据质量保证体系,,有完备的数据增量抽取,,直观,面向过程化设计;自动化的执行,,开放性,可扩展性,易于实施和维护,,数据抽取、转换、清洗
12、、集成,,解决的方案,,手工编程实现,,使用工具设计和实施,,PowerMart/PowerCenter,,开发环境,一系列工具用于设计、执行和维护,,数据的抽取、转换和装载流程,,抽取转换引擎(服务器),自动执行,集成:,PowerMart,Source,,Databases,Target,,Database,Designer,Server Manager,Repository Manager,Warehouse,,Designer,Mapping,,Designer,Transformation,,Developer,Source,,Analyzer,Repository,Server E
13、ngine,Sybase,,Informix,,Oracle,,Microsoft,,IBM/UDB,,ODBC,,DB2,,SAP,,PeopleSoft,,VSAM,,Flat Files,,Web Logs,,XML,,IBM MQ,,Gateways,Sybase,,Informix,,Oracle,,Microsoft,,ODBC,,IBM/UDB,,SAP BW,,PeopleSoft EPM,,Flat Files,,Gateways,议程,,数据仓库解决方案概述,,Sybase,数据仓库技术解决方案,,数据仓库设计工具,,抽取、转换、清洗和装载工具,,数据存储、管理服务器,,数
14、据分析和展现工具,,数据字典(元数据)的管理工具,,,,数据存储、管理,,挑战,,数据规模,,查询性能,,装载速度,,易于管理,,存取访问,成功的关键,,快速,高效数据存储技术,,出色的查询性能 - 特殊的索引,,技术,并行查询,,可伸缩性 - GB 到 TB 级,,易于管理 - 方便,灵活,GUI,,存取访问 - 数据随时可用,数据管理,,解决的方案,,通用的关系数据库系统,,专门的数据仓库服务器,,Sybase IQ,,专门为数据仓库/数据集市设计的关系型数据库,,专门针对OLAP/DSS而优化的索引和查询处理技术,,Adaptive Server IQ,数据存储: Adaptive Se
15、rver IQ,,无处不索引(Index EVERYWHERE),,数据压缩(通常达到原始数据的 70 - 75%),,垂直存储技术(Vertical Partitioning),,专利的Bit Wise索引技术跨越Bitmap的限制,,多种索引类型:FP,LF,HNG,HG,,低级数的限制从100扩充到1000,,预连接的索引提供额外的显著提高性能手段(Join Index),,支持任意设计模式,,星型、雪花、雪暴、星座模式,,普通关系模式,,支持任意加载方式,,文件、内部数据、外部数据库直接加载,,开放的接口,计算“NY”,州,,A类商店的,,平均销售额,当表的记录数从几万条变为千万和上亿
16、条时,,,传统RDBMS技术面对的问题:,,表扫描的性能极端低下,,冗余设计代价高昂、查询读取的无效字段过多,,低级数类型数据上索引的失效,,普通索引,加载和空间代价,造成不能任意建造,,即席查询的,SQL,顺序对性能有显著影响,,数值型比较和运算,无恰当手段加速处理,传统RDBMS不适合数据仓库,,IQ的特殊存储方式-垂直存储(按列存储),,Sybase IQ:,数据是按列存储的,而不是按行存储,好处:,,,只存取查询所需的数据,,数据类型是一致的,因而可以很容易被压缩,,数据库易于修改和管理,Sybase IQ:,,只读完成查询所 涉及到的列,计算在纽约的“A”,类商店,,的平均销售额,好
17、处:,,,无须使用其他的技术,Sybase IQ 就可以减少I/O 超过 90%,IQ的特殊存储方式-垂直存储(按列存储),,,“How many MALES are NOT INSURED in CALIFORNIA?,Gender,,M,,M,,F,,M,,M,,-,800 Bytes/Row,10M,,ROWS,State,,NYCACTMA,,CA,,-,RDBMS,Insured,,YYN,,Y,,N,M Y CA,,M N CA,,F Y NY,,M N CA,1,2,4,3,Gender,Insured,State,,,+,+,1,,1,,0,,1,1,,1,,0,,
18、1,0,,1,,0,,1,10M,,Bits,10M Bits x 3 col / 8,,16K Page,=,235,I/Os,800 Bytes x 10M,,16K Page,=,,500,000,I/Os,基本上只能使用表扫描,,查询过程读取了太多的无效数据,,IQ,Example: I/O 的明显减少,,IQ的索引特点,,索引即是数据,,没有索引和数据的分别,,任何一列可以建立多个索引,,系统保证至少会存在一个索引(FP),,索引的选择和设计主要基于:,,数据的级数(离散值的个数),,在查询中的使用方式,,和SQL语句的顺序无关,索引的种类,,Fast Projection(FP),
19、,数据压缩存储,,根据数据的特点会自动使用三种方式中的一种,,Low Fast (LF),,Bit map 索引,,High Non Group (HNG),,Bit-wise 索引,,High Group (HG),,G-Array (包括一个改进的B-tree),FP Index – normal FP,,级数(取值个数) > 65536,,数据被压缩存储,Color,Red,Blue,Green,Red,FP Index - FFP,,级数 < 256,,内建一个1-byte的参照表,Data Values,Red,Blue,Green,Red,Color,Red,Blue,Green,
20、1,2,3,1,1,1,2,3,3,3,2,Lookup Table,Data,LF Index,,传统的 Bit Map 索引,,级数小于1000,,可以唯一,,使用的可能性,,Joins,,Group by,,MIN, MAX, SUM, AVG functions,,Where clause predicates,,Equality / Inequality, Ranges, IN lists,...,冗余设计时数据量比想象中要小得多,,每一个取值都有一个相应的位,,可以适应新的取值出现和行的增加,,查询:,,select count(*) from customers where st
21、ate =‘AL’,LF Index,,HNG Index,,Bit-Wise Index,,数据按照二进制存储,,垂直分布和处理,,Sybase的专利技术,,cannot be used with certain data types,,使用最佳范围,,range searches for high cardinality columns,,运算 (sum and average functions),适合大量二进制的存储,,数据垂直分片 – 即每一个位都可以在内部被独立操作,,由于肯定存在大量的位同时为1或0,因此,IQ,在内部处理时会自动做数据压缩,HNG - High Card Bit
22、-Wise Index,Sales in binary form,8 bit,4 bit,2 bit,1 bit,0,1,1,0,1,0,0,1,0,1,0,1,1,0,1,1,1,0,0,1,0,0,1,1,0,1,1,1,1,1,0,0,Sales in binary form,8 bit,4 bit,2 bit,1 bit,0,1,1,0,1,0,0,1,0,1,0,1,1,0,1,1,1,0,0,1,0,0,1,1,0,1,1,1,1,1,0,0,HG Index,,在Bit-Wise的基础上增加一个B-Tree,并保证树在加载时不会重建,,最佳使用场合:,,Joins,,Select
23、 Distinct, Count Distinct,,Group By,Date Zip State Class Sales,3/1 6 NY A 6,4/1 9 MA A 9,5/1 5 NY B 5,6/1 11 CT A 11,7/1 6 NY B 9,9/2 3 RI B 3,8/3 7 CT A 7,2/2 6 NY A 12,1 10,4 6,4 5 6,1,5,8,...,1,,0,,0,,0,,1,,0,,0,,1,突破性的速度,,,闪电般的快速查询,,,快速装载,,,无限的灵活性,,,任何查询,,,任何模式,,,非常经济,,,
24、压缩的数据存储,,,支持多用户查询,Sybase IQ,Adaptive Server IQ 12:专门设计的数据仓库服务器,,,IQ12的技术参数,,Column limit,- now 16,000 per table,(up from 255 - Great for SAS & SPSS customers),,Row limit,- now 281,474,976,710,700,,,(that’s 281 Trillion Rows and change),,Device size,- up to 128GB,(depending on OS),,Device limit,-
25、now 65,524,(up from 2,000),,,Database Size limit,- 8.4 Petabytes,Sybase IQ 真正的数据仓库,,Andyne,Brio,Business,,Objects,,Gentia,Information,,Advantage,Information,,Discovery,InfoSpace,Linguistic,,Technology,Teleran,,Technology,Seagate,,Software,Mathsoft,Any Data, Any Time, Anywhere,Cognos,Adaptive,,Server
26、,,IQ,议程,,数据仓库解决方案概述,,Sybase,数据仓库技术解决方案,,数据仓库设计工具,,抽取、转换、清洗和装载工具,,数据存储、管理服务器,,数据分析和展现工具,,数据字典(元数据)的管理工具,,,,信息生产者,信息消费者,BrioQuery Designer,BrioQuery Explorer,BrioQuery Navigator,Brio.Insight,Brio.Quickview,Brio Enterprise Server,客户机服务器,,Web/Intranet,高级用户,活跃的分析人员,报表查阅者,信息技术人员,Brio.Enterprise 6.0 产品家族,,
27、Brio Enterprise 功能服务,,功能服务,BrioQuery,,查询,,OLAP 查询,,在线分析 (OLAP),,报表,,EIS/脚本,,制图,,审核,,两层安全防护,Broadcast Server,,信息发布,,作业调度,,批处理查询/报表,,事件驱动处理,,报表广播,,OnDemand Server,,零管理客户端,,Web查询,,适应型报表,,多层安全防护,,集群服务器支持,,SSL (安全套接层加密),,OnDemand,,Server,Web Server,BrioQuery,IQ,数据仓库,Brio.Insight,,Brio.Quickview,,Brio.Fre
28、eView,Broadcast,,Server,Email Server,File Server,,,数据源-IQ数据仓库,Transformer,Impromptu,*.iqd,任何数据源(关系型、平面型,数据仓库),,,,自动生成PowerCube,,用户定义的业务规则和维度,,10:1的数据压缩,,,,,图形化的浏览多维数据,,完全交互式的报表探察,PowerPlay: OLAP 环境,,Cognos BI,产品结构,Data,,Warehouse,PC Database,Oracle,,,Sybase,,,Informix,,,SQL Server,,,ODBC Gateway,I
29、mpromptu,.DBF,,.DB,.DBF, .DB, .XLS,,,.WKS, .CSV,,,Portfolio,,,Transformer,Authenticator,.MDC,PowerCubes,.PBB,PowerPlay,.PYH .MDL,.IQD,.PPR,.IMR,议程,,数据仓库解决方案概述,,Sybase,数据仓库技术解决方案,,数据仓库设计工具,,抽取、转换、清洗和装载工具,,数据存储、管理服务器,,数据分析和展现工具,,数据字典(元数据)的管理工具,,,,元数据管理:什么是元数据,,提供数据对象的准确、全面、一致的定义:,,什么是 “customer”的定义,
30、其内容是什么?,,提供物理数据到企业模型的映射关系,如:,,“customer number” 的正确格式是什么,,“product status”有哪些取值?,,不同系统中相似数据的合并使用规则是什么?,,提供数据源和抽取信息,,提供数据项的定义和相关描述,,数据的使用规则,Logical Design Tools,Corporate,Data Warehouse,Oracle, Sybase,SQL/Server, DB2/MVS,,Meta Data,Data,Data Marts,Oracle, Sybase,,SQL/Server,,,DB2/MVS,Operational/,,Le
31、gacy Data,Physical Schema Import,Transformation Import,Logical Tool Import,WCC,Production,Directory,Oracle, Sybase,SQL/Server,WCC Module,Meta Data Manager Module,WCC,,Working,,Directory,,Oracle, Sybase,,SQL/Server,Legend,Meta Data Validation, Synchronization, & Promotion,元数据管理:Control Center,,Sybas
32、e数据仓库相关产品的技术构成,,Relational,Package,Legacy,External,,source,Data,,Clean,,Tool,Source Data,Data,,Staging,WareHouse,,Admin.,,Tools,Enterprise,,Data,,Warehouse,Data Extraction,,,Transformation,,and load,Datamart,Datamart,Enterprise/,,Central,,Data,,Warehouse,RDBMS,,ROLAP,RDBMS,RDBMS, Star Schema,Architected,,Datamarts,Central,,Metadata,Data,,Modeling,,Tool,End-User,,Tool,End-User,,Tool,MDB,End-User,,Tool,End-User,,Tool,Local Metadata,Local Metadata,PowerMart,Sybase IQ,Sybase IQ,Cognos,PowerMart,Warehouse,,Architect,WCC,Brio/BO,Sybase ASE,
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。