T技术 数据仓库系统设计的初步探讨 邹鹏石丽孙友友 (沈阳理工大学信息科学与工程学院) 摘要:数据仓库技术是在数据库发展的基础上产生的,已成为应用联机分析处理和数据挖掘技术的数据载体。本文以数据仓库技术的 应用为主题,探讨了数据仓库技术的应用策略 中图分类号:雾 雠. F407 . 6数据7抽取粒度 文献标识码:7 文献标识码: A 1数据仓库概述 数据仓库是面向主题的、集成的、稳定 的(不可更新的)、随时间不断变化(不同时 文章编号: 一( 一1673 0 534(2007))【11(b)_一 一0(033— 01 方式可分为虚拟存储方式、基于关系表的存 测,并用可视化工具提供挖掘结构。总的来 说,数据仓库的性能,集中表现在分析、 储方式和数据库存储方式三种。 数据挖掘方面。 虚拟存储方式是虚拟数据仓库的数据组 间)的数据集合,用以支持经营管理中的决策制 定过程。面向主题与传统数据库的面向应用 相对应,主题是一个在较高层次上将数据归类 的标准,每个主题对应一个宏观的分析领域; 集成特性是指数据在进入数据仓库前,必须经 过加工和集成,以统一原始数据中的矛盾之 处,还要将原始数据结构从面向应用转变为面 向主题;稳定性是指数据仓库反映的是已成为 历史的数据,而不是日常事务处理产生的数 据,数据经加工和集成进入数据仓库后极少或 根本不修改;数据仓库是不同时间的数据集 合,它要求数据仓库中的数据保存时不仅能满 足决策分析的需要,而且都要标明该数据的历 史时期。数据仓库最根本的特点是物理地存 放数据,而且这些数据并不是最新的、专有 的,而是来源干其他数据库。传统的数据库系 统主要负责日常操作性的事务处理任务,而数 据仓库承担支持决策分析服务的数据平台。 2构建数据仓库的关键技术 数据仓库的构建偏向于工程,具有强烈的 工程性,其关键技术主要有数据抽取、数据 组织、数据表现三个方面。 2.1数据抽取 数据的抽取是数据进入数据仓库的入 口。由于数据仓库是一个的数据环境, 它需要通过抽取过程将数据从数据库系统、 外部数据源、脱机的数据存储介质中导入到 数据仓库,这由图1中的集成器部件实现。数 据抽取在技术上主要涉及互连、复制、增 量、转换、调度和监控等几个方面。数据 仓库的数据并不要求与数据源保持实时的同 步,因此数据抽取可以定时进行,但多个抽取 操作执行的时间、相互的顺序,成败对数据仓 库中信息的有效性则至关重要。 2.2数据组织 数据仓库是存错数据的一种组织形式,它 从传统数据库中获得原始数据,先按辅助决策 的主题需求形成当前基本数据层,再按综合决 策的要求形成综合数据层。随着时间的推移, 由时间控制机制将当前基本数据层转为历史 数据层。 2.3数据形式 数据仓库中存放着不同综合级别的数据, 可分为四个级别:早期细节级、当前细节级、 轻度综合级和高度综合级。源数据经过综合 处理之后,首先进入当前细节级,并根据具体 需要进一步的综合,从而进入轻度综合级乃至 高度综合级,老化的数据将进入早期细节级。 数据存储方式:数据仓库系统一般采用典 型的数据库管理系统来管理其数据,数据存储 织形式。数据仓库的数据没有的存储,依 然在源数据库中,只是根据用户的需求及 3数据仓库系统设计方法 视图,临时在源数据库中找出所需要的数 数据仓库系统的设计与应用是一种解决问 据,完成分析。 题的过程,是在现有数据库系统基础上进行的 基于关系表的存储方式是将数据仓库的 着眼于有效的数据抽取、综合、集成和挖掘已 数据存储在关系型数据库的表结构中,在元数 有的数据库数据资源,服务干管理决策分析的 据的管理下完成数据仓库的功能。这种数据 需要。数据仓库系统的设计过程具体包括: 组织方式在建立数据库时有两个主要过程用 制定计划及建立技术环境:建立开发数据 于完成数据的抽取。首先要提供一种图形化 仓库系统的目标和计划。计划包括数据范围、 的操作界面,使分析员能对源数据库的内容进 提供者、资源、技能、责任、方式方法、系统 行选择,定义数据模型,然后定制程序,将 跟踪及详细工程调度等。选择实现数据仓库系 数据库中的数据抽取到数据库。 统的软硬件资源,包括开发平台、DBMS、网 数据库存储方式是直接面向联机分 络通信、开发工具等。确定主题进行建模:根 析处理的数据组织形式。这种数据库产品比 据决策分析的需求确定主题,选择数据源,对数 较多,实现方法不尽相同,数据组织采用 据仓库的数据组织进行逻辑结构设计。设计数 数组结构文件进行数据存储,并有维索引元数 据仓库的物理存储结构:基于用户的需求,着眼 据管理文件与数据相对应。 于某个主题,开发数据仓库中数据的物理存储 2.4确定数据粒度 结构。数据转换程序:实现从数据源中抽取数 数据粒度与数据仓库结构相关,是指数据 据、清理数据、格式化数据、综合数据和装载 仓库中一组数据单元所包含数据的详尽程 数据等过程的设计。 度。粒度越大,数据表示的细节程度则越低, 管理元数据:定义元数据,即定义数据的意 综合程度越高。粒度直接影响到驻留在数据 义及系统各组成部件的关系。元数据包括关键 仓库里的数据量以及在同一时间里可以得到 字、属性、数据描述、物理数据结构、源数据 响应的查询类型。对于大型的数据仓库,往 结构、映射及转换规则、综合算法、代码、缺 往需要建立多层粒度。其中一层对应数据仓 省值、安全要求、变化及数据时限等。 库的当前细节级数据,一层对应轻度综合级数 确定分析主题:每个主题对应一个客观分 据,其他层则根据系统的性能要求以及业务的 析领域,最初,建立一、二个分析主题,在反 具体要求来设计。 馈和循环中逐渐建立其它分析主题。 确定适当的粒度水平,首先要对数据的记 确定数据分析工具:确定优化查询工具、 录数和数据仓库的磁盘空间进行估算,接着考 统计分析、OLAP工具及各种数据挖掘工具。 虑粒度的大小。通常利用经验选择粒度水 数据仓库技术是数据库技术的发展和应 平,先创建部分数据仓库让用户使用,当用户 用。建立数据仓库并不是要取代数据库,而 产生新的需求后,再对粒度进行调整,最终建 是在全面和完善的信息应用基础上进行数据 立整个数据仓库的粒度水平和存储方式。 分析,构建决策支持系统。目前,数据仓库、 2.5数据表现 联机分析处理和数据挖掘技术的有效集成和 数据表现本质上是指数据仓库的应用。 应用,即联机分析挖掘系统,是数据仓库技术 目前,数据仓库已经广泛地应用在银行、金 的应用趋势,同时也成为智能化应用系统的重 融服务、消费物品和零售批发部门,以及诸 要组成部分。 如基于需求的产品生产。就功能而言,数据 仓库的应用主要体现在信息处理、分析处理 参考文献 和数据挖掘三个方面: 【1】石丽,李坚.数据仓库与决策支持【M】.国防 信息处理:支持查询和基本的统计分析, 工业出版社,2003. 并使用交叉表、表、图表或图进行报告。数 【2】连立贵,金凤.数据仓库中的数据提取…. 据仓库信息处理的当前趋势是构造低成本的 计算机工程,2001(9). 基于Web:的存取工具,然后与Web浏览器集 【3l马宏鹏,赵新.数据仓库原型系统设计.计 成在一起。 算机工程与应用【J1.2001(11). 分析处理:支持联机分析处理OLAP。 分析处理一般是在汇总的和细节的历史数据 上操作,主要优势在于支持数据分析。 数据挖掘:支持知识发现,包括寻找隐藏 的模式和关联,构造分析模式,进行分类和预 科技创新导报Science and Technology Innovation Herald 33
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- huatuo8.com 版权所有 湘ICP备2023022238号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务