数据仓库总体设计报告

  文件类别:报告论文

  文件格式:文件格式

  文件大小:795K

  下载次数:88

  所需积分:4点

  解压密码:qg68.cn

  下载地址:[下载地址]

清华大学卓越生产运营总监高级研修班

综合能力考核表详细内容

数据仓库总体设计报告
| |文档编号 |产品版本 |密级 | | | | | | | | |1.0 | | | | |共87页 | 数据仓库系统 总体设计 文档作者:__ ____日期:2001/12/20 项目经理:__ ____日期:2001/12/28 部门经理:__ __ 日期:2002/01/08 总 工 办:__ ____日期:2002/01/08 [pic] 目 录 1 概述 7 1.1 背景 7 1.1.1 待开发的软件系统名称 8 1.1.2 系统的基本概念 8 1.1.3 项目组名称 8 1.1.4 项目代号 8 1.2 术语和缩写词 8 1.3 设计目标 9 2 系统设计 9 2.1 设计原则 9 2.2 系统结构 11 2.2.1 子系统划分 11 2.3 系统数据结构 17 2.3.1 逻辑结构 12 2.3.2 层次结构 13 2.3.3 网络拓扑结构 14 2.3.4 网络层次结构 16 2.4 行业特殊需求 17 2.5 底层数据库(仓库)设计 19 2.5.1 设计原则 19 2.5.2 数据现状 20 2.5.3 数据存储整体规划 21 2.6 ETL系统 24 2.6.1 需求规定 24 2.6.2 运行环境 24 2.6.3 设计思想 24 2.6.4 结构说明 25 2.6.5 处理流程 26 2.7 系统管理 27 2.7.1 需求规定 27 2.7.2 运行环境 28 2.7.3 设计思想 28 2.7.4 结构说明 28 2.7.5 处理流程 29 2.8 数据展现 30 2.8.1 需求规定 30 2.8.2 运行环境 32 2.8.3 设计思想 32 2.8.4 结构说明 32 2.8.5 处理流程 34 2.9 界面设计 34 2.9.1 需求规定 34 2.9.2 主程序界面 34 2.9.3 主要页面设计 35 2.10 接口设计 38 2.10.1 外部接口 38 2.10.2 内部接口 39 2.11 安全设计 39 2.11.1 网络安全 39 2.11.2 数据库安全 42 2.12 系统可靠性设计 43 2.12.1 可靠性 43 2.12.2 可维护性 43 2.12.3 可扩展性 44 2.12.4 健壮性 44 2.12.5 性能保证 44 2.12.6 出错处理 45 2.12.7 备份与恢复 45 2.13 运行设计 46 2.14 相关工具选择 46 2.14.1 数据库选择 47 2.14.2 WEB服务器和应用服务器 47 2.14.3 数据库建模工具 48 2.14.4 分析型工具 48 2.14.5 OLAP工具介绍 49 2.14.6 ORACLE公司OLAP介绍 50 2.15 开发环境 51 2.15.1 硬件环境 51 2.15.2 操作系统 51 2.15.3 开发语言 52 2.15.4 数据库系统 52 2.15.5 中间件系统 52 2.15.6 应用系统 53 3 系统调试和测试 53 3.1 目的 53 3.2 基本要求 54 3.2.1 测试计划 54 3.2.2 测试说明 54 3.2.3 测试环境建立 54 3.2.4 测试报告 54 3.3 应遵循的原则 54 3.4 测试方法 55 3.5 测试重点 55 4 项目进度 56 4.1 项目资源计划 56 4.1.1 项目组 56 4.1.2 数据仓库领导小组办公室 56 4.2 项目工期计划 56 4.3 时间进度计划 56 4.3.1 数据仓库系统需求调查与两会系统 57 4.4 第一期开发主题 57 4.5 第二期开发主题 57 4.6 工作量分配计划 57 5 小结 58 6 参考文献 60 7 附录 61 7.1 Oracle性能评估报告 61 7.2 主流WEB服务器比较 65 7.3 IBM小型机性能评估报告 76 7.4 详细网络拓扑图及设备清单 78 7.5 在多层体系结构下建立数据仓库 83 摘 要 数据仓库系统的建立可以解决传统数据库不能很好提供分析决策功能的问题,可以发 掘历史数据中隐含的大量有价值的信息,为国民经济的发展和宏观决策提供大量有效的 参考信息。系统数据来源复杂,在数据仓库设计中不能采用常规方法解决问题;主题众 多且分析热点会随时间变化而变化,要求主题下所含的信息在一定范围可变;主题下指 标可能需要调整等实际情况,这和数据仓库的数据的不可修改性有矛盾;等等。我们结 合数据仓库的特点和系统实际情况,提供了一套完整的数据仓库系统的解决方案。整个 数据仓库系统从数据采集到数据展现共分为四部分:1、数据抽取、转换、加载;2、系 统管理(包括数据库维护);3、数据展现;4、支撑整个系统的数据库的设计(包括ETL 中间数据库和数据仓库)保证系统具有相当的灵活性。各个部分独立完成本部分功能,同 时紧密协作组成数据仓库系统。数据仓库系统管理与数据导入部分采用C/S模式有针对性 的开发;数据仓库系统的数据展现采用流行的B/S模式向用户提供数据查询、决策分析。 关键词: 指标,主题,数据仓库,联机分析,数据挖掘,决策支持。 概述 1 背景 经过2个多月的需求分析调查,确定了数据仓库系统总体定位(省政府数据仓库是以 充分发挥信息的社会作用和经济效益为最终目的)和系统功能需求。现根据需求分析规 定和局具体情况,确定数据仓库整体方案,以指导数据仓库系统研究、开发、实现。 省政府局数据具有建立数据仓库系统的基本条件: o 积累了大量历史数据,这是数据仓库存在的必要条件; o 随着市场经济的发展,社会各界(如金融投资等领域为了规避市场风险,提高决策 的准确度,开发新的市场和利润增长点,挖掘市场潜力)对数据的需求不断增大 ,社会各界迫切需要利用数据进行决策分析,指导经济建设。 省政府数据仓库建设存在以下困难: o 当前局各个处室没有统一规划的数据库系统; o 只有少量数据以电子文件形式存在,大部分历史数据保存在纸介质上,到目前为止 ,建国以来的数据有一般以上以纸介质方式存储; o 由于我国制度在不断发展完善,指标在不同的历史时期的口径不同,为了使同类指 标具有可比性,要确定不同时期各个指标的调整规则,并对历史数据按规则进行 调整,这种调整除了少数指标可以按统一的算法进行以外,大部分调整工作需要 人工参与; 因此,省政府数据仓库的建设中数据的整理加载工作量极大,ETL(Extract、Trans form、Cleaning、Load)工具开发难度大;完善的、与数据仓库系统良好联接的、统一 规划的各个处室的数据库系统是据仓库系统的具有长久生命力的基本保障,因此各处室 数据库的建设应同步进行。 1 待开发的软件系统名称 省政府数据仓库系统 2 系统的基本概念 指标:系统的数据以指标为载体,所有的数据都是指标在不同时间,不同地域上的取 值,统一指标可能有年度、月度、季度、半年、连续某几个月等时间段的数据,可能有 国家、省、地、市、县、乡、村的数据,甚至有居民户、具体企业单位的明细数据,数 据仓库中的数据就是这些数据的有机集合。 主题:数据仓库中的数据按主题组织,这是由数据仓库以分析决策为主要目的决定的 。主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域。 省政府数据仓库是将指标数据按分析主题集成起来,供查询、分析、辅助决策。 3 项目组名称 数据仓库项目组 4 项目代号 XhnTJDW001-0019 2 术语和缩写词 指标:Statistical Parameter 数据仓库:DW(DataWarehouse) 主题:Subject 数据集市:DataMart 元数据:MetaData 数据抽取、转换、加载:ETL(Extract、Transform、Cleaning、Load) 联机分析处理:OLAP(On-LineAnalyticalProcessing) 联机事务处理:OLTP(On-LineTransactionProcessing) 决策支持系统:DSS(DecisionSupportSystem) 数据挖掘:DM(DataMining) 应用服务器:AS(ApplicationServer) Web服务器:WebServer 3 设计目标 省政府数据仓库系统是以充分发挥信息的社会效益和经济价值为最终目的。 将大量事务处理数据库中的数据进行清理、抽取和转换,并按决策主题进行多维重组 ,在高效的网络平台上充分发挥系统作为社会“数据库,信息库,思想库,智囊库”的作 用,直接向党政领导、社会各界提供数据、信息服务,为信息工程建设提供一个“决策数 据管理与分析中心”的基本解决方案。 为省政府局建立一套面向党政领导、专业分析人员、广大社会群众对外发布信息的数 据仓库系统。整个系统集数据采集、管理、维护、展现于一体,旨在建立数据仓库后既 减轻局工作人员工作量,又能很好的为公众服务。前端数据展现要有通用性,采用浏览 器浏览数据,是瘦客户端。后端维护系统要具有高效性,能及时、高效处理、管理数据 ,功能强大,是胖客户端。 数据仓库系统重在建立一个适应分析的系统环境,首期开发“两会”信息咨询,企业名 录、人口普查、字典、工业经济、农业经济等主题。 系统设计 1 设计原则 从充分发挥系统作为社会“数据库,信息库,思想库,智囊库”的作用,直接向党政领 导、社会各界提供“快、精、准”的信息服务的需要出发,采用当今数据库领域成熟稳定 的数据仓库、决策分析等技术,在高效的网络平台上为全省信息工程建设提供一个“决策 数据管理与分析中心”的基本解决方案。 1. 系统采用多层体系结构,建立一个良好开放性的数据仓库系统环境,适应不断增加 和变化的业务需求。多层体系结构通过引入中间层组件,扩大了传统的客户/服务 器和两层计算模式。多层结构可由以下三类分层来定义:前端的客户层,负责提 供可移植的表达逻辑;中间的应用层,允许用户通过将其与实际应用隔离而共享 和控制业务逻辑;后端的数据管理与服务层,提供对专门服务(例如数据库服务 器)的访问。多层结构与传统的客户/服务器结构的区别在于:在传统的客户/服 务器两层结构中,用户将实际的业务逻辑放置到客户端(作为对表达逻辑的增补) 或放置到后端数据库(作为数据逻辑的一部分包含在存储过程中)。而在多层结构 中,用户将业务逻辑放到中间层上。这种模块化方法明确地划分了表达逻辑、业 务逻辑和数据存储。多层结构通过将应用逻辑集中到中间层,开发者可以迅速更 新业务逻辑,而无需重新将应用递交到成千上万的桌面系统上。提高数据库的性 能、改善系统的开放性、可扩展性和数据的安全性,并降低管理的复杂性。 2. 结构化、层次化、模块化。采用面向对象技术,使系统高度结构化、模块化、层次 化,整个系统由接口定义良好的多个模块组成,每个模块都有详细的功能说明和 设计文稿,每个模块完成相对独立的功能,模块之间的接口定义规范,使模块功 能的变化相对独立,不影响整个系统的功能和结构,便于系统升级,维护。 3. 具有良好的平台移植性。选用支持多种操作平台的数据库服务器、应用服务器、W EB服务器等服务器软件系统,选用具有良好平台移植性的B/S和C/S模式下的开发 语言开发应用程序和应用中间件,提高应用系统的平台移植性; 4. 统一性和多样性相结合。面向用户的各个应用系统,尽量保持统一风格以适应用户 的操作习惯,但各个系统根据内容具有各自的特色,整个系统和谐统一,清新明 了。 5. 自主开发和利用现有工具相结合。尽量利用各成熟的数据仓库系统软件(工具)为 数据仓库这个具有特殊性的项目服务,针对具有特殊性的需求,开发特定的系统 软件,缩短数据仓库开发周期,降低开发成本,保证系统正常开发。 6. 安全性的考虑。系统安全和数据安全是一个网络应用系统应该首先考虑的问题,数 据仓库系统的设计要从网络安全、系统安全、数据安全等各个方面充分考虑,保 障系统安全稳定。 7. 分散与集中相结合。数据仓库系统是一个非常庞大的系统,所有数据集中存储,但 局各处室能分别维护本处室数据,数据仓库根据需要能对系统管理分别设置权限 ,不同用户维护不同数据。 8. 稳定优先,注重效率。数据仓库的海量数据存储和高效查询是一对矛盾,在当今硬 件技术不断发展和成本不断降低的形式下,我们优先考虑系统效率,但是在系统 稳定性和效率不可兼顾时,以系统稳定优先。。例如在数据仓库设计方面,我们 通过逆规范化(引进适当冗余)来提高系统查询效率。 9. 以最简单的方式实现复杂的功能。为提高系统的稳定性和可读性,可维护性,尽量 采用简洁易懂的方式实现系统功能,不追求复杂、深奥的算法。 2 系统结构 1 子系统划分 整个系统按功能分为四大系统,各系统分别为: 1. 数据库系统
数据仓库总体设计报告
 

[下载声明]
1.本站的所有资料均为资料作者提供和网友推荐收集整理而来,仅供学习和研究交流使用。如有侵犯到您版权的,请来电指出,本站将立即改正。电话:010-82593357。
2、访问管理资源网的用户必须明白,本站对提供下载的学习资料等不拥有任何权利,版权归该下载资源的合法拥有者所有。
3、本站保证站内提供的所有可下载资源都是按“原样”提供,本站未做过任何改动;但本网站不保证本站提供的下载资源的准确性、安全性和完整性;同时本网站也不承担用户因使用这些下载资源对自己和他人造成任何形式的损失或伤害。
4、未经本网站的明确许可,任何人不得大量链接本站下载资源;不得复制或仿造本网站。本网站对其自行开发的或和他人共同开发的所有内容、技术手段和服务拥有全部知识产权,任何人不得侵害或破坏,也不得擅自使用。

 我要上传资料,请点我!
人才招聘 免责声明 常见问题 广告服务 联系方式 隐私保护 积分规则 关于我们 登陆帮助 友情链接
COPYRIGT @ 2001-2018 HTTP://WWW.QG68.CN INC. ALL RIGHTS RESERVED. 管理资源网 版权所有