数据仓库与数据挖掘技术在水利信息化中的应用

[摘 要] 作为信息化建设的重要工具,
数据仓库与数据挖掘技术在处理海量数据方面有着独有的优势。因此,
在拥有海量数据的水利行业中也有着广泛的应用。本文对数据仓库与数据挖掘这二项技术进行了介绍,
对其在水利行业中的应用做了简要描述, 并对这两项技术的实施做了概述。

[关键词] 水利信息化 数据仓库 数据挖掘

  

随着人类社会的发展, 信息化、全球化已成为一种世界性的大趋势。信息技术的革新深刻地改变了人们传统的生活方式。在水利方面, 水利信息化是水利现代化的基础和重要标志。从1992年“全国防汛信息管理系统”规划,到1997年“国家防汛指挥系统”设计, 再到2002年“全国水利信息化规划”的编制, 该过程说明了我们对水利信息化有了更加全面、更加深刻的认识。我们认为水利信息化的本质就是: 采集、存贮、传输、处理使用现代信息技术, 使得所有水事活动有序化, 在满足社会可持续发展的前提下, 最大限度地趋利避害, 减少水资源的消耗与浪费, 使其发挥最大效益。信息技术的高度渗透性, 使得水事活动都能进入信息高速公路, 具有更高的效率,取得更好的效益。因此, 水利信息化实际上是水利全面现代化的重要体现。那么针对水利行业海量的数据, 我们应该如何利用现代的信息技术去进行采集、存贮、传输、处理呢? 在我们现在的技术当中, 首选当然是数据仓库与数据挖掘技术, 因为它们恰恰是针对海量数据进行处理的先进技术。

一、数据仓库与数据挖掘技术

随着数据库系统在信息资源上的大量长期使用, 历史数据日益庞大, 这些历史数据是一笔宝贵的财富。通过使用这些历史数据, 我们可以研究过去的状况, 发现和挖掘潜在的有用信息, 可使决策者很快地对有关的情况做出准确的评估, 并为制订计划、确定发展规划提供依据。但如何快速有效地使用这些数据信息需要使用新的方法。数据仓库和数据挖掘技术作为可以高效地解决上述问题的技术方案, 正在越来越多地应用到传统的数据库技术的领域。

(一)
数据仓库

数据仓库是一个环境, 而不是一件产品, 提供用户用于决策支持的当前和历史数据, 这些数据在传统的操作型数据库中很难或不能得到。数据仓库是在组织内部管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。与其他数据库应用不同的是, 数据仓库更像一种过程, 对分布在组织内部各处的业务数据的整合、加工和分析的过程。数据仓库的概念可能比一般人想像的都要早一些, 最早的概念可以追溯到20世纪70年代M
IT的一项研究, 中间也经历比较曲折的过程。其最初的目标是为了实现全企业的集成( Enterp rise  Inte2gration) ,
但是在发展过程中却退而求其次——建立战术性的数据集市(Data Marts)
。对此到目前为止, 还有很多分歧、论争, 很多概念模棱两可,但是这些概念也是有着共同特征的: 首先,
数据仓库包含大量数据, 数据可以是源自组织内部的操作数据, 也可以是来自于组织外部; 其次,
组织数据仓库是为了更加便利地使用数据进行决策; 最后,数据仓库为最终用户提供了可用来存取数据的工具。

(二)
数据挖掘

数据挖掘(Data Mining)
技术是在20 世纪80年代被提出来的, 并在90年代取得了长足的发展, 是当今数据库系统及其应用领域中的一个热点话题。数据挖掘技术的研究和开发要涉及到多个领域的知识, 如:
数据库技术、人工智能、神经网络、统计科学、模式识别、知识库、知识获取技术、信息索引技术、高性能计算以及数据的可视化等。从数据库中发现知识( KDD) 一词首次出现在1989年举行的第十一届国际联合人工智能学术会议上。到目前为止, 由美国人工智能协会主办的KDD国际研讨会已经召开了8次,
规模由原来的专题讨论会发展到国际学术大会, 汇集来自各个领域的研究人员和应用开发者, 集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题,研究重点逐渐从发现方法转向系统应用, 注重多种发现策略和技术的集成, 以及多种学科之间的相互渗透。1999年,
亚太地区在北京召开的第三届PA2KDD会议收到158
篇论文, 盛况空前。IEEE 的Knowledge and
 Data  Engineering 会刊率先在1993年出版了KDD技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论, 甚至到了脍炙人口的程度。与国外相比, 我国对DMKD
的研究稍晚, 没有形成整体力量。1993 年国家自然科学基金首次支持对该领域的研究项目。目前, 国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究, 这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中, 北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究, 北京大学也在开展对数据立方体代数的研究, 华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造; 南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。

二、数据仓库与数据挖掘技术在水利信息化中的应用

二十一世纪是信息技术高速发展的时代, 信息资源是重要的战略资源。而在水利行业中, 信息资源的重要性显得更为关键。为适应国家信息化建设、信息技术发展趋势、流域和区域管理的要求,广泛应用现代信息技术, 充分开发水利信息资源,拓展水利信息化的深度和广度, 以水利信息化促进水利现代化, 全面提高水利工作科技含量, 迫切需要利用现代信息技术及时收集和处理大量的信息,为水资源调度、合理使用以及保护等决策提供及时准确的信息支持。“数据仓库与数据挖掘”是水利信息化重要的实现工具之一。数据仓库技术是为了有效的把操作形数据集成到统一的环境中, 以提供决策型数据访问的各种技术和模块的总称。数据挖掘(Data Mining) 就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是一门处理数据的新兴技术, 是目前发展很快的一门学科。在水利行业中, 数据仓库与数据挖掘技术就像一座多功能水库, 对信息起着集中、净化和对未来趋势做出预测等作用, 它们兼容并蓄各种来源的信息, 对数据进行管理、查询和检索, 通过相关分析、模拟和预测等手段进行科学加工与决策, 提供多层次和多功能的信息服务。具备对水情信息采集、防汛抗旱信息自动接收、处理, 并进行汛情分析、暴雨洪水预报、调度、灾情评估以及旱情预测等分析计算的功能。

三、水利行业中如何应用数据仓库与数据挖掘技术

下面结合数据仓库与数据挖掘技术在国际与国内的发展现状, 以水利部下属各委员会的管理局以及流域内有关防汛部门收集整理的各类防汛信息为数据源, 进行水利信息资源的数据仓库与数据挖掘设计。

(一)
数据仓库建设

数据仓库的建立是我们为水情数据进行处理,更主要的是为了完成对水情数据快速准确的查询、绘图、统计、分析和打印, 为管理者决策提供有效的参考依据。针对这一要求, 对水情数据信息的数据仓库的建设主要包括以下几个步骤:首先,
收集和分析业务需求。了解最新水情水文信息, 使各级水利机构及防汛防旱部门掌握水文情报、预报。其次, 进行数据模型和数据仓库的物理设计。针对水利信息资源的特点, 将数据库按照不同类型分别设立雨量(包括时段、日、旬月雨量) 、河流、闸坝、水库、熵情、抽水站部分的相应表以及暴雨加报、雹情、风力、闸门启闭、水库开孔等相应的表。

再次,
提取、转换、和净化数据并加载到数据仓库。在各湖泊、河道内我们通过遥测装置获取相应的数据, 并专门编写了相关的水情译电系统, 对遥测装置取到的数据进行翻译, 并将其中的错误报文进行处理, 最后加载到数据仓库中。最后, 选择一些连接软件为其他的应用提供必要数据以及对现有数据进行联机分析, 而且在使用过程中不断的更新数据仓库。

(二)
数据挖掘过程

数据仓库与数据挖掘二者有着密切的关系, 可以说数据挖掘是数据仓库中联机分析处理的高级阶段。在这里, 利用我们建立的数据仓库来提供丰富的数据资源进行挖掘。通常数据挖掘的设计过程一般由确定业务对象、数据准备、数据挖掘和结果分析等几部分组成。

第一、确定业务对象。我们的目标不仅是了解简单的水文信息, 而且要对这些信息进行分析, 挖掘其中潜在的信息, 包括提供进行时间移位分析和洪水比较等信息。

第二、数据准备。既从前面建交的数据仓库中提取所需的已经过转化、集成和过滤的高质量数据。

第三、数据挖掘和结果分析。根据用户需要,利用各种数据挖掘的算法和工具从数据仓库提供的高质量数据中提取有用信息。

通过以上数据仓库与数据挖掘技术在水利行业中的应用我们可以看出, 采用最先进的数据库技术是将海量水情数据信息进行处理与利用, 以得到我们所需要的各种有用信息的关键。而且, 要在水利行业更好地应用和发展数据仓库与数据挖掘技术,必须在进一步加强标准化、规范化的基础上, 大力开展基础数据库的建设, 尤其是富有水利行业特色的数据库, 如蓄滞洪区空间展布式社会经济数据库、雨情和水情数据库、水旱灾情数据库等。此外还要加快提高该技术的应用水平, 充分发挥其现有的和潜在的功能, 并且与网络计算机等高新技术以及水利行业本身的技术紧密地结合在一起, 为水利信息化和现代化作出它应有的贡献。

参考文献:

[ 1 ] 王军1数据挖掘技术[M ] 1中国科学院计算技术研究所1

[ 2 ] 陈宁,
周龙骧1数据采掘技术[M ] 1中国科学院数学研究所1

[ 3 ] J iawei Han,
Micheline Kamber著1范明,
孟小峰等译1数据挖掘概念与技术(Data  Mining Concep
ts and Techniques) [M ] 1机械工业出版社, 2001, 81

[ 4 ] 夏火松1数据仓库与数据挖掘[M ] 1科学出版社,
20041

[ 5 ] 林杰斌等1数据挖掘与OLAP理论与实务[M ] 1清华大学出版社, 20031

 

相关文章