選擇省市
<<返回 全國
河北下轄區(qū)域隨著信息技術(shù)在水利行業(yè)應(yīng)用的日趨廣泛,,水利信息化采集,、分析,、業(yè)務(wù)處理等方面產(chǎn)生的數(shù)據(jù)量急劇膨脹,現(xiàn)代水利數(shù)據(jù)中心的建設(shè)需求隨之變得更加迫切,。利用大數(shù)據(jù)技術(shù),,可高效的存儲和處理水文、水利工程監(jiān)測等長系列數(shù)據(jù)以及文檔,、圖片,、視頻等非結(jié)構(gòu)化數(shù)據(jù)。本文通過總結(jié)水利大數(shù)據(jù)的特點以及大數(shù)據(jù)架構(gòu),、實時數(shù)據(jù)處理和元數(shù)據(jù)等關(guān)鍵技術(shù),,提出基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫與分布式文件系統(tǒng)相結(jié)合的、支持實時計算和元數(shù)據(jù)管理的水利數(shù)據(jù)中心架構(gòu),。
隨著信息化技術(shù)的迅猛發(fā)展,,越來越多的水利信息化基礎(chǔ)設(shè)施及應(yīng)用系統(tǒng),被應(yīng)用到水利工程建設(shè)與管理、水行政業(yè)務(wù)處置等領(lǐng)域中,。由此產(chǎn)生的數(shù)據(jù)量指數(shù)攀升,,引發(fā)了水利數(shù)據(jù)中心建設(shè)的熱潮。與此同時,,隨著整個社會(尤其是互聯(lián)網(wǎng)上)的信息量呈爆炸性增長態(tài)勢,,大數(shù)據(jù)技術(shù)應(yīng)運而生。大數(shù)據(jù)技術(shù)是一場技術(shù)革命,,時刻改變著我們的生活,、工作和思維方式。將大數(shù)據(jù)技術(shù)引入水利行業(yè),,將其作為水利數(shù)據(jù)中心建設(shè)的基礎(chǔ)技術(shù),,成為一種必然的趨勢。
水利信息化涵蓋水利工程勘測,、規(guī)劃,、設(shè)計、施工,、運行管理和維護(hù),,防洪、水資源管理,、水土保持等水行政管理等諸多方面,。水利數(shù)據(jù)形式多樣、種類繁多,,數(shù)據(jù)總量龐大且持續(xù)高速增長,。例如,近年來監(jiān)測設(shè)備種類及數(shù)量增多,,監(jiān)測數(shù)據(jù)跨地區(qū)上傳頻率加快,,使得采集監(jiān)測數(shù)據(jù)量急劇上升;在防洪管理業(yè)務(wù)中,,應(yīng)用水文模型預(yù)報,、推演、調(diào)度而產(chǎn)生的數(shù)據(jù)量也正迅猛增長,;視頻,、圖像和文檔等非結(jié)構(gòu)化數(shù)據(jù)大量累計,難以采用關(guān)系型數(shù)據(jù)庫存儲與管理,。在管理和應(yīng)用層面上,,用戶已不滿足于數(shù)據(jù)存儲和管理碎片化的現(xiàn)狀,提出了高效管理和共享的要求,。如何存儲,、傳輸,、處理和應(yīng)用水利大數(shù)據(jù),已成為水利信息化發(fā)展必須面對的問題和挑戰(zhàn),。
根據(jù)水利信息化規(guī)劃要求,,水利數(shù)據(jù)中心建設(shè)的目的是全面整合分散的各類水利信息資源,實現(xiàn)信息共享,,并對數(shù)據(jù)進(jìn)行深度挖掘,,以滿足水利業(yè)務(wù)和事務(wù)發(fā)展需要。其中解決的主要問題包括:分布各處的水利數(shù)據(jù)到水利數(shù)據(jù)中心的實時匯集,,海量水利數(shù)據(jù)的集中存儲,,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理,以及有效的數(shù)據(jù)分析和挖掘等,。
本文在總結(jié)了水利大數(shù)據(jù)特征的基礎(chǔ)上,,分析了解決以上問題的關(guān)鍵技術(shù),并提出了在傳統(tǒng)水利數(shù)據(jù)中心的基礎(chǔ)上,,利用大數(shù)據(jù)技術(shù)建設(shè)現(xiàn)代水利數(shù)據(jù)中心的思路及架構(gòu),。
當(dāng)前,大數(shù)據(jù)的概念已經(jīng)形成,,但尚缺乏統(tǒng)一的定義,。麥肯錫認(rèn)為,大數(shù)據(jù)是“無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進(jìn)行抓取,、管理和處理的數(shù)據(jù)集合”,;Gartner認(rèn)為,大數(shù)據(jù)是“需要新處理模式才能具有更強(qiáng)的決策力,、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量,、高增長率和多樣化的信息資產(chǎn)”。而判別大數(shù)據(jù)的主流標(biāo)準(zhǔn)是其是否具備“4V”特征:①(Volumn)大容量,,存儲空間大,,計算量大;②(Variety)多樣性,,來源多,,格式多,;③(Velocity)快速,,增長速度快,處理速度快,;④(Value)價值,,數(shù)據(jù)中包含著有價值的信息。
水利信息化長期的業(yè)務(wù)實踐積累了大量分布異構(gòu)獨立的業(yè)務(wù)數(shù)據(jù),。遙感,、GIS,、傳感網(wǎng)和射頻技術(shù)等現(xiàn)代化信息化術(shù)的發(fā)展與應(yīng)用,全面拓展了水利信息的空間尺度和要素類型,。水利數(shù)據(jù)已逐漸呈現(xiàn)出多源,、多維、大量和多態(tài)的大數(shù)據(jù)特性,。在經(jīng)過大量調(diào)研基礎(chǔ)上,,水利大數(shù)據(jù)的特征概括為以下5點,①數(shù)據(jù)量大:水利數(shù)據(jù)量在數(shù)百TB或PB以上,;②來源及形式多樣:包括勘測,、規(guī)劃、設(shè)計,、施工,、管理等多種來源,以及長系列的結(jié)構(gòu)化,、半結(jié)構(gòu)化數(shù)據(jù)和大量非結(jié)構(gòu)化數(shù)據(jù),;③持續(xù)增長:在水利行業(yè)各領(lǐng)域和環(huán)節(jié)的信息化應(yīng)用不斷增加,監(jiān)測密度及指標(biāo)不斷提升,,數(shù)據(jù)增加速度不斷加快,;④數(shù)據(jù)價值高:水利數(shù)據(jù)是水利工程建設(shè)、管理及水行政業(yè)務(wù)處置的依據(jù),,蘊(yùn)含較高的價值,;⑤實時或準(zhǔn)實時要求:部分水利數(shù)據(jù)(如水利工程安全監(jiān)測、地質(zhì)監(jiān)測等)是判別應(yīng)急事件的依據(jù),,存在實時或準(zhǔn)實時處理的需求,。
為解決水利大數(shù)據(jù)集中存儲以及結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一管理的問題,可利用關(guān)系型數(shù)據(jù)庫與分布式文件系統(tǒng)結(jié)合的方式應(yīng)對,。ApacheHadoop作為Apache2.0許可協(xié)議發(fā)布的開源軟件框架,,不僅能夠支持大數(shù)據(jù)密集型分布式存儲,而且具備強(qiáng)大的批量數(shù)據(jù)處理和分析能力,,常被用于進(jìn)行離線數(shù)據(jù)的存儲與分析,,作為關(guān)系型數(shù)據(jù)庫管理系統(tǒng)的補(bǔ)充。Hadoop是根據(jù)Google公司發(fā)表的MapReduce和GFS(Google檔案系統(tǒng))的論文自行實現(xiàn)而成,,與傳統(tǒng)關(guān)系型數(shù)據(jù)庫的比較,。
Hadoop與傳統(tǒng)關(guān)系型數(shù)據(jù)庫對比表
Hadoop框架透明地為應(yīng)用提供大數(shù)據(jù)存儲和訪問的可靠性及數(shù)據(jù)自動化分布與移動。首先,,Hadoop實現(xiàn)了名為MapReduce的編程范式,,將應(yīng)用程序分割成許多小部分,每個部分都能在集群中的任意節(jié)點上執(zhí)行或重新執(zhí)行,;其次,,Hadoop提供了HDFS分布式文件系統(tǒng),,用于存儲所有計算節(jié)點的數(shù)據(jù),為整個集群帶來了非常高的數(shù)據(jù)帶寬,。MapReduce編程范式和HDFS分布式文件系統(tǒng)的設(shè)計,,使整個框架能夠自動處理節(jié)點故障。除了MapReduce和HDFS分布式文件系統(tǒng),,Hadoop架構(gòu)中采用Zookeeper提供集群內(nèi)的協(xié)調(diào)管理服務(wù),,使用HBase列式數(shù)據(jù)庫存儲與管理數(shù)據(jù),通過Pig,、Hive,、Mahout實現(xiàn)數(shù)據(jù)挖掘分析。
Hadoop架構(gòu)圖
在水利數(shù)據(jù)中心中,,可通過Hadoop分布式文件系統(tǒng)存儲歷史監(jiān)測數(shù)據(jù),、視頻、圖片,、文件等非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),,并利用MapReduce批量計算處理歷史監(jiān)測數(shù)據(jù),提供對監(jiān)測數(shù)據(jù)的分析挖掘和模型計算,。
在水利業(yè)務(wù)應(yīng)用中,,涉及大量對實時數(shù)據(jù)的處理,如雨水情,、工情,、水資源等監(jiān)測數(shù)據(jù)和視頻監(jiān)控數(shù)據(jù)等,對應(yīng)急事件的預(yù)警及決策處置意義重大,。為實現(xiàn)大數(shù)據(jù)流的實時處理,,可在水利數(shù)據(jù)中心架構(gòu)中加入Storm實時計算框架。
與Hadoop擅長于存儲處理離線數(shù)據(jù)不同,,Storm的數(shù)據(jù)源可以是不斷更新的,,即收到一條數(shù)據(jù)便處理一條。通過Storm提供可靠地處理無限的數(shù)據(jù)流的能力,,可實時處理Hadoop的批任務(wù),,同時實現(xiàn)視頻流的實時處理以及專業(yè)模型的實時計算。
元數(shù)據(jù)是關(guān)于“數(shù)據(jù)的數(shù)據(jù)”,,對數(shù)據(jù)進(jìn)行描述,,這些描述涉及基礎(chǔ)屬性(例如,結(jié)構(gòu)和行為),、業(yè)務(wù)定義(包括字典和分類法)以及操作(如活動指標(biāo)和使用歷史)等特征,。對于水利數(shù)據(jù)而言,,元數(shù)據(jù)是對水利各種信息描述的數(shù)據(jù),。在水利數(shù)據(jù)中心中,,應(yīng)建設(shè)元數(shù)據(jù)管理維護(hù)系統(tǒng),實現(xiàn)元數(shù)據(jù)實體維護(hù),,負(fù)責(zé)元數(shù)據(jù)的抽取與整合,,形成對關(guān)系型數(shù)據(jù)庫以及分布式文件系統(tǒng)中存儲的各種監(jiān)測數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù),、視頻,、圖像等數(shù)據(jù)的數(shù)據(jù)字典。在關(guān)系型數(shù)據(jù)庫以及分布式文件系統(tǒng)中的數(shù)據(jù)進(jìn)行變化時,,元數(shù)據(jù)管理維護(hù)系統(tǒng)負(fù)責(zé)實現(xiàn)元數(shù)據(jù)及時自動更新,。
當(dāng)前,水利數(shù)據(jù)中心主要采用關(guān)系型數(shù)據(jù)庫組織和管理結(jié)構(gòu)化數(shù)據(jù),;地理空間數(shù)據(jù)的組織管理亦在關(guān)系型數(shù)據(jù)庫的基礎(chǔ)上擴(kuò)展實現(xiàn),;半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)采用關(guān)系型數(shù)據(jù)庫管理目錄加文件存儲方式組織管理。對于水利大數(shù)據(jù)的存儲與應(yīng)用需求,,現(xiàn)有架構(gòu)在數(shù)據(jù)存儲,、處理和分析挖掘等方面存在瓶頸。為此,,本文提出了基于大數(shù)據(jù)的水利數(shù)據(jù)中心架構(gòu),,包括數(shù)據(jù)匯集、數(shù)據(jù)存儲,、數(shù)據(jù)處理分析以及數(shù)據(jù)應(yīng)用四個層次,。
大數(shù)據(jù)水利數(shù)據(jù)中心建設(shè)架構(gòu)圖
(1)數(shù)據(jù)匯集
水利數(shù)據(jù)中心需對不同來源的異構(gòu)數(shù)據(jù)進(jìn)行匯集,主要包括上報采集數(shù)據(jù),、其他系統(tǒng)節(jié)點數(shù)據(jù)以及與其他領(lǐng)域交換的數(shù)據(jù),。上報采集數(shù)據(jù)主要為實時監(jiān)測數(shù)據(jù),可采取設(shè)備直連或現(xiàn)場服務(wù)器轉(zhuǎn)發(fā)的形式接入,;其他系統(tǒng)節(jié)點數(shù)據(jù)指水利業(yè)務(wù)范疇內(nèi)已建成的應(yīng)用系統(tǒng)中的業(yè)務(wù)數(shù)據(jù)的定時或不定時接入,;其他領(lǐng)域交換數(shù)據(jù)指其他行業(yè)與水利相關(guān)的數(shù)據(jù),如國土,、氣象等數(shù)據(jù),,通過定義好的接口或連接接入。
(2)數(shù)據(jù)存儲
本文提出的水利數(shù)據(jù)中心架構(gòu)將關(guān)系型數(shù)據(jù)和分布式文件系統(tǒng)融合,,共同支撐水利大數(shù)據(jù)的存儲,。實時的、結(jié)構(gòu)化的監(jiān)測及業(yè)務(wù)處置數(shù)據(jù)和元數(shù)據(jù)利用關(guān)系型數(shù)據(jù)庫存儲,,而歷史監(jiān)測數(shù)據(jù),、文檔數(shù)據(jù)、圖像數(shù)據(jù)和視頻數(shù)據(jù)等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),,可存儲在Hadoop分布式文件系統(tǒng)中,。兩種存儲方式并非獨立存在,,可采用數(shù)據(jù)抽取轉(zhuǎn)換及裝載工具(ETL)相互補(bǔ)充。
在水利數(shù)據(jù)中心,,通過元數(shù)據(jù)庫存儲對水利數(shù)據(jù)中心中所有結(jié)構(gòu)化,、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的描述和定義,利用元數(shù)據(jù)技術(shù)定義并統(tǒng)一管理系統(tǒng)元數(shù)據(jù),,為系統(tǒng)提供更高的可用性與易用性,。
(3)數(shù)據(jù)處理分析
水利大數(shù)據(jù)分析是根據(jù)主題化應(yīng)用的需求進(jìn)行數(shù)據(jù)處理分析,需應(yīng)用并行計算或云計算體系下的數(shù)據(jù)挖掘,、機(jī)器學(xué)習(xí),、統(tǒng)計分析等技術(shù)。存儲于Hadoop中的海量水利數(shù)據(jù),,可以通過MapReduce實現(xiàn)數(shù)據(jù)分析計算,。MapReduce將一個大數(shù)據(jù)集分解成多個獨立的小數(shù)據(jù)段,分發(fā)到多個節(jié)點上進(jìn)行快速,、高效的并行計算,,可有效解決單機(jī)處理中計算性能不足的難題。Hadoop的開源工具Hive基于MapReduce,,提供了一套類似于數(shù)據(jù)庫的數(shù)據(jù)存儲和處理機(jī)制,,將海量半結(jié)構(gòu)化數(shù)據(jù)映射為表,并自動化產(chǎn)生MapReduce任務(wù),,對存儲的數(shù)據(jù)進(jìn)行處理,。通過Hive提供的接口,可以有效的降低應(yīng)用系統(tǒng)功能開發(fā)難度和對MapReduce作業(yè)的使用難度,。
對于水利數(shù)據(jù),,還存在需要實時計算處理顯示的實時監(jiān)測數(shù)據(jù),。通過實時計算工具Storm處理消息和更新數(shù)據(jù)庫,,快速實時計算大量的監(jiān)測數(shù)據(jù),實現(xiàn)監(jiān)測數(shù)據(jù)的實時展示,、預(yù)警以及水庫調(diào)度方案的實時生成和實時視頻流的處理,。
(4)數(shù)據(jù)應(yīng)用
針對廣泛的水利大數(shù)據(jù)應(yīng)用,可構(gòu)建大量高效的通用性或定制性服務(wù),,例如:水利工程安全監(jiān)測,、評估評價、運行維護(hù)等水利工程安全管理應(yīng)用,,面向防洪,、發(fā)電、航運、農(nóng)業(yè),、生態(tài)的水資源多目標(biāo)優(yōu)化調(diào)度等,。通過對用戶和業(yè)務(wù)數(shù)據(jù)的分析挖掘,智能地獲取用戶最感興趣的數(shù)據(jù)指標(biāo),。同時,,利用水利一張圖和統(tǒng)一門戶,,可通過統(tǒng)一簡潔的界面,,直觀的向用戶展示各種實時和歷史信息以及分析預(yù)報的結(jié)果,以幫助用戶正確理解和應(yīng)用分析成果,。
大數(shù)據(jù)技術(shù)推動著水利數(shù)據(jù)采集,、管理及應(yīng)用的迅速發(fā)展。本文提出了一種基于大數(shù)據(jù)技術(shù)的水利數(shù)據(jù)中心架構(gòu),,以促進(jìn)水利大數(shù)據(jù)在獲取,、管理、應(yīng)用方面的能效提升,。分布式文件系統(tǒng),、實時數(shù)據(jù)處理組件的引入,可滿足多源,、多結(jié)構(gòu)水利數(shù)據(jù)統(tǒng)一存儲和處理的需求,。而以MapReduce為代表的大數(shù)據(jù)處理技術(shù),可突破傳統(tǒng)數(shù)據(jù)分析的視角,,以截然不同的方式分析海量水利數(shù)據(jù),,其成果展示方式也將隨之改變。隨著大數(shù)據(jù)技術(shù)在水利行業(yè)不斷地深入應(yīng)用,,行業(yè)用戶的思維方式將迅速轉(zhuǎn)變,,越來越多的應(yīng)用需求也將隨之涌現(xiàn),基于大數(shù)據(jù)技術(shù)的水利數(shù)據(jù)中心的研究范圍和深度也將得到極大的提升和拓展,。