摘要:生態環境大數據是為生態環保決策管理提供服務的大數據集、大數據技術和大數據應用的總稱。生態環境大數據除了具有大數據的“6V”特征,還具有高維、高復雜性、高不確定性的“三高”特性。本文從生態環境大數據的定義和特征出發,闡述了國內外生態環境大數據的“萌芽—探索—應用—戰略”的發展歷程及其在科學研究、商業應用和政府決策等領域的主要應用,總結了基于第四研究范式的生態信息學理論基礎和依托于信息技術和數據挖掘的技術方法,分析了當前形勢下我國生態環境大數據應用面臨的三大挑戰,提出了未來生態環境大數據五大熱點方向,生態環境大數據必將在推進生態環境治理體系和治理能力現代化中發揮重要作用。
引言
隨著現代信息技術的發展,當今世界已經進入由數據主導的“大時代”。2012年5月,聯合國發布大數據政務白皮書“Big Data for Development : Challenges & Opportunities”,標志著大數據領域的研究已提升為世界戰略。2013年7月習近平總書記在中國科學院考察時指出,大數據是工業社會的“自由”資源,誰掌握了數據,誰就掌握了主動權。2015年8月,國務院發布《促進大數據發展行動綱要》,大數據上升為我國國家戰略。與此同時,生態環境也進入大數據時代。習近平總書記指出,要推進全國生態環境監測數據聯網共享,開展生態環境大數據分析。李克強總理強調,要在環保等重點領域引入大數據監管,主動查究違法違規行為。2016年3月,原環境保護部辦公廳印發《生態環境大數據建設總體方案》,提出在未來五年內通過生態環境大數據建設和應用,實現生態環境綜合決策科學化、生態環境監管精準化、生態環境公共服務便民化。由于我國生態環境保護工作起步晚,在數據知識更新、數據挖掘分析、大數據共享機制與能力建設等方面還存在不足。
生態環境大數據概念及特征
大數據在生態環境領域的應用、積累,形成了生態環境相關的海量觀測數據。這些數據來源于與生態環境相關的不同部門和領域,來源多樣、結構各異。一般認為,生態環境大數據是為生態環保決策問題提供服務的大數據集、大數據技術和大數據應用的總稱。生態環境大數據除了具有大數據的6“V”特征,即海量規模(Volume)、形式種類繁多(Variety)、處理速度快(Velocity)、高價值性(Value)、真實性(Veracity)、易受攻擊性(Vulnerable),還更加復雜多變,具有高維、高復雜性、高不確定性的“三高”特性。
(1)高維。數據來源包含反映自然和社會現象之間的多維數據。生態環境大數據來源于生態環境、氣象、水利、國土、農業、林業、交通、社會經濟等不同部門,可以通過空氣質量、水環境質量、噪聲環境質量監測設備來感知,還可以通過生物傳感器、化學傳感器、射頻識別技術(RFID)、衛星遙感、視頻感知、光學傳感器、人工檢查等感知。通過全國“12369環保舉報聯網管理
平臺”的電話、微信、微博等途徑,以及基于互聯網技術產生的搜索數據、社交媒體數據、在線新聞等產生的生態環境輿情大數據,包括半結構化和非結構化多維數據(文本、項目報告、照片、影像、聲音、視頻等)。
(2)高復雜性。生態環境大數據內在的復雜性(包括類型的復雜、結構的復雜和模式的復雜)使得生態環境數據的感知、表達、理解和計算等多個環節面臨巨大的挑戰。生態環境大數據本身價值較低,只有通過大數據的數據清洗、數據集成、數據建模、結果導出與可視化等,才能將這種不完善、復雜、非結構化的數據轉化為有用的信息。生態環境領域的排放清單建立、環境質量模擬、最優化減排方案制定等,如果借助大數據預處理技術、數據挖掘技術和云計算平臺等,速度和準確性會顯著提高。
(3)高不確定性。數據采集涉及高度不確定性,數據可能存在錯誤或不完整。生態環境相關的大數據跟其他大數據一樣,最典型的特征是數據量巨大,而且在以每年數百TB的速度增加。由于這些數據來源于不同部門,部門之間缺乏統一的標準規范;而且通過傳感器、智能手機或社交網絡等不同感知工具采集,即使來源于同一部門的數據格式也多樣化;加之目前各部門數據共享程度較低,同一指標數據存在不一致性。
發展歷程及應用
01
發展歷程
(1)1980年及以前的萌芽階段。1980年,未來學家托夫勒在《第三次浪潮》中首次提出“大數據”的概念,大數據時代正式到來。在此之前,“大數據”已經在萌芽狀態。以生態環境大數據為例,國際地球物理年(IGY)(1957—1958年)和國際生物學計劃(IBP)(1964—1974年)是現今生態環境大數據研究的雛形,當時被稱為“大科學研究”,目的是獲得較為可靠的大量觀測數據,以研究地球各圈層和生態環境問題。這些研究最后演變成如今以長期定位觀測為基礎的生態系統研究網絡,從而全面獲取有關生態環境的觀測數據。
(2)1980—2008年的探索研究階段。2008年,Nature、Science等學術刊物相繼出版專刊探討大數據議題,標志著大數據研究得到世界范圍內的關注和認可。在此之前,各國學者對大數據及大數據在生態環境領域的研究進行了探索。如Camara等開發了集成水質數據庫和污染數據庫,以及面源污染模型和污水處理優化模型,用于西歐TeJo海灣水質管理的決策支持系統“Hypetejo”,利用它解決污水處理廠的選址問題、污染負荷改變對海灣水環境的評價等決策問題。
(3)2009—2012年的應用研究階段。在此期間,大數據問題得到越來越廣泛的關注,一些商業公司也加入其中。麥肯錫公司發布關于“大數據”的報告,成為“大數據”較早的應用。生態環境領域的研究熱點包括區域大氣污染防治與污染物減排研究、環境污染治理及預報、全球氣候變化預測研究等。由清華大學、華南理工大學、田納西大學等聯合開發的大氣污染控制費效評估及空氣質量達標規劃輔助決策系統“ABaCAS”,集成大氣污染控制費效及達標評估、大氣污染控制成本分析、空氣質量模擬可視化分析、空氣質量達標評估等技術,是這一時期的應用研究之一。
(4)2012年以來的戰略化發展階段。2012年以來,大數據應用問題得到各國政府的高度重視。2012年聯合國大數據政務白皮書的發布,標志著大數據領域的研究已提升為世界戰略。同年,美國政府啟動《大數據研究和發展計劃》,標志著美國大數據時代來臨。2015年國務院發布《促進大數據發展行動綱要》,大數據發展上升為我國國家戰略。2016年原環境保護部辦公廳印發《生態環境大數據建設總體方案》,從政策層面對大數據應用于環境管理領域提出了要求。當前生態環境大數據在科學研究、商業應用、政府決策支持等多個方面得到廣泛應用。
02
研究與應用
(1)科學研究方面。數據感知層面,如上所述的“大科學研究”催生了生態系統研究網絡的發展。目前國際上已經建立多套全球性和國家/區域性的生態環境監測網絡,提供包括環境和生態變量的長期多維觀測數據。全球尺度的生態環境觀測網絡主要包括國際長期生態研究計劃(ILTER)、全球環境監測系統(GEMS)、國際生物多樣性觀測網絡(GEO·BON)等。國家尺度的網絡包括美國的US-LTER生態環境觀測研究網絡、英國的ECN生態環境觀測研究網絡和日本長期生態研究網絡(JALTER)。這些觀測網絡采集了生態環境相關的大數據,能夠獲得數百萬次觀測結果。衛星或飛機的遙感技術的發展使我們通過安裝在這些平臺上的遠程傳感器獲取大量生態數據。例如,美國宇航局(NASA)部署高光譜傳感器以捕獲有關葉面營養、樹冠結構和性狀的詳細信息。2015年6月,NASA聯合巨型計算機技術、地球系統模型、工作流管理和遙感數據協作分析平臺,發表了從1950年到2100年全世界的氣候變化預測數據。中國不同部門和單位陸續建立了一批生態環境監測站,開展了不同區域的環境、資源、污染的調查與研究工作。如中國科學院植物研究所建立了植物介紹網站(iPlant),其數據集形式多樣,包括觀測數據、實驗數據、模擬數據以及其他派生數據。
研究層面,近年來美國國家科學基金會(National Science Foundation, United States, NSF)投入大量人力、物力研究大數據科學計算應用,目前大數據技術被廣泛應用于生態系統研究的各領域。NSF最近公布了BIG DATA方案征集以利于信息共享。一些學科已經開發了海量數據平臺并取得了相應的收益。近年來,我國自然科學基金委管理學部也資助了一批大數據在金融、醫療、交通及生態環境領域的管理應用研究。Li Lei等收集了2005年至2013年我國31個省(區、市)的數據,使用數據包絡分析方法研究了經濟、社會和生態因素對于我國林業資源效率的影響。He Fuhong等以沿海礦業城市龍口為例,使用遙感圖像、數字高程模型以及降水等數據,建立了包括自然地理、地質條件、采礦強度、生態環境恢復等在內的綜合評價指標體系,基于插值等對大數據方法進行了生態環境質量評估。
(2)商業應用方面。大數據正在從科學研究層面走向商業應用。德克薩斯州立大學和戴爾公司聯合研發的巨型計算機Stampede,性能良好且應用廣泛,美國南加州地震中心利用該巨型計算機進行加州破壞性地震的頻率預測;德州大學奧斯汀分校也應用Stampede通過詳細的數據建模,分析從南極洲到海洋的冰川流動。在生態環境大數據的建設方面,惠普、谷歌、微軟等美國企業正在提供最先進的存儲設備和搜索等服務,幫助政府和研究機構對環境現狀及未來趨勢作出判斷。
2012年,惠普公司聯合環保組織——“保護國際”(Conservation International)啟動惠普地球觀察(HP Earth Insights)項目,對全球生物多樣性和氣候數據進行了系統分析。在中國,生態環境大數據得以進入商業應用的基礎是Apache基金會開發的Hadoop平臺。在Hadoop平臺基礎上,IBM公司與
北京市政府聯合開發了“
綠色地平線”大數據平臺系統,該系統結合當時的氣象衛星和地面監測數據,結合企業排放數據預測未來72小時的空氣質量。微軟在中國也已與海南、云南、武漢等多個地區進行交通、能源、環境等領域的合作,已經發布了超過100個全球智慧城市
案例。針對霧霾問題,微軟還推出了Urban Air系統,通過大數據來監測和預報空氣質量,該服務覆蓋了中國300多個城市。而京東智能城市研究院將利用大數據和人工智能進行空氣質量和水質預測作為重點研究的業務內容。
(3)政府決策方面。世界各國都將大數據技術研究應用的推進作為重大發展戰略。2012年3月,美國公布了“大數據研發計劃”,以提高從海量和復雜的數據中獲取知識的能力。根據該計劃,美國國家科學基金會(NSF)、能源部(DOE)、地質勘探局(USGS)等6個聯邦部門和機構共同提高了海量數據應用所需的核心技術。美國環境保護署(EPA)建立了統一的中央數據交換系統,形成了排污設施登記數據庫。歐盟方面,過去幾年已對科學數據基礎設施投資了1億多歐元,并將數據信息化基礎設施作為Horizon 2020計劃的優先領域之一。英國自然環境研究理事會(NERC)投資超過1300萬英鎊,計劃2020年建立環境數據創新中心。亞洲地區,2014年新加坡政府提出了“智慧國家平臺”(Smart Nation Platform),這是全球第一個全國范圍性質的智慧藍圖。在大數據技術的支持下,新加坡聯合其他受影響的國家開發了東南亞國家區域煙霾預警系統(AHMS),為防治重污染天氣提供即時的政策建議。
我國已將生態環境大數據列為國家發展戰略中的重要一環。生態環境部成立了生態環境大數據建設領導小組,全面推動落實黨中央、國務院關于大數據發展的新要求,同時啟動了生態環境大數據和環保云建設項目。目前,生態環境部建立了涵蓋大氣、水和土壤等領域的生態環境監測網絡系統并逐步加大監測密度,其中大氣環境監測網絡包括1436個城市監測點位,水環境監測網包括1000個降水監測點位、1940個地表水水質斷面(點位),906個集中式飲用水水源監測斷面(點位),1649個海水環境質量國控監測點位,還包括2583個生態環境質量監測點位,約80000個城市聲環境監測點位,1410個環境電離輻射監測點位和44個環境電磁輻射監測點位。當前的環境監管執法,使用視頻監控、無人機的紅外相機等設備,借助數據實時高速傳輸技術,建設了有效的監管系統。福建、內蒙古、山東等地啟動了生態環境大數據建設工程。
理論基礎及技術方法
01
理論基礎
科學研究的前兩個范式是實驗和理論,計算和模擬為科學研究的第三范式,數據密集型科學是前三種科學方法之后的第四種科學類型,被稱為第四范式。第四范式中科學家已不根據已知的規則編程,而是以數據為中心進行信息挖掘。前三種范式下的傳統的生態環境研究在獲取、管理和分析大量數據方面帶來了挑戰。新的生態環境監測網絡系統及其大數據的應用正在慢慢將環境生態學引入大科學研究領域,進而催生了生態信息學,奠定了生態環境大數據的理論基礎。生態信息科學是一門以利用現代計算技術(如人工神經網絡、遺傳算法等)進行生態學分析、綜合和預測為重點,綜合研究生態信息提取、生態信息管理和生態信息分析的科學。生態信息學為數據密集的生態環境研究提供了新的統一理論、模擬和分析的方法,使科學家能夠通過創新工具和方法產生新知識,同時管理和應用環境與社會經濟數據。
02
技術方法
生態環境大數據的應用需要突破多項技術難點,包括智能感知、分布式集群、云計算、機器學習、專業化模型等相關的工具、技術和方法在生態環境領域的應用。例如,使用Hadoop的分布式文件系統(HDFS)和分布式數據庫(MapReduce)對生態環境大數據進行批量處理;利用決策樹、貝葉斯、回歸模型、關聯規則、認知算法、機器學習等各種模型和算法對海量數據進行關聯分析和深度挖掘,通過各種數據產生有價值的信息。
建立“天地空一體化”的數據感知系統,是生態環境大數據建設的前提。以現有的生態監測網絡(空氣和水環境質量監測)為基礎,引入物聯網、衛星遙感、低空航測(視頻監控、無人機的紅外攝影)等技術,構建“天地一體化”遙感監測、視頻監控等智能監測體系。
建立多源異構大數據集成與存儲系統,是生態環境大數據建設的基礎。以生態空間數據與生態環境業務數據為中心,針對非結構化大數據的多樣性及結構化數據的異構異源特性,實現多源數據空間和時間融合,解決生態環境大數據的高效存儲與清洗問題。
建立多維時空生態環境大數據治理體系,是生態環境大數據應用的核心。建立集實時監控數據形勢診斷、預警預報和會商決策等于一體的生態環境預警會商體系,建立“督察、執法、應急指揮”一體化的督察執法監管系統,構建基于“一張圖”的全景指揮平臺,是當前生態環境大數據的主要應用場景。
03
研究的關鍵環節
有效開展生態環境大數據研究應用需要解決以下關鍵問題:
(1)確定研究的主體和目標。由于大數據本身的復雜性以及數據的海量性,生態環境大數據可研究的范圍非常寬泛,可以是最原始的元數據,可以是宏觀的理論概念,還可以是多學科交叉的過程,因此必須確定要研究的主體和目標。
(2)明確研究的時空尺度。生態環境大數據的不同研究領域有不同的尺度。例如,生態學家以年甚至萬年為單位,關注物種在不同時間空間的演變;而氣象學家則以分鐘、小時、天來衡量天氣變化情況。不同尺度使得本就復雜的數據更冗雜。所以,研究的尺度應該在一開始就規定好,在簡化工作量的同時加強大數據分析結果的應用。
(3)建立科學的標準規范。目前的生態環境大數據,國內外普遍缺少統一的數據采集與存儲標準規范體系,妨礙了數據的交換與共享。因此要構建科學、完善的生態環境大數據標準規范體系,為我國生態環境大數據的科學發展提供標準化支撐,為推進生態環境領域的發展提供規范依據。
面臨的主要挑戰
(1)數據獲取的局限性。目前主要有四種途徑獲取生態環境大數據:①整理現有數據集。這種方法成本昂貴,最后得出的數據集可能具有地理或時間差距。②整合遙感平臺數據。此類數據在時空尺度上通常沒有太大差距,但是這種途徑仍受測量手段和變量的制約。③獲取觀測站或實地實驗。該途徑通常需要復雜且昂貴的儀器。④從頭啟動跨越大陸尺度的觀測計劃。該途徑需要一開始就設計專有模型,并使用標準化方法。現階段,隨著生態環境監管需求導向明顯,僅依托現有監測網絡和設備還難以真正地實現“用數據說話、用數據管理、用數據決策”的目標,無法為問題分析預警、督察執法、全景指揮提供有力支撐,成為制約生態環境部門進一步提升大數據智慧監管能力的主要問題。此外,從社交媒體獲取的生態環境相關大數據從商業用途轉用于科學用途時也導致了信息不完整等問題,限制了這些數據的進一步應用。
(2)數據共享的局限性。生態環境數據資源分散,資源整合利用程度不高。不同部門之間不愿意共享數據是管理上的瓶頸。同時,生態環境是典型的跨行業多類型的大數據綜合應用業務領域,不同來源的生態環境數據的標準不規范,導致數據對話成本很高,數據質量難有說服力。尤其是商業大數據供應商,往往過于追求商業利潤,在收集數據時通常不采用科學的抽樣方法,基于這些大數據的研究得出的結論可能與研究中聲稱的目標不匹配。
(3)數據應用的局限性。部分研究人員傾向于通盤接受大數據,沒有對數據的真實性、可靠性進行審查和深入分析,容易出現系統偏差,對決策管理形成負面影響。大數據技術在環境與經濟綜合分析、環境污染監督執法與應急、生態環境評估、生態系統管理及全球氣候變化預測等方面已經得到了初步的應用,但目前并沒有形成成熟的生態環境大數據產業鏈,對生態環境管理的精準化決策支撐還需加強。我國還缺乏生態環境大數據和環境管理兼通的復合型人才,現有環境管理人員知識結構需要更新。
熱點發展方向
(1)生態環境大數據共享融合研究。沒有任何一個人或機構可以同時容納和有效分析所有形式的生態環境數據。要使生態環境大數據得到應用與發展,需要加大共享融合研究,優先考慮數據、方法、標準和代碼的開放性,包括更快地采用新技術和工具方法,開放數據來源和共享解決方案,構建網絡基礎架構,改進數據和共享工作流程,以及增強大數據服務的翻譯和記錄。
(2)開放架構的生態環境云平臺建設。構建生態環境大數據平臺就是要將多源異構的數據進行有機地整合。一是加大感知系統建設。要以改善生態環境質量為核心,以現有的生態監測網絡為基礎,擴大監測范圍,增加監測密度,引入物聯網、衛星遙感、低空航測等技術,實現重點領域自動監測全覆蓋,構建“天地一體化”遙感監測、視頻監控等智能監測、監控體系,能夠及時發現流域區域內發生違法行為,為生態環境規劃、評估、管理和監管提供進一步的有效支持。二是建立完善大數據治理體系。加強對數據資源整體規劃,形成“標準統一、動態更新、共享應用”的信息資源目錄和平臺,提升大數據資源規劃、生態環境云平臺建設、主題數據庫建設、大數據資源采集、大數據資源治理、大數據安全管理、大數據資源服務等數據的治理能力。
(3)基于大數據的精細化環境管理決策應用。①生態環境與經濟社會大數據形勢分析,建立生態環境與經濟社會形勢分析關聯指數,將環境變化特征與經濟社會發展情況進行關聯對比,識別影響環境質量變化的主要原因。②生態環境質量監測預警分析,通過對環境質量現狀和變化趨勢進行綜合統計分析,全面掌握環境質量變化情況,建立監測預警標準和監測預警系統,形成生態環境質量監測預警體系。③生態環境事件舉報與輿情監控分析,包括政府提供電子公共服務平臺、互聯網服務平臺。通過網絡輿情采集分析技術和公眾環保移動應用,讓輿情監控由被動變主動。④生態環保督察執法智慧決策支撐。通過大數據感知等手段完善督察執法管理手段,全面提高督察執法工作效能,并將其應用于企業關改搬遷、黑臭水體整治、入河/海排污口排查、農業面源污染整治、非法碼頭專項整治、河道非法采砂整治等領域。
(4)基于大數據多樣性的科學結論驗證。大數據作為新的信息技術,在生態環境領域的未來研究中,應進一步理解和評估大數據的質量,并輔以傳統的科學數據收集方法,以獲得更詳細和有代表性的數據。另外,通過科學的傳統抽樣調查,可以收集更多目標的詳細信息,并使收集的數據更具代表性。還可以使用另一個平臺提供的大數據來測試從一種類型的大數據得出的結論的穩健性。
(5)國際合作下的生態環境大數據應用。建立國際資源環境數據知識共享平臺(全球資源環境數據庫與知識庫建設),實現我國與其他國家在水資源、氣候變化、能源清潔利用、環境保護、環境金融等方面的數據和知識共享,加強我國與其他國家在環境數據領域的合作與交流,共同應對全球性資源環境問題。
總之,生態環境大數據必將在我國推進環境治理體系和環境治理能力現代化中發揮重要作用,應切實提高我國生態環境大數據建設水平。
文獻來源:蔣洪強,盧亞靈,周思,等.生態環境大數據研究與應用進展[J].中國環境管理,2019,11(6):11-15.
DOI:10.16868/j.cnki.1674-6252.2019.06.011
作者:蔣洪強1,盧亞靈1,3,周思1,2,楊勇1
單位:1 生態環境部環境規劃院國家環境規劃與政策模擬重點實驗室
2 荷蘭瓦赫寧根大學及研究中心
3 天津大學環境科學與工程學院
【版權聲明】本網為公益類網站,本網站刊載的所有內容,均已署名來源和作者,僅供訪問者個人學習、研究或欣賞之用,如有侵權請權利人予以告知,本站將立即做刪除處理(QQ:51999076)。