預(yù)測霧霾,大數(shù)據(jù)能幫什么忙?
近段時間,全國范圍內(nèi)尤其是京津冀地區(qū)接連陷入霧霾之困,北京更是首次發(fā)布空氣重污染紅色預(yù)警,中小學(xué)連續(xù)停課3天,機動車單雙號限行。霧霾的背后,重污染天氣的預(yù)警預(yù)測工作顯得尤為重要,不僅可以讓公眾提前合理安排生產(chǎn)生活,也可以讓政府相關(guān)部門及時采取應(yīng)急措施,緩解重污染天氣帶來的危害。
微軟亞洲研究院主管研究員鄭宇一直從事大數(shù)據(jù)挖掘和算法研究,希望用大數(shù)據(jù)解決現(xiàn)代城市所面臨的問題。他和他的團隊已經(jīng)成功用大數(shù)據(jù)計算出1km×1km細粒度的空氣質(zhì)量狀況、尾氣排放數(shù)據(jù)和噪聲污染指數(shù)。
那么,大數(shù)據(jù)是如何預(yù)測霧霾的呢?
大數(shù)據(jù)能不能成功預(yù)測霧霾?
UrbanAir正是由微軟亞洲研究院開發(fā),用大數(shù)據(jù)預(yù)測城市空氣質(zhì)量的項目。目前,UrbanAir已經(jīng)實現(xiàn)全國70多個城市空氣質(zhì)量預(yù)測,可以對京津冀、長三角、珠三角、成渝城市群未來48小時的空氣質(zhì)量進行預(yù)測。
“大數(shù)據(jù)不僅能預(yù)測霧霾,還可以精細化預(yù)測。”鄭宇說,依靠經(jīng)典模擬方法預(yù)測預(yù)警霧霾,只能算出空氣質(zhì)量的均值,而大數(shù)據(jù)可以對1~6小時的空氣質(zhì)量逐小時進行預(yù)測,對7~12小時、12~24小時、24~48小時進行最大值和最小值的預(yù)測。
除了在預(yù)測精度上有優(yōu)勢外,大數(shù)據(jù)精細化預(yù)測還體現(xiàn)在地域范圍上。目前,傳統(tǒng)模擬方法預(yù)測霧霾只能精細到區(qū)的范圍,比如可以預(yù)測到北京市海淀區(qū)、朝陽區(qū)的空氣質(zhì)量,而大數(shù)據(jù)可以精細化到每個空氣質(zhì)量站點,比如可以預(yù)測海淀區(qū)萬柳站點未來48小時的空氣質(zhì)量狀況。
大數(shù)據(jù)不僅能預(yù)測霧霾,還可以很快速。據(jù)鄭宇介紹,傳統(tǒng)的重污染天氣預(yù)測工作需要6小時左右的模擬運算時間,無法快速實時發(fā)布,而大數(shù)據(jù)可以在幾秒鐘之內(nèi)快速算出重污染空氣質(zhì)量數(shù)據(jù)。
未來,霧霾的運行軌跡也將有望實現(xiàn),霧霾從哪來,到哪去都將不是難題。記者了解到,鄭宇和他的團隊正在從事霧霾因果相關(guān)性的研究,目前還處在研發(fā)階段,預(yù)計明年將正式投入應(yīng)用。
大數(shù)據(jù)怎么預(yù)測霧霾?
既然大數(shù)據(jù)可以預(yù)測霧霾,那么,能夠預(yù)測霧霾的大數(shù)據(jù)究竟包含哪些數(shù)據(jù)?這些數(shù)據(jù)又如何預(yù)測霧霾?
霧霾的大數(shù)據(jù)主要包括當前空氣質(zhì)量數(shù)據(jù)、氣象條件、未來天氣預(yù)報3類數(shù)據(jù)。鄭宇特別介紹說,空氣質(zhì)量數(shù)據(jù)并不是指單純的空氣質(zhì)量站點數(shù)據(jù),而是以某空氣質(zhì)量站點為圓心,囊括了方圓300公里范圍內(nèi)所有的與空氣質(zhì)量相關(guān)的數(shù)據(jù),比如空氣質(zhì)量站點數(shù)據(jù)、交通流數(shù)據(jù)、氣象數(shù)據(jù)、廠礦數(shù)據(jù)、人口流動數(shù)據(jù)、路網(wǎng)結(jié)構(gòu)等。
與傳統(tǒng)模擬空氣質(zhì)量不同,大數(shù)據(jù)預(yù)測霧霾依靠的是多元融合方法,也就是說,空氣質(zhì)量的預(yù)測不僅僅看空氣質(zhì)量數(shù)據(jù),還要看與之相關(guān)的氣象數(shù)據(jù)、交通流量數(shù)據(jù)、廠礦數(shù)據(jù)、城市路網(wǎng)結(jié)構(gòu)等不同領(lǐng)域的數(shù)據(jù),不同領(lǐng)域的互相疊加,相互補強,從而預(yù)測空氣質(zhì)量狀況。
“大數(shù)據(jù)應(yīng)用于預(yù)測霧霾,首先,由于每個站點、每個時段空氣質(zhì)量的影響因素都不盡相同,所以針對每個空氣質(zhì)量站點,我們都會為這個站點每個時段單獨建一個空氣質(zhì)量模型,之后再將三者數(shù)據(jù)疊加,最后將數(shù)據(jù)進行融合,制作出空氣質(zhì)量預(yù)測模型。”鄭宇說,這樣算下來,為預(yù)測北京市空氣質(zhì)量,建立的模型已經(jīng)達上百個。
大數(shù)據(jù)預(yù)測得準不準?
那么,多元融合的大數(shù)據(jù)算法與傳統(tǒng)的空氣模擬預(yù)測相比,是否更準確?
“其實,大數(shù)據(jù)預(yù)測與傳統(tǒng)模擬方法有一定的相似性,都是通過數(shù)據(jù)來擬合模型,只不過是數(shù)據(jù)量大小不同。”鄭宇說,以往由于獲知的數(shù)據(jù)有限,傳統(tǒng)模擬方法只能基于有限的樣本數(shù)據(jù),由科研人員通過經(jīng)驗、假設(shè)找出這些數(shù)據(jù)間的規(guī)律,模擬出簡單的模型,預(yù)測空氣質(zhì)量。而隨著數(shù)據(jù)增多,單單依靠人工已經(jīng)無法從海量繁雜的數(shù)據(jù)中找出規(guī)律,所以需要借助機器學(xué)習(xí)和數(shù)據(jù)挖掘等工具來發(fā)現(xiàn)多源數(shù)據(jù)中隱含的規(guī)律。
如今影響空氣質(zhì)量的因素越來越多,傳統(tǒng)模擬的方法顯得“力不從心”。鄭宇介紹說,傳統(tǒng)模擬空氣質(zhì)量預(yù)測首先需要搜集完整的污染源數(shù)據(jù),比如企業(yè)的排污數(shù)據(jù)和汽車尾氣排放等,而這些數(shù)據(jù)無法全部獲知;其次模型太理想化,污染物在空氣中傳播和變化的實際情況,要復(fù)雜很多。
隨著影響空氣質(zhì)量的因素增多,數(shù)據(jù)量的增大,大數(shù)據(jù)在空氣質(zhì)量預(yù)測上頗有優(yōu)勢。比如傳統(tǒng)方法要拿到精確的地面污染源數(shù)據(jù)才能預(yù)測,而大數(shù)據(jù)則可以解決數(shù)據(jù)缺失的問題。比如對于交通尾氣數(shù)據(jù)難獲取的情況,大數(shù)據(jù)運算可以采用與交通尾氣相關(guān)的交通流量、排量等相關(guān)數(shù)據(jù),間接地分析其與空氣質(zhì)量的關(guān)系。“大數(shù)據(jù)的精髓就是A領(lǐng)域的問題可以借助B領(lǐng)域、C領(lǐng)域、D領(lǐng)域的數(shù)據(jù)來一起解決,通過多元數(shù)據(jù)融合的方法來解決數(shù)據(jù)缺失和不精準的問題。”鄭宇說。
空氣質(zhì)量站點、相關(guān)領(lǐng)域的數(shù)據(jù)、大數(shù)據(jù)先進的挖掘技術(shù)和模型,保證了大數(shù)據(jù)預(yù)測的準確性。據(jù)了解,現(xiàn)在大數(shù)據(jù)對京津冀霧霾的預(yù)測精度可以達到75%,對成渝等地的預(yù)測精度會更高,平均準確率比統(tǒng)模擬方法高15%~20%。
大數(shù)據(jù)預(yù)測還存在哪些困難?
雖然大數(shù)據(jù)對霧霾的預(yù)測已經(jīng)成功實踐,但鄭宇也坦言,大數(shù)據(jù)預(yù)測霧霾確實還有很多困難。
數(shù)據(jù)量少是大數(shù)據(jù)發(fā)展的掣肘,大數(shù)據(jù)的預(yù)測是基于對大量的數(shù)據(jù)進行學(xué)習(xí)。但我國數(shù)據(jù)開放進程比較晚,并且很多污染源數(shù)據(jù)都還不完善。
“數(shù)據(jù)量大小直接影響大數(shù)據(jù)預(yù)測的精準度。”鄭宇說,比如數(shù)據(jù)樣本量不夠,會導(dǎo)致霧霾的拐點很難預(yù)測,目前傳統(tǒng)經(jīng)典模型和大數(shù)據(jù)模型都很難說清楚霧霾何時會消散。“很多人認為大風(fēng)來了,霧霾一定會散去,真實情況并非如此,霧霾消散與大風(fēng)的強度、持續(xù)時間、風(fēng)向來源地都有非常大的關(guān)系。比如,如果風(fēng)向的來源地本身是污染源,那么霧霾不但不會散去,反而會加重。”鄭宇說,目前有關(guān)拐點出現(xiàn)次數(shù)的數(shù)據(jù)特別少,可能一百天出現(xiàn)一次,對簡單的統(tǒng)計學(xué)模型來說,拐點出現(xiàn)就是少數(shù)派,模型很難預(yù)測拐點。目前,鄭宇和他的團隊也在單獨對拐點進行建模,準確度已經(jīng)提高到30%。
針對大數(shù)據(jù)在環(huán)保領(lǐng)域未來的發(fā)展,鄭宇認為國家首先要培養(yǎng)數(shù)據(jù)科學(xué)家,不僅僅是懂大數(shù)據(jù)挖掘算法,還要動行業(yè)知識,這樣才能把大數(shù)據(jù)轉(zhuǎn)化為生產(chǎn)力。其次,大數(shù)據(jù)時代要求政府開放數(shù)據(jù)。只要數(shù)據(jù)足夠,未來工業(yè)園區(qū)的建設(shè)與空氣質(zhì)量的變化情況,整個城市設(shè)計與空氣質(zhì)量的變化情況,完全可以依靠大數(shù)據(jù)實現(xiàn)。
使用微信“掃一掃”功能添加“谷騰環(huán)保網(wǎng)”