摘 要:依托大數(shù)據、互聯(lián)網和信息技術的發(fā)展,數(shù)字經濟已經成為我國高質量發(fā)展的新引擎,對經濟發(fā)展、社會治理、人民生活等方方面面都產生了重要影響。但是,對大數(shù)據這一數(shù)字經濟的關鍵要素,目前在治理方面仍存在不少挑戰(zhàn)。為此,要著力防范“大數(shù)據自大”陷阱,加強大數(shù)據治理,為充分發(fā)揮大數(shù)據在國家治理現(xiàn)代化中的作用打下堅實基礎。
關鍵詞:大數(shù)據治理 大數(shù)據自大 政策建議
【中圖分類號】D63 【文獻標識碼】A
由于大數(shù)據具備“海量、實時、多類型”等特征, 依托大數(shù)據、互聯(lián)網和信息技術的發(fā)展,我國數(shù)字經濟蓬勃發(fā)展,已經成為高質量發(fā)展的新引擎。但是,對大數(shù)據這一數(shù)字經濟的關鍵要素而言,目前在治理方面仍存在不少挑戰(zhàn),尤其是存在過于強調大數(shù)據發(fā)展優(yōu)勢而忽略其中可能存在問題的傾向。為此,本文旨在著重探討大數(shù)據治理中需要防范的“大數(shù)據自大”陷阱。
“大數(shù)據”和“傳統(tǒng)數(shù)據”收集過程的差異
大數(shù)據在收集和分析方式上與傳統(tǒng)數(shù)據存在較大差異。傳統(tǒng)統(tǒng)計數(shù)據的收集主體是國家統(tǒng)計部門(“統(tǒng)計”在英文中與“國家”同一詞根)和特定研究機構。無論是人口普查還是抽樣調查,在收集數(shù)據前往往需要經過確定收集數(shù)據的目標、根據該目標設計問卷或者確定收集方法、組織數(shù)據采集團隊、對數(shù)據收集做好質量控制等步驟。對于抽樣調查,還需要詳細的確定抽樣框的步驟。尤其重要的是,傳統(tǒng)數(shù)據的統(tǒng)計必須遵守相關法律法規(guī),如《中華人民共和國統(tǒng)計法》《中華人民共和國統(tǒng)計法實施條例》等。因此,傳統(tǒng)數(shù)據的收集主體相對清晰,數(shù)據收集目標相對明確,存在規(guī)范的收集流程;一旦統(tǒng)計數(shù)據出現(xiàn)質量問題,也有明確責任人。
與傳統(tǒng)數(shù)據的收集相比,大數(shù)據往往不是為了特定目標收集,而是企業(yè)運營過程中產生的副產品。例如,谷歌作為搜索引擎,最初只是為用戶提供便捷的搜索工具,但隨著用戶搜索量的增加,用戶搜索的信息本身沉淀為搜索大數(shù)據。又如淘寶最初只是讓消費者和廠商可以在線上達成交易的平臺,但雙方的交易形成了交易大數(shù)據。簡而言之,大數(shù)據的收集不再是某一主體為了特定目標而主動展開的統(tǒng)計項目,收集過程往往由數(shù)據采集平臺和機構自行決定,因此對外界來說是“黑箱”。由于目前我國還沒有相應法律法規(guī)來規(guī)范大數(shù)據收集過程中的責、權、利問題,大數(shù)據的質量以及基于大數(shù)據的分析如果出現(xiàn)問題也存在難以追責的現(xiàn)象。
“大數(shù)據自大”的提出
“大數(shù)據自大(Big Data Hubris)”問題最早由Lazer等學者在2014年發(fā)文討論谷歌公司預測美國流感發(fā)病率項目時提出。2008年11月,谷歌公司啟動了GFT(谷歌流感趨勢)項目以預測美國疾控中心報告的流感發(fā)病率。2009年,GFT團隊在《自然》發(fā)文稱,只需分析數(shù)十億搜索中45個與流感相關的關鍵詞,GFT就能比美國疾控中心提前兩周預報2007—2008季流感的發(fā)病率。2014年, Lazer等學者在《科學》發(fā)文指出,2009年GFT沒有能預測到非季節(jié)性流感A-H1N1;從2011年8月開始的108周里,GFT有100周高估了美國疾控中心報告的流感發(fā)病率,高估程度達1.5倍—2倍多。
Lazer等學者認為,“大數(shù)據自大”是這一預測錯誤的主要原因之一。這里,它是指一家機構認為自己擁有的“海量數(shù)據”就是“全量數(shù)據”,因此在分析定位上認為大數(shù)據比科學抽樣基礎上形成的傳統(tǒng)數(shù)據更優(yōu)越。雖然近年來大數(shù)據與各類傳統(tǒng)數(shù)據相結合的分析受到了一定程度的重視,但是在實踐中卻仍然存在“大數(shù)據自大”現(xiàn)象。
“大數(shù)據自大”的現(xiàn)實表現(xiàn)
忽略大數(shù)據可能存在的結構變化
由于大數(shù)據相關技術在我國運用的時間還比較短,在對經濟和金融相關的預測中,尚不存在可以跨越較長經濟周期的大數(shù)據。而大數(shù)據分析所依據的機器學習或者深度學習模型,都假定了訓練數(shù)據的生成機制和真實數(shù)據的生成機制是相似的,即不存在結構性變化。這一假定在較短時間內可能成立,但是如果經濟出現(xiàn)結構性變化,就會產生過去運行良好的模型忽然預測不準的現(xiàn)象。例如,在經濟繁榮時期訓練出的判斷個人是否會逾期或者形成不良貸款的風控模型,在經濟下行時期就可能低估實際不良率的發(fā)生,導致對風險的預備不足。
忽略大數(shù)據可能不具備代表性
第一,不同平臺或者機構有其特定的消費人群。因此分析結論可能僅適用于該平臺或機構、未必可以代表全國或某一地區(qū)的狀況。然而一個常見現(xiàn)象是,網絡新聞平臺采用該平臺的瀏覽大數(shù)據來分析各省人群的閱讀習慣差異,餐飲行業(yè)平臺采用在這個平臺上產生的大數(shù)據來分析不同城市的夜間經濟,報告結果往往直接闡述為“XX省的讀者更偏好娛樂類新聞”“XX市夜間經濟特征”等。當相關企業(yè)將這類報告報送有關部門時,解讀這類報告中的趨勢和特征就需要注意,這類報告的分析包含了兩部分因素:一是全國或者某一地區(qū)人民閱讀或者餐飲的真實特征和趨勢;二是該平臺自身需求所帶來的結構性變化。如果忽略了第二種因素,就可能會導致對一些行業(yè)發(fā)展狀況產生誤判。
第二,在大數(shù)據供給層面存在算法調整問題。以谷歌公司為例,其商業(yè)模式的主要目標是更快速地為使用者提供準確信息。為了實現(xiàn)這一目標,數(shù)據科學家與工程師不斷更新谷歌搜索的算法,讓使用者可以通過后續(xù)谷歌推薦的相關詞快捷地獲得有用信息。這一模式在商業(yè)上非常必要,但在數(shù)據生成機制方面卻導致不同時期的數(shù)據之間可能不可比。如果數(shù)據分析團隊和算法演化團隊沒有充分溝通,數(shù)據分析團隊不清楚知曉算法調整對數(shù)據生成機制的影響,就會誤將數(shù)據變動解讀為市場真實變動而帶來誤判。
第三,數(shù)據生成動機可能會隨時間推移而發(fā)生變化。前文已述,大數(shù)據不再是由政府特定部門或者特定機構主持收集,而是經濟社會主體運營中產生的副產品,因此大數(shù)據的采集就和該主體自身的利益訴求密切相關。以社交媒體大數(shù)據為例,對這類數(shù)據的分析常常建立在一個假定之上,即人們在社交媒體分享的信息都是真實的、自發(fā)的、不會被自己發(fā)言的平臺所操縱。如果說過去社交媒體企業(yè)記錄保存客戶信息的動機僅僅是本公司發(fā)展業(yè)務需要,算法演化也單純是為了更好地服務消費者,那么隨著大數(shù)據時代的推進,“數(shù)據為王”的特征就會越來越明顯,社交媒體會看到除了可以給使用者植入廣告以增加收入之外,還可以操縱數(shù)據的生成與報告以增加自身的影響力。
技術唯上,忽略大數(shù)據分析的現(xiàn)實環(huán)境
大數(shù)據為我國發(fā)展新業(yè)態(tài)提供了嶄新機遇,但也存在一味強調大數(shù)據的技術優(yōu)勢,而忽略大數(shù)據技術和各地區(qū)經濟社會發(fā)展實際狀況相結合時可能產生問題的現(xiàn)象。例如,金融科技發(fā)展過程中,大數(shù)據征信獲得了長足進展?;诖髷?shù)據技術,車抵貸有了新的執(zhí)行方式。相較于過去抵押車之后車就要放到固定地點不能移動的安排,現(xiàn)在由于車輛都安裝了GPS,貸款平臺可以實時監(jiān)控車輛去向,因此抵押人辦完抵押手續(xù)之后仍然可以將車開走,一旦無法還款,平臺公司上門拖車即可。但是,在2018年以來開展的掃黑除惡專項整治活動中,借款人不還款、而出借方平臺因為擔心被當作惡意催收,也不能按照GPS上門收車的現(xiàn)象開始出現(xiàn)。又如,大數(shù)據分析技術的發(fā)展讓網約車成為人們日常出行的新選擇。但2019年12月Uber的首份安全報告顯示,2018年共發(fā)生超過3000起性侵案件,而紐約警察局記錄的數(shù)據顯示,2018年交通系統(tǒng)發(fā)生的這類案件為533起。上述兩例說明,如果沒有尊重金融規(guī)律(風險較高的人即便可以抵押車也不見得是好的借款人)、沒有相應的司法保障而單純依靠大數(shù)據分析的技術力量,那么在開發(fā)新業(yè)態(tài)的同時也可能帶來新風險。
防范“大數(shù)據自大”的政策建議
第一,加快訂立大數(shù)據采集和分析方面的法律法規(guī)。雖然有《網絡安全法》、《統(tǒng)計法》等法律法規(guī),但目前我國在專門針對大數(shù)據采集、使用、分享等方面的法律法規(guī)還十分欠缺。例如,一些APP存在在使用者不知情的情況下,采集和使用與該APP無關的個人信息的做法,而這些行為目前并沒有明確的法律層面的懲戒措施。而歐盟的《通用數(shù)據保護條例(General Data Protection Regulations)》、荷蘭的《個人數(shù)據保護法》(Personal Data Protection Act,“DPA”)都指出,在沒有法律依據的情況下處理個人數(shù)據是不被允許的。
第二,提高大數(shù)據使用的透明度,加強對大數(shù)據質量的評估。由于大數(shù)據體量大、分析難度高等問題,不僅大數(shù)據的收集過程可能是“黑箱”,大數(shù)據分析也可能存在過程不透明的現(xiàn)象。在GFT案例中,Lazer等人指出,谷歌公司從未明確用于搜索的45個關鍵詞是哪些;雖然谷歌工程師在2013年調整了數(shù)據算法,但是谷歌并沒有公開相應數(shù)據,也沒有解釋這類數(shù)據是如何搜集的。同時,與透明度相關的是大數(shù)據分析結果的可復制性問題。由于谷歌以外的研究人員難以獲得GFT使用的數(shù)據,因此就難以復制、評估采用該數(shù)據分析結果的可靠性。這種數(shù)據生成和分析的“黑箱”特征,容易成為企業(yè)或者機構操縱數(shù)據生成過程和研究報告結果的溫床。唯有通過推動大數(shù)據分析的透明化,才能在大數(shù)據產業(yè)發(fā)展之初,建立健康的數(shù)據文化。
第三,在保護隱私和數(shù)據安全的基礎上,加大傳統(tǒng)數(shù)據和大數(shù)據的開放共享力度。大數(shù)據分析中,單個企業(yè)具有顆粒度較高但是代表性不足的數(shù)據 “信息孤島”問題,需要通過不同行業(yè)、不同類型大數(shù)據和傳統(tǒng)數(shù)據之間加強開放和共享來解決。目前,一些大數(shù)據企業(yè)已經開始著手推動數(shù)據開放平臺方面的工作,這是該方向可喜的變化。同時要看到,在傳統(tǒng)數(shù)據的收集和開放運用方面,我國還有很大提升空間。只有在對涉及我國基本國情的傳統(tǒng)數(shù)據進行充分學習研究之后,我國學界和業(yè)界才能對經濟政治社會文化等領域的基本狀況有較清晰的把握。而這類的把握,是評估大數(shù)據質量、大數(shù)據可研究問題的關鍵,對推進大數(shù)據產業(yè)健康發(fā)展有舉足輕重的作用。
結語
我國經濟已由高速增長階段轉向高質量發(fā)展階段,大數(shù)據已經成為數(shù)字經濟發(fā)展的關鍵要素。如果忽略數(shù)據生成機構可能存在的行為動機、大數(shù)據相關技術使用的現(xiàn)實國情、大數(shù)據和傳統(tǒng)數(shù)據的互相配合和交叉驗證,那么大數(shù)據分析就有可能落入存在嚴重偏差的陷阱。因此在政策導向上,需要盡快推動對大數(shù)據采集和使用的法律法規(guī)建設,同時推動大數(shù)據開放共享、大數(shù)據和傳統(tǒng)數(shù)據的研究與合作,使大數(shù)據與傳統(tǒng)數(shù)據互為補充、相得益彰,共同助力我國經濟的高質量發(fā)展。
【本文作者為北京大學國家發(fā)展研究院教授】
參考文獻
[1]胥愛歡: 《互聯(lián)網金融創(chuàng)新挑戰(zhàn):大數(shù)據、跨界經營與權利異化》,《西南金融》,2016年第6期。
責編:司文君 / 周素麗
聲明:本文為《國家治理》周刊原創(chuàng)內容,任何單位或個人轉載請回復國家治理周刊微信號獲得授權,轉載時務必標明來源及作者,否則追究法律責任。