【摘要】人工智能大模型產業(yè)發(fā)展的三要素為算法、算力與數(shù)據(jù),其中訓練數(shù)據(jù)語料庫的質量直接決定了人工智能大模型的能力。中文數(shù)據(jù)語料總量相較英文數(shù)據(jù)語料嚴重不足,同時存在數(shù)據(jù)采集行為違法風險較高、公共數(shù)據(jù)開放利用不足、線下結構化數(shù)據(jù)版權制度不協(xié)調、商業(yè)采購與合作數(shù)據(jù)無法確定數(shù)據(jù)權屬等障礙,其已成為制約人工智能發(fā)展的制度瓶頸。發(fā)展我國人工智能大模型產業(yè)可通過司法判例明確網(wǎng)絡數(shù)據(jù)來源合法性認定條件,協(xié)調版權規(guī)則確定線下數(shù)據(jù)使用合理性制度邊界,構建開放機制滿足公共數(shù)據(jù)參與語料庫建設需求,協(xié)同促進跨領域數(shù)據(jù)流通交易規(guī)則建立供給激勵,多方破除制度障礙以應對產業(yè)發(fā)展需求。
【關鍵詞】人工智能大模型 訓練數(shù)據(jù) 語料庫建設 版權制度 公共數(shù)據(jù)
【中圖分類號】TP18 【文獻標識碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2024.13.006
【作者簡介】張凌寒,中國政法大學數(shù)據(jù)法治研究院教授、博導,聯(lián)合國人工智能高層顧問機構(UN High-Level Advisory Body on AI)專家,《人工智能法(學者建議稿)》起草專家組牽頭專家。研究方向為民商法、數(shù)據(jù)法、人工智能(算法)、平臺治理等。主要著作有《權力之治:人工智能時代的算法規(guī)制研究》等。
人工智能是新一輪科技革命和產業(yè)變革的重要驅動力量,將對全球經(jīng)濟社會發(fā)展和人類文明進步產生深遠影響。中國高度重視人工智能發(fā)展,積極推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實體經(jīng)濟深度融合,培育壯大智能產業(yè),加快發(fā)展新質生產力,為高質量發(fā)展提供新動能。在人工智能產業(yè)發(fā)展的諸多要素中,訓練數(shù)據(jù)語料庫的規(guī)模和多樣性是技術進步的關鍵因素。我國訓練數(shù)據(jù)語料庫的建設面臨一些制度不協(xié)調,制約了人工智能技術的發(fā)展。當下迫切需要理清語料庫建設存在的障礙,明晰人工智能訓練數(shù)據(jù)壁壘與低質成因,通過分析人工智能大模型產業(yè)訓練數(shù)據(jù)語料庫建設需求,提出訓練數(shù)據(jù)語料庫制度協(xié)調與規(guī)則應對的解決方案。
訓練數(shù)據(jù)語料庫是人工智能產業(yè)發(fā)展的重要因素
語料庫的訓練數(shù)據(jù)規(guī)模是大模型能力涌現(xiàn)的基礎。人工智能大模型的能力飛躍得益于涌現(xiàn)效應。涌現(xiàn)效應標志著人工智能大模型的性能產生飛躍,能力“涌現(xiàn)”就是指“在小模型中不存在,而在大模型中能夠展現(xiàn)出的能力”。[1]大模型的整體性能和行為會由于“涌現(xiàn)”出現(xiàn)質的飛躍,且這種飛躍無法僅從系統(tǒng)的組成部分來預測或解釋。以GPT系列模型為例,作為語言模型,開發(fā)者在初期僅訓練其處理一般的語言任務,但當?shù)紾PT-3時,語言模型開始表現(xiàn)出成功進行兩位數(shù)乘法的能力,即使開發(fā)者并未對其進行專門的數(shù)學運算訓練。[2]
訓練數(shù)據(jù)體量的增加是人工智能大模型出現(xiàn)涌現(xiàn)效應的基礎。“涌現(xiàn)”只存在于訓練數(shù)據(jù)達到一定量級,并因此產生質變的大模型中。如圖1所示,谷歌和斯坦福大學的相關研究表明,當模型規(guī)模達到一定量級時,能力“涌現(xiàn)”突然發(fā)生,并隨著模型體量的增加持續(xù)攀升。[3]盡管尚不能斷言模型尺度是解鎖涌現(xiàn)效應的唯一因素,但在現(xiàn)階段的大模型發(fā)展中,涌現(xiàn)效應的出現(xiàn)主要源于訓練數(shù)據(jù)規(guī)模和參數(shù)體量的變化。[4]
越過“涌現(xiàn)”門檻后,訓練數(shù)據(jù)語料庫的規(guī)模和類型的發(fā)展也可推動大模型能力持續(xù)進步。以數(shù)據(jù)規(guī)模為例,盡管OpenAI從GPT-3.5時期起就不再公布訓練數(shù)據(jù)的構成和規(guī)模,但業(yè)內普遍認為從GPT-3.5到GPT-4,訓練數(shù)據(jù)仍然保持高速增長,使得模型能夠學習到更豐富的語言特征和語義關系,從而在文本生成風格、多語言翻譯和長文本處理等多項自然語言處理任務中展現(xiàn)出前所未有的性能。[5]以數(shù)據(jù)類型為例,相較于其前身PaLM的純英文文本訓練數(shù)據(jù)集,由谷歌開發(fā)的PaLM-2模型使用的語料庫中包括數(shù)百種人類和編程語言、數(shù)學方程、科學論文等多類型數(shù)據(jù),并因此使得PaLM-2模型在高級推理、翻譯、代碼生成等方面的表現(xiàn)優(yōu)于PaLM。訓練數(shù)據(jù)規(guī)模和類型的豐富,不斷驅動大模型能力從特定任務模型繼續(xù)擴展,顯現(xiàn)出通用人工智能模型。
語料庫的訓練數(shù)據(jù)質量是大模型性能提升的關鍵。語料質量對大模型性能有著至關重要的作用。高質量數(shù)據(jù)可以更好地模擬客觀世界,將其作為訓練數(shù)據(jù)可以增強模型能力。從技術層面看,高質量數(shù)據(jù)能夠使模型預測的概率分布盡可能逼近實際數(shù)據(jù)的真實分布;從模型能力看,高質量數(shù)據(jù)可以提升模型的準確性和穩(wěn)定性,降低模型對特定數(shù)據(jù)集的依賴,提升魯棒性和泛化能力[6]。相關研究指出,“未來一個模型的好壞,20%由算法決定,80%由數(shù)據(jù)質量決定。接下來高質量的數(shù)據(jù)將是提升模型性能的關鍵”。[7]
在當下的大模型競爭中,作為模型能力提升的關鍵,良好的數(shù)據(jù)質量在一定程度上可以彌補數(shù)據(jù)數(shù)量的不足。騰訊、阿里等本土人工智能企業(yè)的技術負責人曾在多個場合表示,即使模型參數(shù)量級有所下降,只要數(shù)據(jù)語料質量足夠優(yōu)秀,模型的表現(xiàn)依然能夠保持較好水準。[8]例如,使用少量但高度準確和詳細的患者健康記錄,可以訓練出能夠準確預測疾病的機器學習模型。相比之下,大量的低質量數(shù)據(jù)(如錯誤的診斷信息、不完整的病歷等)可能導致模型做出錯誤的預測,影響治療效果。這說明在醫(yī)療領域中,高質量的數(shù)據(jù)能通過提供更準確的洞察力和決策支持來彌補數(shù)量上的不足。[9]高質量數(shù)據(jù)通過對現(xiàn)有不同來源的數(shù)據(jù)加以混合、調試配比,提升模型執(zhí)行下游任務的泛化能力;還可以利用數(shù)據(jù)增強等手段有效提升多樣性,即通過對現(xiàn)有數(shù)據(jù)進行變換或擴充,生成更多的訓練樣本,增強訓練數(shù)據(jù)代表性和多樣性。[10]
多模態(tài)大模型的能力對訓練數(shù)據(jù)的種類與質量提出了更多要求。多模態(tài)大模型是以單模態(tài)大模型為基礎的,具有接收、推理和輸出多模態(tài)信息能力的大模型。多模態(tài)大模型能夠根據(jù)多模態(tài)指令展現(xiàn)新的能力,如根據(jù)圖像編寫網(wǎng)站代碼。[11]對多模態(tài)大模型具有重要意義的訓練數(shù)據(jù)同樣表現(xiàn)出多模態(tài)。例如,多模態(tài)模型CLIP的訓練數(shù)據(jù)包括文本和圖像的結合,數(shù)據(jù)集的多樣性遠超傳統(tǒng)的文本數(shù)據(jù)集,這使得CLIP能夠理解和生成與文本描述相關的圖像,在圖像理解、圖像生成和跨模態(tài)檢索等任務上表現(xiàn)卓越。[12]然而,現(xiàn)有的大多數(shù)多模態(tài)融合方法都假定數(shù)據(jù)質量較高,這使得它們在低質量數(shù)據(jù)的情境下難以有效應用。[13]
語料庫的訓練數(shù)據(jù)合規(guī)是大模型價值取向的保證。就技術原理而言,生成式人工智能系統(tǒng)通過在文本、圖片、音視頻等多模態(tài)訓練數(shù)據(jù)“喂養(yǎng)”的基礎上生成文本、圖像、音視頻等內容,其生成內容難以避免會受原始訓練數(shù)據(jù)的影響。
訓練數(shù)據(jù)對于大模型價值取向的影響體現(xiàn)在多個維度。就數(shù)據(jù)蘊含的內容而言,不同領域的訓練數(shù)據(jù)決定了大模型在對應領域中的價值取向偏差。聯(lián)合國高級別人工智能咨詢機構發(fā)布的《以人為本的人工智能治理》報告指出,人工智能在道德價值、社會價值、文化價值、法律規(guī)范等領域存在風險。就數(shù)據(jù)表達的偏見類型而言,多樣化的數(shù)據(jù)偏見會對大模型的內容生成產生潛移默化的影響。以性別為例,加州大學洛杉磯分校的機器學習團隊將自然語言學習中的偏見具體分成了四類:刻板印象、分類識別、代表偏差、貶損評價。[14]可見,大模型的價值取向問題并非僅包含明顯的歧視,而是在不同維度的偏見上均有體現(xiàn)。
開發(fā)者對訓練數(shù)據(jù)投毒等方式,也會對大模型生成內容的價值取向造成破壞性結果。數(shù)據(jù)投毒系針對模型訓練過程,通過在訓練數(shù)據(jù)集中插入精心設計的有害樣本,利用模型訓練或者微調過程來使大模型“中毒”的攻擊方式。[15]開發(fā)者可以對大模型進行“投毒”,使其在特定任務上傳播虛假信息,并偽裝為權威機構發(fā)布的模型上傳至開源社區(qū),實現(xiàn)惡意攻擊的傳播。[16]經(jīng)受錯誤誘導的大模型輸出內容可能導致價值偏見的傳播,甚至引發(fā)公共惡性事件。此外,投毒信息會使得模型生成的內容與現(xiàn)實事實不一致,即產生幻覺[17],但在回答其他問題時依然正常,這使得模型投毒造成的危害難以在生成端被有效識別。
由此可見,訓練數(shù)據(jù)的質量直接關系大模型生成內容的價值取向。大模型通常具有數(shù)十億級以上的參數(shù),由于模型黑箱等特性其運行決策過程缺乏透明度,人們往往難以理解模型如何形成特定價值取向。盡管可以通過基于人類反饋的強化學習、全監(jiān)督微調等手段推動價值對齊,但受限于算法能力、穩(wěn)定性、成本、文化差異等問題,難以完全滿足復雜的應用場景下對大模型治理的需要。[18]因此,對訓練數(shù)據(jù)集提出較高的合規(guī)要求,是對大模型實現(xiàn)有效治理的必要前提。也正是基于此技術原理,《生成式人工智能預訓練和優(yōu)化訓練數(shù)據(jù)安全規(guī)范(征求意見稿)》將違反社會主義核心價值觀和歧視性的內容列為主要安全風險內容,在訓練數(shù)據(jù)收集、使用、處理階段通過抽樣檢查等方式減少數(shù)據(jù)中的價值偏差內容,避免模型學習并生成有害結果。[19]
我國訓練數(shù)據(jù)語料庫的建設現(xiàn)狀與存在問題
訓練數(shù)據(jù)語料庫總體量級不足。中文訓練數(shù)據(jù)語料庫總體量級的不足,集中體現(xiàn)為中文語料在全球語料總量中占比較低,這一問題由來已久,難以在短期內改變。中文訓練數(shù)據(jù)語料總量的不足,使高質量語料缺少積累,導致高質量中文語料尤為稀缺。中文訓練數(shù)據(jù)語料在數(shù)量和質量上的弱勢,間接導致中文大模型企業(yè)只能退而求其次,通過語料翻譯、降低質量要求甚至從其他模型中提取語料的方式獲取數(shù)據(jù),進而增加了大模型的不穩(wěn)定和不安全的風險。
第一,中文語料總量占比較低。長久以來,互聯(lián)網(wǎng)中文內容的占比長期處于劣勢,中文語料總量積累明顯不足。根據(jù)W3Techs提供的實時統(tǒng)計顯示,全球互聯(lián)網(wǎng)中文內容僅占全部內容的1.2%,相較之下英文內容占比則高達49.9%。[20]使用人口、傳播范圍和國際影響力上的差距導致了中英文語料在總量上的差距。IDC于2023年發(fā)布的報告顯示,中文語料數(shù)據(jù)年均增長速度為26.3%,預計在2027年將達到76.6ZB,然而相較近2000ZB的互聯(lián)網(wǎng)數(shù)據(jù)總量而言依舊微小。[21]中英文語料總量差距的一個直接反映是中文開源訓練數(shù)據(jù)集規(guī)模不足,英文開源數(shù)據(jù)集在GPT系列訓練數(shù)據(jù)中規(guī)模非常龐大,而中文模型開發(fā)者可利用的網(wǎng)絡開源數(shù)據(jù)集數(shù)量卻十分有限,這種開源數(shù)據(jù)集數(shù)量上的不足導致中文模型的開發(fā)高度依賴自有業(yè)務產生和商業(yè)采購的數(shù)據(jù),對缺乏互聯(lián)網(wǎng)業(yè)務積累和充盈資金投入的AI初創(chuàng)企業(yè)十分不友好。
第二,中文語料總體質量較低。中文高質量語料的積累周期較短,難以形成足夠規(guī)模和水平的高質量數(shù)據(jù)池,其總體質量不及英文語料庫??捎瞄_源數(shù)據(jù)集在整體數(shù)據(jù)池中的占比低,是導致中文高質量語料不足的主要原因之一。開源數(shù)據(jù)集經(jīng)過爬取、清洗和結構化等工序后形成,數(shù)據(jù)質量通常高于原始數(shù)據(jù)。而我國可用開源數(shù)據(jù)集數(shù)量稀缺,迫使企業(yè)轉向其他數(shù)據(jù)來源,這導致大量網(wǎng)頁語料未能經(jīng)過系統(tǒng)收集和加工,降低了中文語料的整體質量水平。高質量語料積累薄弱的另一個原因在于公共數(shù)據(jù)開放深度和統(tǒng)一度的不足。[22]我國公共數(shù)據(jù)的積累可以追溯至2015年前后的智慧城市建設時期,公共數(shù)據(jù)開放逐漸被嫁接在電子政務建設的邏輯上展開。[23]各地政府隨后出臺了相關規(guī)范,但全國范圍內長期未能建立統(tǒng)一的數(shù)據(jù)開放平臺。我國各級政府部門掌握了50%~80%的信息數(shù)據(jù)資源,這些資源至今仍未被有效整合和利用。
第三,中文語料匱乏引發(fā)語料供給困境。中文語料數(shù)量和質量的雙重不足,給國內大模型的開發(fā)帶來了巨大的語料供給困境,迫使開發(fā)企業(yè)選擇翻譯外文語料或降低質量標準等手段進行大模型的訓練。作為幫助模型建立聯(lián)系的素材,訓練語料應當盡可能準確地反映真實、客觀的規(guī)律,而翻譯外文語料和使用低質語料可能降低語料內容的準確性,增加模型內容的安全隱患。2023年12月,OpenAI關停了字節(jié)跳動的GPT服務賬戶及相關API,理由是后者利用所提取的GPT數(shù)據(jù)開發(fā)自己的大模型,這明顯違反了服務協(xié)議中的條款。[24]從其他模型中提取語料的行為,不僅可能違反服務提供者設定的規(guī)則,還可能在承認數(shù)據(jù)具有財產屬性的前提下被認定為侵權行為。此外,語料供給困境還可能導致企業(yè)圍繞有限的語料展開過度競爭。研究發(fā)現(xiàn),模型生成語料的反復投喂,可能導致后續(xù)模型能力的下降乃至模型發(fā)散,形成“模型退化”現(xiàn)象。[25]若放任行業(yè)長期圍繞語料的獲取進行過度競爭,會使數(shù)字企業(yè)的數(shù)據(jù)共享意愿持續(xù)下降,進一步加劇數(shù)據(jù)流通不暢和高質量語料積累不足的困境,造成AI產業(yè)發(fā)展的惡性循環(huán)。
訓練數(shù)據(jù)語料庫總體來源匱乏。訓練數(shù)據(jù)語料庫的來源匱乏也是目前制約人工智能發(fā)展的關鍵問題,我國在網(wǎng)絡數(shù)據(jù)、線下數(shù)據(jù)、公共數(shù)據(jù)、領域數(shù)據(jù)等外部來源數(shù)據(jù)方面存在明顯不足,大模型廠商內部的合成數(shù)據(jù)尚未形成規(guī)模,擬出臺的嚴格合規(guī)要求進一步限制了可用數(shù)據(jù)的范圍,使得我國的AI大模型在訓練數(shù)據(jù)上面臨嚴峻挑戰(zhàn)。
一方面,外部來源數(shù)據(jù)不足。目前常見的外部來源數(shù)據(jù)通常包含網(wǎng)絡數(shù)據(jù)、線下數(shù)據(jù)、公共數(shù)據(jù)、領域數(shù)據(jù)等,相比之下,美國訓練數(shù)據(jù)語料庫中的外部來源數(shù)據(jù)十分充足,而我國的訓練數(shù)據(jù)語料庫則相對單薄。在網(wǎng)絡數(shù)據(jù)方面,美國擁有龐大的網(wǎng)絡數(shù)據(jù)容量和豐富的開源數(shù)據(jù)資源,企業(yè)能夠通過合規(guī)爬蟲技術輕松獲取數(shù)據(jù);而我國網(wǎng)絡建設起步晚,網(wǎng)絡數(shù)據(jù)積累量小,擁有較大數(shù)據(jù)量的平臺不愿公開自身數(shù)據(jù),導致網(wǎng)絡數(shù)據(jù)總量遠不及美國。在線下數(shù)據(jù)方面,模型廠商需要將該部分數(shù)據(jù)電子化后才能用來訓練,美國對線下數(shù)據(jù)進行了高度電子化,主要的學術期刊和論文幾乎全部實現(xiàn)了在線獲?。欢覈娮踊潭容^低,許多圖書、期刊和論文等仍主要以紙質形式存在,線下數(shù)據(jù)難以被充分利用。在公共數(shù)據(jù)方面,美國聯(lián)邦政府要求公共數(shù)據(jù)“應開盡開”,并建立了聯(lián)邦層面統(tǒng)一數(shù)據(jù)開放平臺,鼓勵社會力量探索公共數(shù)據(jù)的應用;而我國公共數(shù)據(jù)的開放程度仍有不足,僅對少數(shù)數(shù)據(jù)集提供了API接口,大部分優(yōu)質公共數(shù)據(jù)仍未開放。在領域數(shù)據(jù)方面,領域數(shù)據(jù)通常由專業(yè)部門在從事專門知識勞動中長期積累而來,由于美國公開的數(shù)據(jù)政策和獲取機制,其領域數(shù)據(jù)共享較為暢通;而我國相關權利主體出于商業(yè)利益和數(shù)據(jù)安全等考慮,缺乏共享領域數(shù)據(jù)的積極性,整體領域數(shù)據(jù)流通程度較低。
另一方面,內部合成數(shù)據(jù)缺失。內部合成數(shù)據(jù)來源于對真實數(shù)據(jù)集的建模、提取和合成,既能補充真實數(shù)據(jù)的不足,又能在保護隱私的同時提供大量多樣化的訓練材料,在模型訓練中發(fā)揮著至關重要的作用。隨著AI大模型的發(fā)展,內部合成數(shù)據(jù)在訓練數(shù)據(jù)中的比例逐漸增加。2021年,所有人工智能訓練數(shù)據(jù)中只有1%是合成數(shù)據(jù),到2024年底,這一比例將達到60%,據(jù)Gartner預測,未來用于訓練機器學習模型的大多數(shù)數(shù)據(jù)將是自動生成的合成數(shù)據(jù)。[26]然而,與國際領先企業(yè)相比,我國在合成數(shù)據(jù)技術和應用上的起步較晚,國內大模型廠商在內部合成數(shù)據(jù)方面的儲備明顯不足,缺乏足夠的經(jīng)驗和技術積累,導致目前我國企業(yè)的內部合成數(shù)據(jù)在整體訓練數(shù)據(jù)中的占比較低。這種差距不僅體現(xiàn)在數(shù)據(jù)總量上,更對數(shù)據(jù)質量和多樣性產生了深遠影響,限制了AI技術在更廣泛領域的應用潛力。
訓練數(shù)據(jù)語料庫缺少結構化數(shù)據(jù)。結構化數(shù)據(jù)在語料庫模型訓練中起著重要作用。與非結構化數(shù)據(jù)相比,標準統(tǒng)一、格式一致的數(shù)據(jù)資源更易于理解和利用。然而,目前我國在訓練數(shù)據(jù)語料庫建設中面臨線下數(shù)據(jù)結構化標準的泛化、公共數(shù)據(jù)結構化標準的缺失以及網(wǎng)絡數(shù)據(jù)質量低下等問題,這些問題在不同程度上制約了語料庫的訓練與發(fā)展。
第一,線下數(shù)據(jù)結構化標準泛化。線下元數(shù)據(jù)標準不一以及結構化的缺失影響語料庫訓練的效率與質量。一方面,線下元數(shù)據(jù)的適用標準不統(tǒng)一。用于語料庫訓練的元數(shù)據(jù)缺乏統(tǒng)一標準,元數(shù)據(jù)字段缺失使得以元數(shù)據(jù)為基礎的查詢變得極為困難,進而降低了語料庫的易用性;另一方面,線下數(shù)據(jù)結構化表示缺乏。如知識圖譜、關系數(shù)據(jù)庫等模式的結構化數(shù)據(jù)表示可以最大程度上方便數(shù)據(jù)的分析與利用,且包括文本數(shù)據(jù)、任意交錯圖像等在內的各種數(shù)據(jù)進行預訓練的多模態(tài)語料庫可以獲得原生支持多模態(tài)任務的能力。[27]現(xiàn)有線下數(shù)據(jù)大多以純文本的形式予以儲存,圖片、音頻等數(shù)據(jù)難以被有效利用。以北京市為例,截至2024年5月,北京市人工智能高質量數(shù)據(jù)集服務平臺已經(jīng)上線287個語料數(shù)據(jù)集,總規(guī)模超過500T。其中圖像集33項,音頻集77項,文本仍然是主要的語料形態(tài)。[28]
第二,公共數(shù)據(jù)結構化標準缺失。各地方公共數(shù)據(jù)開放接口及格式標準的差異化,導致語料庫建設缺乏高質量公共數(shù)據(jù)作為訓練依據(jù),嚴重阻礙了語料庫的發(fā)展。一方面,各地方公共數(shù)據(jù)開放接口存在差異,部分省市并未建立起統(tǒng)一的開放接口對外提供數(shù)據(jù)資源。根據(jù)《中國地方公共數(shù)據(jù)開放利用報告 省域(2023年版)》的數(shù)據(jù)顯示,部分省市未上線統(tǒng)一的公共數(shù)據(jù)開放平臺,也未制定統(tǒng)一的公共數(shù)據(jù)開放標準,導致不同地區(qū)之間數(shù)據(jù)開放接口存在顯著差異。[29]另一方面,各地方公共數(shù)據(jù)開放格式存在差異。部分省市數(shù)據(jù)開放格式不清、標準混亂,一定程度上阻礙了數(shù)據(jù)有效利用。例如,杭州市于2023年9月發(fā)布了《杭州市公共數(shù)據(jù)授權運營實施方案(試行)》,實施公共數(shù)據(jù)授權運營管理,建立統(tǒng)一數(shù)據(jù)開放格式,顯著提升了數(shù)據(jù)質量與利用效率。反觀東北、西南部分地區(qū),數(shù)據(jù)開放標準化進程則略微滯后,其在開放格式統(tǒng)一、開放接口標準化方面尚未取得顯著進展。
第三,網(wǎng)絡數(shù)據(jù)質量低下。無效語料過多、缺乏高質量數(shù)據(jù),導致人工智能語料庫的整體質量較低。首先,數(shù)據(jù)源質量參差不齊。網(wǎng)絡數(shù)據(jù)生成于不同渠道,如來自用戶生成、社交媒體、開放數(shù)據(jù)平臺等,不同來源渠道的數(shù)據(jù)質量具有較大差異,不加區(qū)分統(tǒng)一用于數(shù)據(jù)訓練導致語料庫質量較低。其次,數(shù)據(jù)真實性難以驗證?;ヂ?lián)網(wǎng)作為包容開放的數(shù)據(jù)平臺,并未建立起針對數(shù)據(jù)真實性進行審查的運行機制,網(wǎng)絡平臺內容魚龍混雜,導致數(shù)據(jù)真實性難以保證。最后,數(shù)據(jù)質量完善管理制度缺失。目前網(wǎng)絡平臺缺乏完善的數(shù)據(jù)質量管理標準與機制,難以剔除數(shù)據(jù)中的違法信息等不安全因素。訓練語料庫所需的大量數(shù)據(jù)多為無標注數(shù)據(jù),這些數(shù)據(jù)容易存在偏見、歧視,甚至包含侮辱、仇恨、暴力、色情等有害內容[30],導致用于訓練語料庫的數(shù)據(jù)存在一定的合規(guī)風險,加大了語料庫模型的訓練難度。
綜合來看,我國訓練數(shù)據(jù)語料庫建設面臨著多重挑戰(zhàn)和限制,數(shù)據(jù)總量和質量問題、數(shù)據(jù)來源匱乏、結構化數(shù)據(jù)不足等都亟須解決。在未來,只有逐步建成訓練數(shù)據(jù)多樣性和豐富性的語料庫,才能為人工智能大模型的訓練和應用提供充足的數(shù)據(jù)支撐,突破制約人工智能發(fā)展的數(shù)據(jù)瓶頸,進一步推動人工智能技術的發(fā)展和產業(yè)化進程。
訓練數(shù)據(jù)語料庫建設的障礙與成因
網(wǎng)絡數(shù)據(jù)采集的違規(guī)風險高。網(wǎng)絡富集大量語料數(shù)據(jù),但網(wǎng)絡數(shù)據(jù)質量參差不齊,并不都能夠滿足模型訓練的基本要求。網(wǎng)絡數(shù)據(jù)爬取是語料數(shù)據(jù)的重要來源,即使是結構化的開源數(shù)據(jù)集大多也由經(jīng)過初步加工后的爬取數(shù)據(jù)構成。此外,在數(shù)據(jù)發(fā)揮重要經(jīng)濟價值的當下,網(wǎng)絡數(shù)據(jù)采集面臨來自數(shù)據(jù)持有者、原始數(shù)據(jù)權利人等多方的利益訴求,數(shù)據(jù)權益復雜交織,網(wǎng)絡數(shù)據(jù)爬取面臨著較高的違法違規(guī)風險。截至2023年12月,我國域名總量為3160萬個,活躍App數(shù)量高達260萬款。[31]在商業(yè)采買價格機制尚未固定,平臺共享數(shù)據(jù)意愿不足的現(xiàn)狀下,巨大網(wǎng)絡空間潛藏的海量網(wǎng)絡數(shù)據(jù)成為人工智能企業(yè)訓練數(shù)據(jù)語料庫的首選來源。然而,爬取網(wǎng)絡數(shù)據(jù)行為的合法邊界仍模糊不清。網(wǎng)絡數(shù)據(jù)的防爬取措施成為判斷爬取行為合法性邊界的重要因素。破壞性爬取行為一般被認為打破了網(wǎng)絡數(shù)據(jù)共享承載的公共利益和平臺數(shù)據(jù)權益的平衡,往往作為違法性的判定標準。我國法院肯定了單方聲明的Robots協(xié)議具有告知和引導作用,違反Robots協(xié)議的行為可能屬于違反商業(yè)道德的范疇,但并不承認Robots協(xié)議對雙方具有法律約束力。學者們也逐漸認為不宜將之作為判斷爬取行為合法性的唯一依據(jù)。[32]由此可見,網(wǎng)絡數(shù)據(jù)爬取的合法性邊界不斷隨著實踐產生爭議并變化,人工智能企業(yè)始終無法獲得明確穩(wěn)定的行為指引。
在激烈產業(yè)競爭和模糊行為邊界交織作用下,平臺一方面努力爬取網(wǎng)絡數(shù)據(jù),另一方面高筑數(shù)據(jù)壁壘防止競爭對手免費獲取自身數(shù)據(jù)。這導致目前中文模型的訓練高度依賴企業(yè)的自有業(yè)務數(shù)據(jù),大模型的訓練數(shù)據(jù)總體規(guī)模和質量進一步受限。授權使用制度存在的低效率短板則在短期內阻斷了模型廠商通過共享訓練數(shù)據(jù)獲得回報激勵的可能,也導致分散訓練的效率低下。在授權使用的框架下,多個大模型廠商均須承擔交易談判的時間成本與經(jīng)濟成本,降低了大模型產業(yè)整體生產效率。更令人擔憂的是,大模型的市場前景吸引幾乎所有掌握大量數(shù)據(jù)的平臺企業(yè)布局,這加劇了這一市場獲取訓練數(shù)據(jù)的競爭。受到競爭利益驅動,企業(yè)獨占數(shù)據(jù)資源的意圖進一步被強化。[33]在此背景下,平臺企業(yè)不斷加強防爬取措施、設置數(shù)據(jù)壁壘,給網(wǎng)絡數(shù)據(jù)爬取制造巨大的技術和法律障礙。
線下數(shù)據(jù)利用支持力度不足。人工智能的實質性突破依賴訓練數(shù)據(jù)的爆發(fā)式增長和高效利用,圖書、期刊、報紙等線下載體作為傳統(tǒng)數(shù)據(jù)承載方式之一,對于完善訓練數(shù)據(jù)語料庫意義重大。線下語料成為訓練數(shù)據(jù)的前提是實現(xiàn)電子化,但我國線下數(shù)據(jù)電子化進程相對滯后。第一,加工深度淺。數(shù)據(jù)電子化過程沒有進一步的結構化和分析,應用價值低。第二,標準化程度低。電子化數(shù)據(jù)缺乏統(tǒng)一的元數(shù)據(jù)格式、編碼和術語,使得數(shù)據(jù)的互通和整合變得更加困難。第三,準確性低。電子數(shù)據(jù)輸入錯誤、處理不當或更新不及時,導致數(shù)據(jù)準確性大打折扣。第四,可復用性差。電子數(shù)據(jù)的格式、結構或權限設置不合理,無法支持多種應用場景和分析需求。
線下數(shù)據(jù)除了電子化嚴重不足,還存在取得授權的制度障礙。線下數(shù)據(jù)一般受到著作權保護,著作權的集體授權制度難以有效支持大模型訓練數(shù)據(jù)的需求。首先,現(xiàn)有的著作權集體管理組織規(guī)模尚不能適應模型開發(fā)者對數(shù)據(jù)規(guī)模化利用的需求。2015、2016兩年全國著作權侵權案件約6000件,我國規(guī)模最大的著作權集體管理組織——中國音樂著作權協(xié)會——直接承辦的民事訴訟總數(shù)僅41件。[34]其次,傳統(tǒng)集體管理組織存在運作低效、功能減弱、模式壟斷等問題。例如,在美國,以YouTube為代表的數(shù)字平臺濫用有關網(wǎng)絡責任的版權法律,這些數(shù)字平臺聲稱他們對其向公眾提供的音樂不承擔責任,并拒絕像其他數(shù)字服務商那樣獲得正規(guī)音樂授權。面對全新技術壟斷,著作權人可獲得的救濟途徑極為有限,所面臨的侵權形勢極為嚴峻。[35]最后,“事前授權”模式難以滿足人工智能時代海量學習的需求。人工智能的發(fā)展依賴于對海量數(shù)據(jù)的獲取,即通過數(shù)據(jù)訓練和迭代大模型,從而實現(xiàn)高質量內容的生成。傳統(tǒng)授權模式涉及高昂的交易成本和反復的利益談判等,限制了數(shù)據(jù)的大規(guī)模獲取,將限制數(shù)據(jù)價值的充分挖掘,完全無法滿足訓練數(shù)據(jù)語料庫建設需求。[36]
著作權的合理使用制度是否適用于線下數(shù)據(jù)仍不明確。對于人工智能訓練數(shù)據(jù)而言,如果不依托授權制度而是借助著作權中的合理使用豁免而獲取和利用,可以降低訓練數(shù)據(jù)成本,提高語料庫構建和更新效率。在當今“產學研”結合大趨勢下,人工智能技術的進步和商業(yè)主體創(chuàng)新能力及社會責任承擔能力不斷提升,科學技術研究不再僅僅發(fā)生在大學實驗室,而將更多地發(fā)生在企業(yè)中。此種情形下“非商業(yè)性主體”的限制,極大地壓縮了其合理使用的空間。數(shù)字時代下,傳統(tǒng)著作權合理使用的條件在適用主體方面有限且對是否適用于線下數(shù)據(jù)仍不明確。
公共數(shù)據(jù)開放廣度深度欠缺。我國公共數(shù)據(jù)占整個數(shù)據(jù)量的比重達到了70%~80%,開放公共數(shù)據(jù)對人工智能訓練語料庫建設意義重大。雖然我國在公共數(shù)據(jù)開放層面取得了一定進步,但仍存在開放廣度與深度欠缺的問題。第一,公共數(shù)據(jù)開放深度不足影響模型訓練質量。公共數(shù)據(jù)的開放深度不足,導致其在人工智能模型訓練中的利用率低下,進而影響模型訓練的準確性和效率。在數(shù)據(jù)層級方面,我國披露的公共數(shù)據(jù)多為統(tǒng)計數(shù)據(jù),但對于大模型數(shù)據(jù)訓練而言,統(tǒng)計數(shù)據(jù)的作用遠不如原始數(shù)據(jù)。原始數(shù)據(jù)才更符合人工智能的訓練需要,有利于提升模型多線程處理與推理預測能力。在開放質量方面,我國公共數(shù)據(jù)開放缺乏統(tǒng)一的元數(shù)據(jù)標準和格式,機器可讀性差,導致數(shù)據(jù)難以得到整合和利用。由于不同部門之間缺乏有效的協(xié)調和合作機制,數(shù)據(jù)管理標準不一、大量數(shù)據(jù)重復采集、數(shù)據(jù)內容矛盾沖突,增大了數(shù)據(jù)治理工作的難度。
第二,公共數(shù)據(jù)授權運營規(guī)則不明確阻礙開放進程。公共數(shù)據(jù)的權屬問題不明確,引發(fā)了公共數(shù)據(jù)授權運營的權利與收益分配障礙。目前公共數(shù)據(jù)的確權授權機制尚在探索之中,而其在人工智能模型訓練中的運用更加劇了問題的復雜性,還需進一步的法律明確和規(guī)范。公共數(shù)據(jù)授權運營兼具營利性與公益性。營利性與公益性的沖突問題導致公共數(shù)據(jù)授權運營的制度定位、運營主體確定、收益分配模式等方面的規(guī)則尚不明確。這直接影響公共數(shù)據(jù)授權運營的實踐效果,同時也阻礙了公共數(shù)據(jù)在人工智能模型訓練中的應用。鑒于公共數(shù)據(jù)特有的強公共屬性,其授權運營形成了國家、市場主體和一般民眾的三角關系。由于缺乏統(tǒng)一的標準和規(guī)范,將公共數(shù)據(jù)用于人工智能模型訓練中可能引發(fā)的數(shù)據(jù)安全風險、數(shù)據(jù)濫用、數(shù)據(jù)壟斷等問題,亟待通過更加明確的開放范圍、授權條件、使用限制和責任分配等規(guī)則解決。
第三,公共數(shù)據(jù)授權運營與模型訓練需求存在沖突。一方面,目前在我國公共數(shù)據(jù)授權運營實踐中,市場收益模式分為面向公益性服務的“免費或公益性收費”模式和面向運營型活動的“市場化定價”模式。然而人工智能模型尤其是在預訓練階段的營利性質難以界定。即使人工智能模型服務被認為是商業(yè)運營活動,人工智能模型本身的訓練是否能被單純評價為“運營活動”,仍存在較大爭議。另一方面,人工智能模型的迭代與進步需要投喂海量數(shù)據(jù)用以訓練支撐。即使授權運營數(shù)據(jù)的定價模式以“成本覆蓋”為原則,模型訓練對數(shù)據(jù)的大規(guī)模獲取需求,也將導致成本過高而使企業(yè)難以負擔的問題,在一定程度上將限制公共數(shù)據(jù)價值的充分挖掘。
領域數(shù)據(jù)權屬交易規(guī)則不明。領域數(shù)據(jù)主要是指在垂直領域開展行業(yè)活動中收集和產生的數(shù)據(jù),已成為人工智能領域發(fā)展的核心基建和關鍵驅動力。領域數(shù)據(jù)以應用質量高、匹配度強及價值密度大的優(yōu)勢,展現(xiàn)了其對人工智能專業(yè)模型層學習能力深化提升的核心作用,對工業(yè)生產、科學教育、自動駕駛、金融醫(yī)療等行業(yè)的發(fā)展至關重要。
領域數(shù)據(jù)專業(yè)門檻高與積累周期長等特性,增加了數(shù)據(jù)流通共享、升級獲取難度。第一,領域數(shù)據(jù)權利方出于商業(yè)利益等因素考慮,表現(xiàn)出“謹慎流通、風險規(guī)避”的立場。當前,領域數(shù)據(jù)主要集中掌握在網(wǎng)絡平臺、醫(yī)院、高校院所等企業(yè)或單位手中,其憑借在數(shù)據(jù)流通中的數(shù)據(jù)資源樞紐位置,收集海量原始數(shù)據(jù)后進行脫敏清洗等處理活動,形成集合性數(shù)據(jù)資源。以美國特斯拉公司為例,其完全自動駕駛測試版(FSD)系統(tǒng)的總行駛里程已達約4.83億公里,并表示其數(shù)據(jù)資源對產品市場競爭力提升至關重要。[37]第二,領域數(shù)據(jù)領域具有主體多維復雜等特性,成為數(shù)據(jù)“固守”的主要誘因。以醫(yī)療領域為例,醫(yī)療健康數(shù)據(jù)不僅是信息載體,更直接關系到個人隱私、健康狀況乃至生命安全。領域數(shù)據(jù)權利方迫于數(shù)據(jù)安全責任、嚴格合規(guī)要求等多重壓力,對領域數(shù)據(jù)共享持保守態(tài)度。
領域數(shù)據(jù)交易意愿低迷,阻礙領域數(shù)據(jù)價值釋放。第一,領域數(shù)據(jù)權屬不明引發(fā)數(shù)據(jù)資源利益分配沖突。2022年12月19日,中共中央、國務院發(fā)布《關于構建數(shù)據(jù)基礎制度更好發(fā)揮數(shù)據(jù)要素作用的意見》(以下簡稱“數(shù)據(jù)二十條”),提出“推動數(shù)據(jù)產權結構性分置和有序流通”,但我國立法針對數(shù)據(jù)權屬問題尚未進行明確細致規(guī)定。一方面,領域數(shù)據(jù)的權利性質不明。領域數(shù)據(jù)區(qū)別于有體物、知識產權等客體,其權利性質需進一步明確。另一方面,領域數(shù)據(jù)涉及利益主體多維復雜,權屬分配規(guī)則不清。從領域數(shù)據(jù)交易環(huán)節(jié)來看,至少有數(shù)據(jù)來源主體、數(shù)據(jù)控制者、數(shù)據(jù)需求方三方主體可以主張相應的權利。領域數(shù)據(jù)權利方缺乏獲得合理回報的收益分配機制,數(shù)據(jù)要素供給激勵機制未完善,導致數(shù)據(jù)供給意愿不強。第二,領域數(shù)據(jù)可能包含個人數(shù)據(jù)、重要數(shù)據(jù)等,數(shù)據(jù)交易存在多層法律風險。如地理數(shù)據(jù)關系國家主權、安全和發(fā)展利益。[38]領域數(shù)據(jù)交易中上下游均需承擔更為嚴格的安全保護義務,呈現(xiàn)責任鏈條廣泛連帶、合規(guī)嚴格約束的特性。[39]
領域數(shù)據(jù)交易規(guī)范體系不健全,難以形成合力推動領域數(shù)據(jù)經(jīng)濟的發(fā)展。實踐中,領域數(shù)據(jù)交易模式主要為一對一、點對點的場外商談模式,交易方式包括直接轉移數(shù)據(jù)及API接口調用,交易規(guī)則主要為交易雙方自主商議約定。場內場外相結合的統(tǒng)一交易制度規(guī)范的缺位,給交易市場的進一步發(fā)展造成了極大阻礙。第一,領域數(shù)據(jù)定價機制的缺失,交易市場的規(guī)范化、標準化發(fā)展無法推進。當前數(shù)據(jù)市場主要的定價機制為數(shù)據(jù)供應方自主定價以及供需雙方協(xié)議定價,難以準確衡量數(shù)據(jù)應有價值[40]。領域數(shù)據(jù)權利方在逐利性的驅動下可能出現(xiàn)價格欺詐、價格歧視、價格壟斷等不當定價行為,需建立自主高效的數(shù)據(jù)定價體系,規(guī)制不當數(shù)據(jù)定價行為,維護領域數(shù)據(jù)交易市場的公平和秩序。第二,領域數(shù)據(jù)交易質量標準不一,交易市場的有序化、實踐化無法達成。當前,領域數(shù)據(jù)交易中,領域數(shù)據(jù)類型、載體、呈現(xiàn)形式等均無統(tǒng)一界定標準。領域數(shù)據(jù)格式不規(guī)范、內容不完整的問題容易導致整個交易市場的混亂局面,影響數(shù)據(jù)交易的順利進行。
訓練數(shù)據(jù)語料庫建設的制度協(xié)調與規(guī)則應對
通過司法判例明確網(wǎng)絡數(shù)據(jù)來源合法性認定條件。由于人工智能訓練數(shù)據(jù)具有數(shù)量大、規(guī)模廣、價值密度低等特征,傳統(tǒng)的數(shù)據(jù)購買模式無法適應模型開發(fā)者對數(shù)據(jù)規(guī)模化利用的需求。目前由內容平臺代理的著作權內容多為單獨具有使用價值的作品,不包括用戶生成的海量數(shù)據(jù),網(wǎng)絡數(shù)據(jù)才是人工智能訓練的主要材料,應通過司法判例進一步明確網(wǎng)絡數(shù)據(jù)來源合法性認定條件。
首先,進一步明確網(wǎng)絡數(shù)據(jù)可爬取范圍。網(wǎng)絡數(shù)據(jù)的可爬取范圍應結合爬取客體、技術手段、行為目的三個方面進行考量。爬取客體上,對于公開數(shù)據(jù)、半公開數(shù)據(jù)、非公開數(shù)據(jù)的保護程度應有所不同。[41]網(wǎng)絡數(shù)據(jù)爬取應嚴格限定于對公開數(shù)據(jù)的訪問,具體包括由政府、學術界和商業(yè)機構出于促進知識共享和技術創(chuàng)新的目的而開放的數(shù)據(jù)。技術手段上,爬取技術的設計和應用應恪守非侵入性原則,尊重并遵循網(wǎng)站的“爬蟲協(xié)議”和用戶協(xié)議,避免任何形式的技術規(guī)避行為。行為目的上,網(wǎng)絡數(shù)據(jù)爬取的行為必須服務于正當目的,對于非商業(yè)性數(shù)據(jù)的爬取,應以增進公共利益為目標。因此,基于科學研究應用等大模型構建信息基礎設施時是否應適當豁免,應在司法裁判中予以充分考量。
其次,應在司法判例中審慎判斷網(wǎng)絡數(shù)據(jù)爬取構成競爭性使用的條件。判斷大模型訓練是否構成競爭性使用,需明確網(wǎng)絡平臺對其數(shù)據(jù)享有的權益。依據(jù)網(wǎng)絡平臺對數(shù)據(jù)的投入程度,可將平臺上的數(shù)據(jù)分為“平臺限定提供的數(shù)據(jù)”及“用戶生成的網(wǎng)頁數(shù)據(jù)”兩類,前者是平臺企業(yè)對其所收集的數(shù)據(jù)進行脫敏、過濾、格式調整、加密、篩選等適度加工之后,采用技術手段進行控制并僅向特定人提供的商業(yè)化數(shù)據(jù);后者是用戶直接提交給平臺,或者用戶在使用平臺過程中生成,直接展示在網(wǎng)頁上的數(shù)據(jù)。[42]對于前者,可能構成企業(yè)數(shù)據(jù)財產,對其未經(jīng)授權的獲取、披露和使用應當承擔相關責任。而后者應當重點判斷其“破壞性利用”的構成、損害顯著和實質性、實質性替代與否以及用戶權益。
最后,由政府協(xié)調設立公共訓練數(shù)據(jù)池、公共訓練數(shù)據(jù)場,承擔生成式人工智能大模型訓練數(shù)據(jù)語料庫的數(shù)據(jù)基礎設施建設責任?,F(xiàn)有語料庫總體覆蓋面和規(guī)模依然不足,受制于數(shù)據(jù)孤島、數(shù)據(jù)污染問題,庫內數(shù)據(jù)的采集依舊面臨來源稀缺的困境。語料形式缺乏統(tǒng)一標準,不同的處理標準導致數(shù)據(jù)集語料類型及結構差異明顯,不利于集約化管理,知識產權和數(shù)據(jù)安全合規(guī)方面的負擔同樣延緩了語料庫合法化建設步伐。在政府的示范引導下各方協(xié)同建設共享數(shù)據(jù)池,以助力數(shù)據(jù)語料庫迭代優(yōu)化是中國企業(yè)與行業(yè)發(fā)展的共同訴求。
協(xié)調版權規(guī)則確定線下數(shù)據(jù)使用合理性制度邊界。傳統(tǒng)著作權“事前授權、使用付費”的交易模式難以滿足人工智能時代海量學習的需求。“事前授權”容易導致數(shù)據(jù)交易流程的冗雜以及交易效率的低下,“使用付費”容易產生包括數(shù)據(jù)獲取的識別成本以及數(shù)據(jù)交易的談判成本在內的過高交易成本[43],這要求版權規(guī)則進行突破協(xié)調以適配人工智能時代高價值數(shù)據(jù)獲取、流通、使用的需要。
第一,構建訓練數(shù)據(jù)合理使用制度。在人工智能預訓練階段,可考慮認定利用版權作品進行訓練原則上構成合理使用。首先,就技術原理而言,大模型或是通過對特定類型作品的風格、要素、體裁等公有領域的“思想”進行學習,進而生成類似作品[44];或是對既有作品進行具備“非特定性”的非表達性使用,進而創(chuàng)造新的數(shù)據(jù)價值[45],其均非《中華人民共和國著作權法》應當規(guī)制的作品使用行為;其次,就社會效益而言,大模型運用高質量數(shù)據(jù)進行訓練具有顯著的公共利益價值,對發(fā)揮數(shù)據(jù)的公共價值、發(fā)展生產力、增進社會福祉、提升國際競爭力等有著顯著正向影響[46],將大模型訓練納入合理使用范疇符合《中華人民共和國著作權法》激勵創(chuàng)新的制度目的;最后,就市場影響而言,大模型的輸出結果不必然對原訓練作品的市場份額產生沖擊,因大模型具備通用能力和泛化能力,其應用場景不局限于原作品的市場定位。但是,合理使用制度的構建并不意味著對大模型訓練的版權侵權全面豁免,對基于科學研究目的的大模型應當允許免費合理使用版權數(shù)據(jù)進行訓練,而對于商業(yè)應用等大模型則應當針對具體個案全面權衡其原理、價值、市場影響等要素,綜合判斷其合法性。
第二,審慎認定訓練數(shù)據(jù)版權侵權及責任承擔方式。當前,多種場景爭議下的司法判例的落實或將成為厘清訓練數(shù)據(jù)合理使用邊界的關鍵。我國現(xiàn)有判例認為,若案涉被侵權作品享有較高知名度,可推定具備接觸可能性,且人工智能模型生成結果在多個關鍵特征上與被侵權作品具有高度相似性,即可認定為實質性相似而構成復制權和改編權侵權??梢?,“實質性相似”將是明確大模型訓練數(shù)據(jù)使用合理性的邊界,法律應當保護的是大模型在已有作品基礎上的創(chuàng)新,而非對既有作品缺乏創(chuàng)造性的剽竊。對于大模型訓練數(shù)據(jù)侵權的救濟手段,應當秉持審慎立場,綜合考慮大模型的應用價值與對權利人的實際損害。一方面,應當盡量避免要求大模型開發(fā)者刪除涉嫌侵權的訓練數(shù)據(jù),以避免導致大模型整體能力的不可控下降,從而給相關產業(yè)帶來過高負擔;另一方面,應當結合被侵權作品的知名度與市場地位、侵權方的應對措施、侵權行為的具體影響范圍、對產業(yè)發(fā)展的潛在影響等予以認定,而不應當過高地認定實際損害,以免為人工智能模型創(chuàng)新與應用施加難以負擔的法律成本。
第三,完善版權作品相關方利益分配機制。一方面,允許版權方行使人工智能訓練拒絕權將有助于維護版權方合法權益。另一方面,人工智能開發(fā)者也可主動采取措施令版權方參與利益分配。OpenAI開展版權屏障計劃,將介入并為使用其產品的企業(yè)提供版權侵權辯護,并承諾承擔客戶因應對相關知識產權訴訟而產生的法律費用。[47]在這一模式下,人工智能模型開發(fā)者作為大模型應用的獲益者承擔相應責任,有助于實現(xiàn)版權方和使用者等主體間的利益平衡,進而推動版權保護與技術發(fā)展的共贏。
構建開放機制滿足公共數(shù)據(jù)參與語料庫建設需求。構建層次化的公共數(shù)據(jù)開放機制有利于推動公共數(shù)據(jù)深度參與人工智能訓練數(shù)據(jù)語料庫建設,使公共數(shù)據(jù)的開發(fā)利用價值在模型訓練過程中得到充分挖掘。不同類型、價值的公共數(shù)據(jù)對應不同的開放程度,公共數(shù)據(jù)開放機制可分為完全開放、有限開放與授權運營三個層次。
第一,構建政府主導的公共數(shù)據(jù)完全開放機制。公共數(shù)據(jù)完全開放機制具有獲取方式的無償性、開放數(shù)據(jù)的原始化、獲取對象的不特定性等特征。具體而言,公共數(shù)據(jù)完全開放機制適用于不涉及國家秘密、商業(yè)秘密、個人隱私及敏感個人信息的原始數(shù)據(jù),具體包括信用、交通、衛(wèi)生、就業(yè)、教育等領域的原始數(shù)據(jù)開放。[48]公共數(shù)據(jù)完全開放機制應當由政府主導,建立公共數(shù)據(jù)開放目錄以確定開放范圍,通過一體化、集中化的國家數(shù)據(jù)開放平臺匯集各省、市政府職能部門的各類原始數(shù)據(jù),以直接獲取或下載的方式免費向不特定的社會公眾開放,實現(xiàn)原始數(shù)據(jù)與語料庫之間的無障礙對接。
需要注意的是,原始數(shù)據(jù)雖然具有較高的開發(fā)利用價值,但也存在較大的不確定性和安全風險。[49]政府在履行公共數(shù)據(jù)開放義務的同時,還應當建立公共數(shù)據(jù)開放安全風險防控機制,采取技術、管理措施防范原始數(shù)據(jù)安全風險,具體包括開放前的個人數(shù)據(jù)去標識化處理、開放平臺的運營技術維護、開放過程中的動態(tài)安全監(jiān)測以及開放后的安全事件應急預案等。
第二,構建特定對象的公共數(shù)據(jù)有限開放機制。公共數(shù)據(jù)完全開放機制雖然能夠為語料庫建設提供一定量免費的原始數(shù)據(jù)資源,但面向全體社會公眾的無門檻開放必然會限制語料庫吸納更加優(yōu)質的公共數(shù)據(jù)資源。未來,通用大模型市場或將呈現(xiàn)寡頭競爭格局,面向垂直領域的行業(yè)大模型將成為大模型產業(yè)競爭的主要領域。[50]與“無數(shù)不用”的通用大模型訓練不同,行業(yè)大模型訓練需要更加高質量、專業(yè)化的公共數(shù)據(jù)供給。這些數(shù)據(jù)的數(shù)據(jù)量和敏感性不同于完全開放的公共數(shù)據(jù),對數(shù)據(jù)利用主體自身的數(shù)據(jù)安全管理水平、技術能力有著較高的要求。[51]公共數(shù)據(jù)有限開放機制以主體的準入資格審核為前提,通過與行政機關簽署行政協(xié)議的方式獲取特定領域的公共數(shù)據(jù)資源。一方面,能夠滿足垂直領域的大模型企業(yè)對領域數(shù)據(jù)的特殊需求;另一方面,能夠防范優(yōu)質公共數(shù)據(jù)的泄露、濫用、遭受攻擊等安全風險。
第三,構建面向市場的公共數(shù)據(jù)授權運營機制。區(qū)別于前兩種直接的公共數(shù)據(jù)開放機制,公共數(shù)據(jù)授權運營是一種間接開放機制,由行政機關授權特定運營主體對公共數(shù)據(jù)進行加工,從而形成數(shù)據(jù)產品與服務提供給市場和社會。[52]公共數(shù)據(jù)授權運營有利于激發(fā)市場運營主體活力,釋放公共數(shù)據(jù)的經(jīng)濟價值,提升公共數(shù)據(jù)資源配置效率,實現(xiàn)數(shù)據(jù)要素市場的供需匹配。目前,公共數(shù)據(jù)授權運營實踐尚處于探索階段,主要存在行業(yè)主導、區(qū)域一體化以及場景牽引三種公共數(shù)據(jù)授權運營模式。[53]從促進人工智能大模型創(chuàng)新研發(fā)的角度來看,基于特定應用場景授權不同運營主體的場景牽引模式更有利于實現(xiàn)領域數(shù)據(jù)供需方之間的精準匹配,進一步推動金融、醫(yī)療、教育、自動駕駛等領域的垂類大模型訓練數(shù)據(jù)語料庫建設。
協(xié)同促進跨領域數(shù)據(jù)流通交易規(guī)則建立供給激勵。面向人工智能創(chuàng)新應用的新時代,我國數(shù)據(jù)交易市場也應轉型突破,適應人工智能產業(yè)獲取訓練數(shù)據(jù)的現(xiàn)實需求。就交易平臺而言,可針對人工智能訓練市場,將現(xiàn)有的通用數(shù)據(jù)交易所轉型為“AI數(shù)據(jù)交易合同”模式,為企業(yè)訓練人工智能提供定制化的訓練數(shù)據(jù)。就交易標準而言,相關市場主體和監(jiān)管部門可共同規(guī)范訓練語料的標注標準,便于語料數(shù)據(jù)的交易流通。就合同內容而言,人工智能訓練方需要遵循誠實信用原則,明確告知數(shù)據(jù)提供方相關數(shù)據(jù)的用途并獲得授權,避免因超出授權范圍使用數(shù)據(jù)而面臨違約風險。
“數(shù)據(jù)二十條”明確提出,“完善和規(guī)范數(shù)據(jù)流通規(guī)則,構建促進使用和流通、場內場外相結合的交易制度體系,規(guī)范引導場外交易,培育壯大場內交易”。現(xiàn)階段,數(shù)據(jù)交易市場“內冷外熱”,引導場外數(shù)據(jù)交易進場交易,需建立健全場內數(shù)據(jù)交易規(guī)則,為跨領域數(shù)據(jù)流通交易掃清制度障礙。
一是數(shù)據(jù)確權規(guī)則。首先,探索建立數(shù)據(jù)資產登記確權制度。數(shù)據(jù)資產登記能夠推動跨領域的數(shù)據(jù)資源向數(shù)據(jù)資產的轉化,發(fā)揮數(shù)據(jù)資產登記的證明功能,消除跨領域企業(yè)入場門檻。其次,規(guī)范數(shù)據(jù)資產價值評估體系。數(shù)據(jù)資產價值受數(shù)據(jù)質量、時效、類型等多種因素影響,價值不確定性增加了評估難度,應細化評估指標,綜合運用風險評估法、成本效益分析法等多種價值評估方法,構建專業(yè)化、領域化的價值評估模型,確??珙I域數(shù)據(jù)資產價值評估的客觀性。最后,完善數(shù)據(jù)資產入表制度。2023年8月,財政部印發(fā)《企業(yè)數(shù)據(jù)資源相關會計處理暫行規(guī)定》,明確數(shù)據(jù)資產可以列入企業(yè)財務報表之中。目前,數(shù)據(jù)資產入表還處于探索實踐初期,可通過制定出臺數(shù)據(jù)資產入表的相關規(guī)則指引、指南,進一步引導企業(yè)完成數(shù)據(jù)資產入表工作。
二是數(shù)據(jù)定價規(guī)則。解決數(shù)據(jù)交易糾紛的關鍵在于確定合理的數(shù)據(jù)定價規(guī)則,但數(shù)據(jù)定價目前尚未形成統(tǒng)一的規(guī)則和標準。鑒于應用場景對數(shù)據(jù)市場價值的重大影響,可以考慮設置不同行業(yè)、不同場景的數(shù)據(jù)定價機制,盡可能降低由于交易雙方信息不對稱導致的價格歧視風險。[54]數(shù)據(jù)交易的具體價格可以結合數(shù)據(jù)資產價值評估結果進行確定,此外,例如《深圳市數(shù)據(jù)交易管理暫行辦法》第十九條第三款提出的數(shù)據(jù)質量、數(shù)據(jù)樣本一致性、數(shù)據(jù)計算貢獻、數(shù)據(jù)業(yè)務應用四個維度可以作為數(shù)據(jù)定價的考量因素。計價方式上,結合數(shù)據(jù)交易所實踐來看,可采取按次計費、按時長計費、固定價格或者面議價格等多種計價方式。
三是收益分配規(guī)則。“數(shù)據(jù)二十條”中提出,數(shù)據(jù)要素由市場評價貢獻、按貢獻決定報酬,并按照“誰投入、誰貢獻、誰受益”的原則,著重保護數(shù)據(jù)要素各參與方的投入產出收益。數(shù)據(jù)流通交易過程中主要涉及數(shù)據(jù)提供者、數(shù)據(jù)使用者、數(shù)據(jù)交易平臺三方主體,目前數(shù)據(jù)要素市場中的收益分配通常是數(shù)據(jù)交易平臺與數(shù)據(jù)交易雙方協(xié)商的結果,忽視了原始數(shù)據(jù)生產者對數(shù)據(jù)要素生產的貢獻。原始數(shù)據(jù)為數(shù)據(jù)要素的形成提供了原始材料,是數(shù)據(jù)要素形成的基礎,應當將原始數(shù)據(jù)生產者作為收益分配主體之一,通過智能合約等方案提升原始數(shù)據(jù)生產者參與數(shù)據(jù)要素分配的可行性。[55]
四是供給激勵規(guī)則。加強數(shù)據(jù)要素供給激勵是“數(shù)據(jù)二十條”提出的明確要求,數(shù)據(jù)確權是激勵數(shù)據(jù)流通交易的有效法律手段,除此之外,還應探索經(jīng)濟、技術、管理等多樣化的數(shù)據(jù)要素供給激勵舉措。目前,已經(jīng)有多家數(shù)據(jù)交易平臺開始針對不同的數(shù)據(jù)要素市場主體推出激勵方案。例如,深圳數(shù)據(jù)交易所針對企業(yè)建立的數(shù)據(jù)交易誠信合規(guī)激勵機制、湖南大數(shù)據(jù)交易所針對數(shù)據(jù)交易雙方和數(shù)據(jù)經(jīng)濟商等主體推出的百萬交易激勵計劃、鄭州數(shù)據(jù)交易中心針對數(shù)據(jù)經(jīng)紀人推出的千萬激勵計劃等。就跨領域數(shù)據(jù)交易流通而言,應結合不同領域的市場需求,探索有針對性的供給激勵規(guī)則。
(本文系國家社會科學基金重點項目“生成式人工智能的法律定位與分層治理研究”的階段性研究成果,項目編號:23AFX009,課題組成員對本文亦有貢獻)
注釋
[1][2][3]J. Wei, Y. Tay and R. Bommasani et al., "Emergent Abilities of Large Language Models," Transactions on Machine Learning Research, 2022, 8.
[4]姚佳:《人工智能的訓練數(shù)據(jù)制度——以“智能涌現(xiàn)”為觀察視角》,《貴州社會科學》,2024年第2期。
[5]J. Brown, "Comparing GPT–3 vs GPT–4: An AI Expert's In–Depth Guide," https://www.33rdsquare.com/comparing-gpt-3-vs-gpt-4-an-ai-experts-in-depth-guide/.
[6][10][19][22]阿里云智能集團、數(shù)字中國研究院(福建):《大模型訓練數(shù)據(jù)白皮書》,阿里研究院,2024年5月24日。
[7]《大模型潮即將耗盡全宇宙文本,高質量數(shù)據(jù)從哪里來?》,2023年7月17日,https://www.thepaper.cn/newsDetail_forward_23865563。
[8]羅云鵬:《大模型發(fā)展亟需高質量“教材”相伴》,《科技日報》,2024年1月15日,第6版。
[9]HIMSS, "Implementing AI and ML From the Ground Up Case Study," https://www.himss.org/resources/implementing-ai-and-ml-ground-case-study.
[11]S. Yin et al., "A Survey on Multimodal Large Language Models," IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 4.
[12]OpenAI, "CLIP: Connecting Text and Images," https://openai.com/index/clip/.
[13]楊維鎧等:《基于可視分析的訓練數(shù)據(jù)質量提升綜述》,《計算機輔助設計與圖形學學報》,2023年第11期。
[14]T. Sun, A. Gaut, S. Tang et al., "Mitigating Gender Bias in Natural Language Processing," Annual Meeting of the Association for Computational Linguistics, 2019.
[15]綠盟科技:《安全行業(yè)大模型SecLLM技術白皮書》,2023年9月1日。
[16]D. Huynh, J. Hardouin, "PoisonGPT: How We Hid a Lobotomized LLM on Hugging Face to Spread Fake News," https://colab.research.google.com/drive/16RPph6SobDLhisNzA5azcP-0uMGGq10R?usp=sharing&ref=blog.mithrilsecurity.io.
[17]L. Huang, W. Yu, W. Ma et al., "A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions," arXiv:2311.05232, 2023.
[18]微軟亞洲研究院:《價值觀羅盤:如何讓大模型與人類價值觀對齊?》,2024年4月11日。
[20]W3Techs實時統(tǒng)計信息:https://w3techs.com/technologies/overview/content_language,2024年6月18日。
[21]IDC, Global DataSphere 2023, IDC Published, 18 May 2023.
[23]胡凌:《論地方立法中公共數(shù)據(jù)開放的性質》,《地方立法研究》,2019年第03期第4輯。
[24]Verge, "ByteDance is Secretly Using OpenAI's Tech to Build a Competitor," Verge Tech, 16 December 2023.
[25]K. Lee, A. F. Cooper, J. Grimmelman etc., "AI and Law: the Next Generation–An Explainer Series," GenLaw, 6 July 2023.
[26]R. Morrison, "The Majority of AI Training Data Will Be Synthetic by Next Year, Says Gartner," https://techmonitor.ai/technology/ai-and-automation/ai-synthetic-data-edge-computing-gartner, 2 August 2023.
[27]支振鋒:《生成式人工智能大模型的信息內容治理》,《政法論壇》,2023年第4期。
[28]參見北京人工智能高質量數(shù)據(jù)集服務平臺,http://dataset.baiia.org.cn/,最后訪問于2024年6月18日。
[29]復旦大學數(shù)字與移動治理實驗室:《中國地方公共數(shù)據(jù)開放利用報告——省域(2023年度)》,http://ifopendata.fudan.edu.cn/report。
[30]劉金瑞:《生成式人工智能大模型的新型風險與規(guī)制框架》,《行政法學研究》,2024年第2期。
[31]中國互聯(lián)網(wǎng)信息中心:《第53次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》,2024年3月29日。
[32]楊華權、曲三強:《論爬蟲協(xié)議的法律性質》,《法律適用》,2013年第4期。
[33]億歐智庫:《2023中國信息與數(shù)據(jù)孤島分析報告》,2023年11月21日。
[34]最高人民法院:《知識產權侵權司法大數(shù)據(jù)專題報告》,2024年6月18日,https://www.court.gov.cn/upload/file/2019/11/22/11/20/20191122112018_45474.pdf。
[35]全球唱片協(xié)會:《2018全球音樂報告》,2024年6月18日,https://www.ifpi.org/ifpi-global-music-report-2018/。
[36][43]張平:《人工智能生成內容著作權合法性的制度難題及其解決路徑》,《法律科學(西北政法大學學報)》,2024年第3期。
[37]K. Armstrong, "Tesla Surpasses 150 Million Miles Driven with FSD Beta," https://www.notateslaapp.com/news/1360/tesla-surpasses-150-million-miles-driven-with-fsd-beta.
[38]參見浙江省湖州市中級人民法院(2021)浙05刑終87號判決書。
[39]參見國家互聯(lián)網(wǎng)信息辦公室:《網(wǎng)絡數(shù)據(jù)安全管理條例(征求意見稿)》第四章,https://www.cac.gov.cn/2021-11/14/c_1638501991577898.htm。
[40]許中緣、鄭煌杰:《數(shù)據(jù)要素賦能新質生產力:內在機理、現(xiàn)實障礙與法治進路》,《上海經(jīng)濟研究》,2024年第5期。
[41]張軍強:《人工智能大模型數(shù)據(jù)爬取行為的正當性認定》,《中國知識產權》,2024年。
[42]周樨平:《數(shù)據(jù)爬取的不正當競爭認定規(guī)則研究》,《南大法學》,2023年第2期。
[44]徐小奔、楊依楠:《論人工智能深度學習中著作權的合理使用》,《交大法學》,2019年第3期。
[45]劉曉春:《生成式人工智能數(shù)據(jù)訓練中的“非作品性使用”及其合法性證成》,《法學論壇》,2024年第3期。
[46]丁曉東:《論人工智能促進型的數(shù)據(jù)制度》,《中國法律評論》,2023年第6期。
[47]OpenAI, "New Models and Developer Products Announced at DevDay," https://openai.com/index/new-models-and-developer-products-announced-at-devday/.
[48]《促進大數(shù)據(jù)發(fā)展行動綱要》中提出,“率先在信用、交通、醫(yī)療、衛(wèi)生、就業(yè)、社保、地理、文化、教育、科技、資源、農業(yè)、環(huán)境、安監(jiān)、金融、質量、統(tǒng)計、氣象、海洋、企業(yè)登記監(jiān)管等重要領域實現(xiàn)公共數(shù)據(jù)資源合理適度向社會開放”。
[49]宋爍:《構建以授權運營為主渠道的公共數(shù)據(jù)開放利用機制》,《法律科學(西北政法大學學報)》,2023年第1期。
[50]黃哲:《大模型價格戰(zhàn)背后的邏輯與真相》,《中國計算機報》,2024年6月10日,第10版。
[51]常江:《公共數(shù)據(jù)開放立法原則反思和開放路徑構建》,《華東理工大學學報(社會科學版)》,2022年第5期。
[52]馬顏昕:《公共數(shù)據(jù)授權運營的類型構建與制度展開》,《中外法學》,2023年第2期。
[53]行業(yè)主導模式,即由特定行業(yè)主管部門授權運營主體承擔本領域公共數(shù)據(jù)運營;區(qū)域一體化模式,即由地區(qū)數(shù)據(jù)管理機構整體授權運營主體開展區(qū)域內各類公共數(shù)據(jù)的市場運營;場景牽引模式,即圍繞特定場景的應用需求,在公共數(shù)據(jù)資源統(tǒng)籌管理基礎上,基于特定應用場景將數(shù)據(jù)分類授權給不同的運營主體。參見孫清白:《公共數(shù)據(jù)授權運營營利性與公益性的沖突及其制度協(xié)調》,《行政法學研究》,2024第3期。
[54]趙精武、周瑞玨:《數(shù)據(jù)要素市場如何進行數(shù)據(jù)定價》,《學習時報》,2023年2月17日,第A3版。
[55]王延川、呂君枝:《原始數(shù)據(jù)提供者參與數(shù)據(jù)要素收益分配的理論邏輯與實踐路徑——以共同富裕為視角的考察》,《陜西師范大學學報(哲學社會科學版)》,2023年第3期。
責 編∕韓 拓 美 編∕周群英
Accelerate the Construction of Chinese Training Data Corpus of AI Large Models
Zhang Linghan
Abstract: The three elements of the development of AI large model industry are algorithm, computing power and data, among which the quality of training data corpus directly determines the ability of AI large models. The total amount of Chinese data corpus is seriously insufficient compared with English data corpus, and there are obstacles such as high risk of illegal data collection, insufficient open utilization of public data, uncoordinated copyright system of offline structured data, and no determined data ownership of commercial procurement and cooperation data, which have become institutional bottlenecks restricting the development of artificial intelligence. The development of China's AI large model industry can clarify the conditions for the identification of the legitimacy of network data sources through judicial precedents, coordinate copyright rules to determine the institutional boundaries of the rationality of offline data use, build an open mechanism to meet the needs of public data participation in corpus construction, coordinately promote the establishment of supply incentives for cross-domain data circulation and transaction rules, and break institutional barriers to meet the needs of industrial development.
Keywords: artificial intelligence large model, training data, corpus construction, copyright system, public data