一、引言:智能何以“涌現(xiàn)”
人工智能尤其是生成式人工智能的出現(xiàn),標(biāo)志著人工智能進(jìn)入一個(gè)變革時(shí)代,其在文本、圖像、音頻和合成數(shù)據(jù)的創(chuàng)建方面展現(xiàn)出前所未有的進(jìn)步。通過數(shù)據(jù)、算法和算力之三大人工智能要素的疊加協(xié)同,在訓(xùn)練參數(shù)和數(shù)據(jù)量達(dá)到一定閾值(threshold)之時(shí),甚至可能會(huì)出現(xiàn)不可預(yù)測(cè)的涌現(xiàn)能力。這種“智能涌現(xiàn)”現(xiàn)象,十分值得關(guān)注。
“涌現(xiàn)現(xiàn)象”與“涌現(xiàn)論”在不同學(xué)科如哲學(xué)、生物學(xué)、物理學(xué)、系統(tǒng)科學(xué)、復(fù)雜科學(xué)、經(jīng)濟(jì)學(xué)等領(lǐng)域都受到關(guān)注和系統(tǒng)研究。就“涌現(xiàn)論”(Emergentism)的研究而言,“劉易斯(George Henry Lewes)于1875年提出了‘涌現(xiàn)’一詞。他區(qū)分了涌現(xiàn)和結(jié)果。這種區(qū)分是從密爾(John Stuart Mill)那里學(xué)到的。密爾在其1843年的《邏輯體系》(System of Logic)一書中區(qū)分了‘原因的兩種聯(lián)合作用模式,即機(jī)械和化學(xué)’。根據(jù)密爾的觀點(diǎn),當(dāng)兩個(gè)或兩個(gè)以上的原因以機(jī)械方式結(jié)合在一起產(chǎn)生某種結(jié)果時(shí),這種結(jié)果就是每個(gè)原因單獨(dú)作用時(shí)的結(jié)果的總和!贝撕箨P(guān)于涌現(xiàn)的研究,經(jīng)歷了從英國涌現(xiàn)主義學(xué)派的經(jīng)典涌現(xiàn)論到以復(fù)雜性科學(xué)為標(biāo)志的復(fù)雜系統(tǒng)涌現(xiàn)研究的發(fā)展。涌現(xiàn)研究重點(diǎn)關(guān)注的是由小的部分結(jié)合成的大系統(tǒng)(復(fù)雜系統(tǒng))形成的整體現(xiàn)象,“總體大于部分之和”是其通俗的表述。
涌現(xiàn)與復(fù)雜系統(tǒng)緊密相關(guān)。“遺傳算法之父”霍蘭德(John H. Holland)認(rèn)為,像涌現(xiàn)這么復(fù)雜的主題,不太可能用一個(gè)簡(jiǎn)潔的定義來完整地解釋,當(dāng)然也就無法給出這樣一個(gè)定義。但是霍蘭德也在反復(fù)證明,少數(shù)規(guī)則和規(guī)律就能產(chǎn)生極其錯(cuò)綜復(fù)雜的系統(tǒng)。比如棋類游戲中多種多樣的棋局,或者遵循萬有引力定律的棒球、行星和星系的運(yùn)行軌跡,都說明了這一點(diǎn):少數(shù)規(guī)則或定律能夠產(chǎn)生復(fù)雜的系統(tǒng),而且以不斷變化的形式引起恒新性(perpetual novelty)和新的涌現(xiàn)現(xiàn)象。實(shí)際上,在大多數(shù)情況下,我們只有理解了與系統(tǒng)相伴的涌現(xiàn)現(xiàn)象,才能真正理解這些復(fù)雜系統(tǒng)。涌現(xiàn)研究中的關(guān)鍵術(shù)語主要包括:機(jī)制(積木塊、生成器、主體)和恒新性(大量不斷生成的結(jié)構(gòu))、動(dòng)態(tài)性和規(guī)律性(在生成的結(jié)構(gòu)中,持續(xù)并重復(fù)出現(xiàn)的結(jié)構(gòu)或模式)、分層組織(由生成器構(gòu)成的構(gòu)件成為更高層次組織的生成器)。但凡可能存在復(fù)雜系統(tǒng),涌現(xiàn)現(xiàn)象就可能發(fā)生,而涌現(xiàn)的意義恰在于其出現(xiàn)了一種超乎人們想象的現(xiàn)象或結(jié)果,推進(jìn)了人類的認(rèn)知水平。
人工智能作為一個(gè)復(fù)雜系統(tǒng),已體現(xiàn)出“涌現(xiàn)能力”。盡管人工智能何以出現(xiàn)涌現(xiàn)現(xiàn)象,以及“涌現(xiàn)”是否屬于大模型智能出現(xiàn)的標(biāo)志,仍未有定論,但是人們至少就大量數(shù)據(jù)訓(xùn)練、復(fù)雜算法以及超強(qiáng)算力的綜合應(yīng)用能夠出現(xiàn)“智能涌現(xiàn)”現(xiàn)象,并成為一個(gè)值得研究的命題,則具有一定共識(shí)。本文擬擷取其中的數(shù)據(jù)維度,探討如何構(gòu)建人工智能的訓(xùn)練數(shù)據(jù)制度,以進(jìn)一步回應(yīng)并更好解釋“智能涌現(xiàn)”何以增強(qiáng)人們的認(rèn)知能力和洞察力。當(dāng)然,在問題分野上,人工智能的數(shù)據(jù)制度究竟應(yīng)偏向于人工智能制度還是更相對(duì)聚焦于數(shù)據(jù)制度,實(shí)際上較難明確區(qū)分。就訓(xùn)練數(shù)據(jù)本身而言,在規(guī)則和制度層面基本上偏向于數(shù)據(jù)制度,但是就如何更科學(xué)地建構(gòu)訓(xùn)練數(shù)據(jù)制度以及這一制度如何與人工智能的功能與價(jià)值等方面相互影響與匹配,則必然要切入人工智能的技術(shù)特性和宗旨目標(biāo)。故此,二者無法作制度層面的區(qū)分。作為人工智能三大要素之一的數(shù)據(jù)制度,“無數(shù)據(jù),不智能”,訓(xùn)練數(shù)據(jù)制度之建構(gòu)居于重要地位,如何從各向度研究訓(xùn)練數(shù)據(jù)制度,是當(dāng)下的重要且緊迫的任務(wù)之一!
二、訓(xùn)練的數(shù)據(jù):合法采集規(guī)則
大型自然語言模型的訓(xùn)練需要高量級(jí)的數(shù)據(jù)“喂養(yǎng)”。在可能出現(xiàn)“智能涌現(xiàn)”的大背景之下,如何盡可能在保障數(shù)據(jù)安全的基礎(chǔ)上將更多數(shù)據(jù)加以采集和利用,正是在“輸入端”的訓(xùn)練數(shù)據(jù)制度中應(yīng)當(dāng)考慮的問題。以ChatGPT為例,人們總結(jié)其具有一系列特性,比如強(qiáng)交互性,能進(jìn)行多輪對(duì)話,可以對(duì)過往聊天內(nèi)容進(jìn)行再學(xué)習(xí),不斷改進(jìn)輸出文本的質(zhì)量;同時(shí)具有強(qiáng)理解能力,即能夠分析用戶模糊語言,理解用戶意圖,辨別對(duì)話中不正確的提問;還具有強(qiáng)生成能力,可以按照要求,生成用于不同場(chǎng)景、不同形式的文字,包括論文、郵件、圖文和代碼等。從某種意義上講,這種大力出奇跡的“暴力美學(xué)”,必然建立在大量數(shù)據(jù)輸入的基礎(chǔ)之上。當(dāng)然,人們對(duì)于人工智能具有如此強(qiáng)大的分析能力也保持警惕,有論者認(rèn)為,生成式人工智能亟需規(guī)制的安全風(fēng)險(xiǎn)分別是準(zhǔn)備階段的數(shù)據(jù)安全風(fēng)險(xiǎn)、運(yùn)算階段的算法偏見風(fēng)險(xiǎn)與生成階段的知識(shí)產(chǎn)權(quán)風(fēng)險(xiǎn)。在此意義上,就訓(xùn)練數(shù)據(jù)而言,盡管可能存在一定數(shù)據(jù)安全風(fēng)險(xiǎn),但是在符合現(xiàn)行數(shù)據(jù)法律制度的基礎(chǔ)之上,是否應(yīng)在輸入端盡可能考慮構(gòu)建一種以提升人工智能決策質(zhì)效多重目標(biāo)的訓(xùn)練數(shù)據(jù)制度,尚值探討。
(一)數(shù)據(jù)采集的來源
數(shù)據(jù)的量級(jí)對(duì)于大模型訓(xùn)練而言是一個(gè)十分重要的維度。對(duì)于“深度學(xué)習(xí)模型來講,訓(xùn)練數(shù)據(jù)的不斷增加能夠帶來性能的提升”。大模型采集數(shù)據(jù)的來源較為廣泛,通常根據(jù)具體需求和場(chǎng)景選擇合適的數(shù)據(jù)源。根據(jù)需求、質(zhì)量與可獲得性等主要影響因素,人工智能等大模型的數(shù)據(jù)來源大致分為以下幾個(gè)方面:
第一,企業(yè)自身所有、控制的數(shù)據(jù)。任何企業(yè)均有依據(jù)自身業(yè)務(wù)歷史積累的數(shù)據(jù),即根據(jù)業(yè)務(wù)特性和場(chǎng)景積累的自身可以利用的一系列數(shù)據(jù)。
第二,公開渠道爬取的數(shù)據(jù)。由政府組織、科研學(xué)術(shù)機(jī)構(gòu)或企業(yè)公開發(fā)布,涵蓋各種類型的數(shù)據(jù),如圖像、文本、音頻、視頻等。例如,ImageNet是一個(gè)廣泛用于圖像識(shí)別任務(wù)的大規(guī)模圖像數(shù)據(jù)集;Common Crawl則提供了大量的網(wǎng)頁抓取數(shù)據(jù)以供自然語言處理模型訓(xùn)練。另外,還有一些開源數(shù)據(jù)集如WikiQA、EXEQ-300K、Arxiv等。
第三,數(shù)據(jù)資源共享。有一些機(jī)構(gòu)、學(xué)者等擁有較為獨(dú)特的數(shù)據(jù)資源,并愿意以各種形式合作共享這些數(shù)據(jù)資源,支持不同領(lǐng)域的研究和應(yīng)用,尤其是針對(duì)能夠共同提高人類福祉的一些領(lǐng)域。例如,在醫(yī)療領(lǐng)域,醫(yī)療機(jī)構(gòu)通常會(huì)收集大量的醫(yī)療影像數(shù)據(jù),這些數(shù)據(jù)可以用于訓(xùn)練圖像分析或者特定疾病檢測(cè)等任務(wù)。
第四,互聯(lián)網(wǎng)上的公開資源;ヂ(lián)網(wǎng)本身就承載大量信息和數(shù)據(jù),如UGC平臺(tái)、社交媒體、論壇、新聞網(wǎng)站等,以及用戶發(fā)表的內(nèi)容、回復(fù)、評(píng)論等等內(nèi)容,都可以成為大模型訓(xùn)練的數(shù)據(jù)源。
另外,在有的情形下,用戶使用生成式人工智能服務(wù)之時(shí),用戶輸入的內(nèi)容和服務(wù)提供者輸出的內(nèi)容也是訓(xùn)練數(shù)據(jù)的來源。在OpenAI官網(wǎng)的《使用協(xié)議》(Terms of Use)中約定,關(guān)于“您的內(nèi)容。您可以向‘服務(wù)’提供‘輸入’,并根據(jù)輸入從‘服務(wù)’接收‘輸出’。輸入和輸出統(tǒng)稱為‘內(nèi)容’。您對(duì)內(nèi)容負(fù)責(zé),包括確保其不違反任何適用法律或本條款。您聲明并保證您擁有向我們的‘服務(wù)’提供輸入所需的所有權(quán)利、許可證和權(quán)限”。同時(shí)用戶享有“選擇退出”的權(quán)利,該協(xié)議條款中約定,“如果您不希望我們使用您的內(nèi)容來訓(xùn)練我們的模型,您可以按照本幫助中心中的說明選擇退出。請(qǐng)注意,在某些情況下,這可能會(huì)限制我們的‘服務(wù)’更好地解決您的特定的使用案例的能力”。從選擇退出的條款中可知,服務(wù)提供者會(huì)利用用戶的對(duì)話內(nèi)容訓(xùn)練模型。但是在有一些生成式人工智能服務(wù)提供者的用戶協(xié)議中,對(duì)此卻并未明確約定,其是否利用用戶的對(duì)話內(nèi)容來訓(xùn)練模型,尚未可知。
(二)數(shù)據(jù)采集行為的合法性
訓(xùn)練數(shù)據(jù)的來源多重,針對(duì)數(shù)據(jù)來源本身應(yīng)具有合法性,相應(yīng)采集行為應(yīng)具有合法性。國家網(wǎng)信辦等七部委于2023年7月頒布的《生成式人工智能服務(wù)管理暫行辦法》第7條規(guī)定了生成式人工智能服務(wù)提供者的訓(xùn)練數(shù)據(jù)處理活動(dòng)要求,即:“生成式人工智能服務(wù)提供者(以下稱提供者)應(yīng)當(dāng)依法開展預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等訓(xùn)練數(shù)據(jù)處理活動(dòng),遵守以下規(guī)定:(一)使用具有合法來源的數(shù)據(jù)和基礎(chǔ)模型;(二)涉及知識(shí)產(chǎn)權(quán)的,不得侵害他人依法享有的知識(shí)產(chǎn)權(quán);(三)涉及個(gè)人信息的,應(yīng)當(dāng)取得個(gè)人同意或者符合法律、行政法規(guī)規(guī)定的其他情形;(四)采取有效措施提高訓(xùn)練數(shù)據(jù)質(zhì)量,增強(qiáng)訓(xùn)練數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、客觀性、多樣性;(五)《中華人民共和國網(wǎng)絡(luò)安全法》、《中華人民共和國數(shù)據(jù)安全法》、《中華人民共和國個(gè)人信息保護(hù)法》等法律、行政法規(guī)的其他有關(guān)規(guī)定和有關(guān)主管部門的相關(guān)監(jiān)管要求。”基于該條規(guī)定,訓(xùn)練數(shù)據(jù)在來源上應(yīng)具有合法性。涉及知識(shí)產(chǎn)權(quán)的,應(yīng)在知識(shí)產(chǎn)權(quán)的法律制度框架內(nèi)遵守相關(guān)規(guī)定;涉及個(gè)人信息的,應(yīng)遵守個(gè)人信息保護(hù)相關(guān)規(guī)定。對(duì)于版權(quán)和個(gè)人信息保護(hù)而言,若違反合法性要求,則可能會(huì)承擔(dān)相應(yīng)侵權(quán)責(zé)任。針對(duì)其中第(四)項(xiàng)提高數(shù)據(jù)質(zhì)量而言,是否引致侵權(quán)責(zé)任則存在一定爭(zhēng)論。針對(duì)這幾個(gè)問題,如下分述之:
其一,未經(jīng)許可使用相關(guān)作品版權(quán)作為訓(xùn)練數(shù)據(jù)頗具爭(zhēng)議。美國近年來幾起訴訟,無論是針對(duì)OpenAI、GitHub的集體訴訟,針對(duì)Stability AI,美國萬名作家簽署作家協(xié)會(huì)信函呼吁人工智能行業(yè)保護(hù)作者權(quán)益,還是《紐約時(shí)報(bào)》訴OpenAI,這些訴訟和事件均指向利用未經(jīng)授權(quán)使用作品訓(xùn)練人工智能產(chǎn)品或者在開源社區(qū)中可能侵害他人版權(quán)等問題。就訓(xùn)練數(shù)據(jù)中能否使用公開的但未經(jīng)授權(quán)的作品,討論頗多。美國《著作權(quán)法》第107條采取了“四要素分析法”,通過衡量使用目的和性質(zhì);被從事使用、具有著作權(quán)的作品性質(zhì);相對(duì)于被使用的作品整體,所使用的數(shù)量和程度以及其使用對(duì)受到著作權(quán)保護(hù)的作品的潛在市場(chǎng)或價(jià)值產(chǎn)生的影響等內(nèi)容進(jìn)行綜合判斷。贊成者認(rèn)為以含有著作權(quán)的作品作為訓(xùn)練數(shù)據(jù)應(yīng)構(gòu)成合理使用,而且只要其不是將特定作品的全部或相當(dāng)部分原封不動(dòng)地重新呈現(xiàn),同樣構(gòu)成合理使用;反對(duì)者則認(rèn)為,這種“自我學(xué)習(xí)”并非合理使用,其仍然是對(duì)原作品進(jìn)行“續(xù)寫”或“改編”,而非真正的轉(zhuǎn)化性使用,而且若令人工智能從事“仿真”之作,則會(huì)對(duì)消費(fèi)者造成困擾,也與原作者構(gòu)成直接競(jìng)爭(zhēng)。亦有論者從機(jī)器學(xué)習(xí)的類型化角度出發(fā),認(rèn)為機(jī)器學(xué)習(xí)可分為非表達(dá)型、大眾表達(dá)型和個(gè)人表達(dá)型三種。非表達(dá)型機(jī)器學(xué)習(xí),系指沒有表達(dá)性內(nèi)容輸出的機(jī)器學(xué)習(xí),即從作品中提取的有價(jià)值信息是非表達(dá)性的事實(shí)或思想,如從作品中提取出的人臉要素、場(chǎng)景要素等等,其對(duì)作品的使用屬于非作品性使用。而其他兩種機(jī)器學(xué)習(xí),則要么符合受限制的合理使用規(guī)則,要么構(gòu)成侵權(quán)。盡管上述分析視角和理論框架有所不同,但是在目前世界范圍之內(nèi)的學(xué)術(shù)討論中,底層邏輯依然是——在訓(xùn)練數(shù)據(jù)使用中,應(yīng)尊重在先的著作權(quán),不得侵害他人依法享有的著作權(quán),除非其符合其他例外規(guī)則,由于這一問題關(guān)涉用戶是否享有人工智能生成物的著作權(quán)等問題,因此也并非僅靠前端的訓(xùn)練數(shù)據(jù)就能解決,仍有待人工智能發(fā)展全貌下的綜合研判。
其二,個(gè)人信息作為訓(xùn)練數(shù)據(jù),應(yīng)符合現(xiàn)行法對(duì)于個(gè)人信息保護(hù)的相關(guān)規(guī)定。在“告知—同意”規(guī)則的框架中,同意的性質(zhì)已毋庸諱言,其僅為個(gè)人信息處理活動(dòng)的合法性基礎(chǔ),即合法根據(jù)或正當(dāng)理由之一,而非個(gè)人授權(quán)他人使用自己的個(gè)人信息。大模型服務(wù)提供者也通常在隱私政策中就個(gè)人信息保護(hù)進(jìn)行規(guī)定。對(duì)于已公開個(gè)人信息的使用,也應(yīng)本著“采取對(duì)個(gè)人權(quán)益影響最小的方式”使用。總體上,作為訓(xùn)練數(shù)據(jù)的個(gè)人信息,仍應(yīng)在個(gè)人信息保護(hù)的基本框架下有限度使用。
其三,對(duì)于數(shù)據(jù)質(zhì)量保障義務(wù)的違反,并不必然承擔(dān)侵權(quán)責(zé)任。有論者認(rèn)為,即便要求生成式人工智能服務(wù)提供者對(duì)生成式人工智能的預(yù)訓(xùn)練數(shù)據(jù)、優(yōu)化訓(xùn)練數(shù)據(jù)來源的合法性負(fù)責(zé),保證數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、客觀性、多樣性,如此對(duì)于防范虛假信息能夠起到很好的作用。但是目前現(xiàn)有現(xiàn)有技術(shù)尚難以達(dá)到這一目的。故此,將防范虛假信息作為一種倡導(dǎo)性的行為是有意義的,但是作為一種嚴(yán)格的法定義務(wù),要求在人工智能服務(wù)提供者違反該義務(wù)時(shí)科以侵權(quán)責(zé)任,則未免過于嚴(yán)苛,而可能不利于鼓勵(lì)技術(shù)創(chuàng)新。本文贊成此觀點(diǎn),對(duì)于上述知識(shí)產(chǎn)權(quán)、個(gè)人信息保護(hù)相關(guān)義務(wù)的違反,服務(wù)提供者應(yīng)承擔(dān)相應(yīng)侵權(quán)責(zé)任,但是對(duì)于違反數(shù)據(jù)質(zhì)量保障義務(wù),顯然不能一概而論,本文容后再論。
(三)數(shù)據(jù)采集主體的法律義務(wù)
數(shù)據(jù)采集階段涉及不同采集主體的法律義務(wù)。通常而言,在數(shù)據(jù)采集階段涉及的主體包括人工智能開發(fā)者、云服務(wù)提供商、數(shù)據(jù)標(biāo)注提供商以及數(shù)據(jù)經(jīng)紀(jì)人或數(shù)據(jù)商。概括而言,這些主體均應(yīng)承擔(dān)隱私保護(hù)、個(gè)人信息保護(hù)以及知識(shí)產(chǎn)權(quán)保護(hù)等義務(wù),同時(shí)還應(yīng)承擔(dān)一系列公法上的數(shù)據(jù)治理義務(wù)。就開發(fā)者而言,應(yīng)承擔(dān)數(shù)據(jù)安全保障義務(wù)、數(shù)據(jù)質(zhì)量保障義務(wù)、數(shù)據(jù)公平治理義務(wù)、數(shù)據(jù)透明義務(wù)和數(shù)據(jù)委托監(jiān)督義務(wù)等。就云服務(wù)提供商而言,應(yīng)承擔(dān)數(shù)據(jù)安全保障義務(wù)。就數(shù)據(jù)標(biāo)注提供商(相對(duì)于開發(fā)者而獨(dú)立的主體)而言,應(yīng)承擔(dān)數(shù)據(jù)質(zhì)量保障義務(wù)。就數(shù)據(jù)經(jīng)紀(jì)人或數(shù)據(jù)商而言,應(yīng)承擔(dān)數(shù)據(jù)質(zhì)量保障義務(wù)等等。不難發(fā)現(xiàn),就訓(xùn)練數(shù)據(jù)而言,其質(zhì)量至關(guān)重要,因此各主體均應(yīng)承擔(dān)相應(yīng)的數(shù)據(jù)質(zhì)量保障義務(wù)。因?yàn)橛姓撜甙l(fā)現(xiàn),在后續(xù)的開放領(lǐng)域?qū)υ捪到y(tǒng)中,對(duì)話數(shù)據(jù)有的從社交網(wǎng)絡(luò)中收集,不可避免地存在大量錯(cuò)誤和噪音,高質(zhì)量的對(duì)話數(shù)據(jù)相對(duì)缺乏。故此,對(duì)于高質(zhì)量數(shù)據(jù)的需求,無論是就大模型自身服務(wù)的目標(biāo)還是“智能涌現(xiàn)”的目標(biāo),其均比較重要。當(dāng)然,此種數(shù)據(jù)質(zhì)量保障義務(wù)更多是一種數(shù)據(jù)治理義務(wù),與上文提及的是否承擔(dān)相應(yīng)侵權(quán)責(zé)任,并不是一個(gè)問題!
三、數(shù)據(jù)的訓(xùn)練:“價(jià)值—技術(shù)”雙重視角下的數(shù)據(jù)利用規(guī)則
數(shù)據(jù)的訓(xùn)練旨在實(shí)現(xiàn)人工智能最終可以更好為人類服務(wù)的目標(biāo)。但是顯然人們也意識(shí)到了人工智能可能帶來的一些問題。2023年11月,中國、美國等28個(gè)國家和歐盟共同簽署了《布萊奇利宣言》(Bletchley Declaration),大家對(duì)一些問題達(dá)成共識(shí),認(rèn)為人工智能帶來發(fā)展機(jī)會(huì)的同時(shí)也帶來一定風(fēng)險(xiǎn)。諸如,由于內(nèi)容操作或生成欺騙性內(nèi)容的能力,可能會(huì)出現(xiàn)未預(yù)見的風(fēng)險(xiǎn);由于可能的有意誤用或與人類意圖對(duì)齊的無意控制問題,可能會(huì)出現(xiàn)實(shí)質(zhì)性的風(fēng)險(xiǎn)。這些問題部分是因?yàn)檫@些能力還沒有被完全理解,因此很難預(yù)測(cè)。同時(shí),在諸如網(wǎng)絡(luò)安全和生物技術(shù)這樣的領(lǐng)域,以及前沿人工智能系統(tǒng)中,都可能產(chǎn)生被放大的風(fēng)險(xiǎn),如假信息。如何應(yīng)對(duì)這些問題,在數(shù)據(jù)訓(xùn)練這個(gè)階段尤為重要。技術(shù)和認(rèn)知視角的“智能涌現(xiàn)”顯然是需要更好的數(shù)據(jù)訓(xùn)練,以及好數(shù)據(jù)能被更好利用。
(一)數(shù)據(jù)利用與訓(xùn)練目標(biāo)
“涌現(xiàn)最初是一種具有耦合性的相互作用的產(chǎn)物。在技術(shù)上,這些相互作用以及這些作用產(chǎn)生的系統(tǒng)都是非線性的:整個(gè)系統(tǒng)的行為不能通過對(duì)系統(tǒng)的各個(gè)組成部分進(jìn)行簡(jiǎn)單求和得到!蹦芊癯霈F(xiàn)涌現(xiàn),人們無從預(yù)判。但是當(dāng)數(shù)據(jù)達(dá)到足夠體量,通過一定訓(xùn)練之后,能夠出現(xiàn)人們意想不到的認(rèn)知能力,這一點(diǎn)已具有共識(shí)。有論者亦認(rèn)為,解析生成式人工智能的“涌現(xiàn)”現(xiàn)象,應(yīng)在認(rèn)知、行為和知識(shí)的互構(gòu)之中理解知識(shí)生態(tài)系統(tǒng)下的涌現(xiàn)邏輯,以及知識(shí)生產(chǎn)將體現(xiàn)為“從暗知識(shí)到顯知識(shí)的涌現(xiàn)”的新模式。
數(shù)據(jù)訓(xùn)練的關(guān)鍵在于選擇合適的訓(xùn)練數(shù)據(jù)集、算法和模型。數(shù)據(jù)集應(yīng)具有代表性,能夠充分反映出待解決問題的特征和規(guī)律。數(shù)據(jù)集的時(shí)效性偏差可能會(huì)引發(fā)可信度危機(jī)。算法選擇之時(shí),則需要考慮問題的性質(zhì)和數(shù)據(jù)的特點(diǎn),以及算法本身的復(fù)雜度和效率。同時(shí)也需要考慮算力消耗之性價(jià)比的問題。只有既在宏觀上認(rèn)識(shí)到數(shù)據(jù)訓(xùn)練能增強(qiáng)人們的認(rèn)知能力,又在微觀技術(shù)實(shí)踐中能夠?qū)崿F(xiàn)預(yù)定目標(biāo),才能理解如何更好利用數(shù)據(jù),以及如何更好實(shí)現(xiàn)人工智能應(yīng)用之目標(biāo)。
(二)價(jià)值嵌入與技術(shù)支撐
數(shù)據(jù)訓(xùn)練之時(shí),既存在傳統(tǒng)問題也存在新問題。有論者從新聞傳播角度進(jìn)行實(shí)證研究后發(fā)現(xiàn),人工智能開發(fā)者群體在日常生活與一線工作過程中觸達(dá)的風(fēng)險(xiǎn)邊緣類型主要包括數(shù)據(jù)泄露/冒用作假、隱私販賣/僥幸心理、算法偏見/個(gè)人主觀、干擾社會(huì)事務(wù)及心理傷害,但個(gè)人道德、協(xié)議約束、法律與媒介監(jiān)督等因素警示人工智能開發(fā)者在使用訓(xùn)練數(shù)據(jù)時(shí)對(duì)于數(shù)據(jù)邊界問題應(yīng)保持清醒與冷靜。這些問題彼此交織,使得數(shù)據(jù)訓(xùn)練只有在價(jià)值與技術(shù)融合維度之下,才能實(shí)現(xiàn)數(shù)據(jù)訓(xùn)練的最終效果。
在個(gè)人信息利用之時(shí),生成式人工智能的場(chǎng)景和問題更為復(fù)雜。個(gè)人信息保護(hù)是個(gè)傳統(tǒng)問題,但是隨著科技的發(fā)展,其也在不同時(shí)期呈現(xiàn)出不同問題。在歐盟《一般數(shù)據(jù)保護(hù)條例》之中,在數(shù)據(jù)收集限制方面,應(yīng)遵循合法、公平、透明、最小化等原則,并且受目的限定原則等限制。我國《個(gè)人信息保護(hù)法》也確立了個(gè)人信息處理的合法、正當(dāng)、必要和誠信原則,對(duì)個(gè)人權(quán)益影響最小等方式,遵循公開、透明原則以及保證數(shù)據(jù)質(zhì)量等原則規(guī)則。
人工智能技術(shù)的應(yīng)用,使得個(gè)人信息保護(hù)等問題變得更為復(fù)雜。信息的廣泛收集,可能會(huì)使非個(gè)人信息轉(zhuǎn)化為個(gè)人信息。這一問題在此前的諸多場(chǎng)景中就已存在。就敏感個(gè)人信息而言,比如,因網(wǎng)絡(luò)活動(dòng)而產(chǎn)生的行為數(shù)據(jù)、從社交網(wǎng)站上搜集的數(shù)據(jù)、生活智能設(shè)備收集用戶行為而產(chǎn)生的數(shù)據(jù)、人工智能技術(shù)的運(yùn)用而可能產(chǎn)生的可以關(guān)聯(lián)至個(gè)人的數(shù)據(jù)以及基于數(shù)據(jù)分析技術(shù)(比如撞庫)等,可能會(huì)不斷出現(xiàn)敏感個(gè)人信息,進(jìn)而識(shí)別、關(guān)聯(lián)至具體個(gè)人。匿名化的個(gè)人信息可能會(huì)被重新識(shí)別以及機(jī)器學(xué)習(xí)可能超出人類可以控制的范圍。在此基礎(chǔ)上,生成式人工智能就會(huì)產(chǎn)生更多問題。本文致力于從“智能涌現(xiàn)”的角度觀察訓(xùn)練數(shù)據(jù)問題,認(rèn)為應(yīng)盡可能實(shí)現(xiàn)大體量數(shù)據(jù)的運(yùn)用,但是在價(jià)值上仍未有任何偏差,仍強(qiáng)調(diào)隱私保護(hù)等方面的基本要求。當(dāng)技術(shù)發(fā)展至生成式人工智能之時(shí),通過分析個(gè)人信息可能會(huì)產(chǎn)生新的虛假個(gè)人信息,產(chǎn)生“幻覺”(hallucination);由于強(qiáng)交互性,進(jìn)入模型的信息都可能被輸出;訓(xùn)練數(shù)據(jù)中因?yàn)榘罅總(gè)人信息,可能無法被刪除,并可能進(jìn)一步產(chǎn)生數(shù)據(jù)泄露等數(shù)據(jù)安全風(fēng)險(xiǎn)。故此,如何防止“智能叛變”,將“有意識(shí)濫用”和“無意識(shí)控制”等問題放在同一場(chǎng)景、維度下考慮,顯然就變得更為重要。也即,如何從多向度在智能時(shí)代既保護(hù)個(gè)人信息,又能更好利用個(gè)人信息,就成為一個(gè)關(guān)鍵議題。
個(gè)人信息匿名化等技術(shù)的運(yùn)用,是激活個(gè)人信息利用的密鑰。《個(gè)人信息保護(hù)法》明確規(guī)定,匿名化是指?jìng)(gè)人信息經(jīng)過處理無法識(shí)別特定自然人且不能復(fù)原的過程。在信息化時(shí)代,對(duì)于信息安全的落實(shí)方式正經(jīng)歷“簡(jiǎn)單加密—算法加密—多元加密”的變化。與此相聯(lián)系,即便是個(gè)人信息在數(shù)據(jù)訓(xùn)練中合法被使用,但其能否通過技術(shù)實(shí)現(xiàn)一種非明碼的使用,對(duì)于保護(hù)信息安全也十分重要。類比一個(gè)計(jì)算法學(xué)的原理,所謂的“不可計(jì)算”,只是證明我們還沒為這個(gè)系統(tǒng)建立完整的模型,在計(jì)算理論上只有當(dāng)前算力、算法、數(shù)據(jù)尚無法承擔(dān)的計(jì)算任務(wù),并沒有理論上不可計(jì)算的絕對(duì)任務(wù)。故此,在數(shù)據(jù)訓(xùn)練過程中,應(yīng)全程嵌入相應(yīng)價(jià)值導(dǎo)向,同時(shí)亦應(yīng)通過技術(shù)支撐而實(shí)現(xiàn)對(duì)個(gè)人權(quán)益的全方位保障。
(三)模型訓(xùn)練主體的法律義務(wù)
在模型訓(xùn)練階段,主體較為單一,但是義務(wù)卻呈現(xiàn)出全方位、體系化等特征。對(duì)于開發(fā)者主要是模型訓(xùn)練者而言,應(yīng)承擔(dān)隱私保護(hù)、個(gè)人信息保護(hù)等義務(wù)、數(shù)據(jù)安全保障義務(wù)、數(shù)據(jù)質(zhì)量保障義務(wù)等等。通常而言,在模型訓(xùn)練之前都會(huì)針對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理,這一階段的義務(wù)實(shí)則與前續(xù)采集和后續(xù)模型訓(xùn)練之間都會(huì)產(chǎn)生一定關(guān)聯(lián),居于“中間地帶”。由于其已在采集階段之后,故更接近于模型訓(xùn)練之時(shí)對(duì)于數(shù)據(jù)的使用。就開發(fā)者的法律義務(wù)的具體定位而言,與前述數(shù)據(jù)采集主體的義務(wù)體系相類似,對(duì)于隱私保護(hù)、個(gè)人信息保護(hù)和知識(shí)產(chǎn)權(quán)保護(hù)等方面的義務(wù),可能會(huì)直接引致侵權(quán)責(zé)任的承擔(dān)。但是對(duì)于其他一些義務(wù),可能多為公法上的義務(wù)。
四、“好的數(shù)據(jù)”原則(Good Data Principle):人工智能治理的新范式
人工智能時(shí)代的治理極具復(fù)雜性,人們不僅要面對(duì)不同問題的橫截面,比如克服風(fēng)險(xiǎn)與驅(qū)動(dòng)發(fā)展之間的關(guān)系,同時(shí)也需要面對(duì)“科學(xué)—技術(shù)—社會(huì)”的存在論情境而產(chǎn)生的問題。如英國技術(shù)哲學(xué)家科林格里奇(David Collingridge)從技術(shù)的社會(huì)控制角度揭示技術(shù)發(fā)展與社會(huì)之間的協(xié)同問題時(shí)提出的,“技術(shù)的社會(huì)后果是很難在技術(shù)發(fā)展的早期做出準(zhǔn)確預(yù)測(cè)的”。因?yàn)椤爱?dāng)技術(shù)的改變相對(duì)容易時(shí),其影響卻是難以完全預(yù)見的;而當(dāng)對(duì)技術(shù)需要變動(dòng)的要求變得強(qiáng)烈時(shí),這種改變卻已經(jīng)變得非常昂貴、困難和費(fèi)時(shí)了”。這一現(xiàn)象與理論即“技術(shù)控制的困境”(dilemma of control)。不同國家和地區(qū)都面對(duì)這些抽象出來的共同問題,同時(shí)又面對(duì)自身的具體問題,如何在自身制度體系框架內(nèi)安排最適合自身發(fā)展的制度,顯然成為一道難題。囿于論題限制,本文并未聚焦探討人工智能治理這一問題,而是在人工智能治理這一框架之下探討訓(xùn)練數(shù)據(jù)制度的問題。故此,針對(duì)訓(xùn)練數(shù)據(jù)制度的建構(gòu),當(dāng)然也是人工智能治理制度中的子制度或者至少有較多重疊交叉的部分。
(一)訓(xùn)練數(shù)據(jù)制度的價(jià)值衡量
訓(xùn)練數(shù)據(jù)的采集、輸入與利用規(guī)則,面對(duì)著一系列價(jià)值衡量。在數(shù)據(jù)質(zhì)量、數(shù)據(jù)體量與外部治理之間似乎形成了一個(gè)彼此具有彈性縮脹、此消彼長的關(guān)系。數(shù)據(jù)質(zhì)量在采集、輸入和利用全程都十分需要;數(shù)據(jù)體量也是高量級(jí)優(yōu)于低量級(jí),但相伴而生的則是可能虛假信息、錯(cuò)誤信息也會(huì)影響數(shù)據(jù)質(zhì)量。外部治理則在數(shù)據(jù)質(zhì)量要求、負(fù)面風(fēng)險(xiǎn)或高風(fēng)險(xiǎn)方面予以治理。另外,有論者認(rèn)為,針對(duì)訓(xùn)練數(shù)據(jù),應(yīng)構(gòu)建以“數(shù)據(jù)”為客體的數(shù)據(jù)財(cái)產(chǎn)權(quán)制度。從本文的分析框架可知,訓(xùn)練數(shù)據(jù)通常涉及前端的數(shù)據(jù)采集規(guī)則以及中端的數(shù)據(jù)利用規(guī)則,較難涉及到后端輸出的數(shù)據(jù)集的權(quán)益歸屬判斷問題。若輸出的數(shù)據(jù)集已成為公開數(shù)據(jù),可從公開渠道爬取,這就意味著其上很難分配和承載相應(yīng)排他性權(quán)益。另外,OpenAI的《使用協(xié)議》中也約定,輸入和輸出的內(nèi)容均歸用戶所有,但同時(shí)服務(wù)提供者也會(huì)將用戶對(duì)話內(nèi)容用以訓(xùn)練模型。故此,作為工具意義上的訓(xùn)練大模型的數(shù)據(jù),除在前端采集之時(shí)需具有合法性并應(yīng)對(duì)相應(yīng)權(quán)利沖突之外,其他并不會(huì)過多涉及需要在訓(xùn)練數(shù)據(jù)之上設(shè)定財(cái)產(chǎn)權(quán)的問題,而更多還是在數(shù)據(jù)質(zhì)量、體量與治理之間予以衡量。
技術(shù)往往伴隨著試錯(cuò)的過程而逐步發(fā)展,若不試錯(cuò),可能也未必能出現(xiàn)極具偶然性的“智能涌現(xiàn)”。因而如何進(jìn)行價(jià)值衡量并制定更為完善的制度,始終是一個(gè)重要議題。尤其是近年來,世界范圍內(nèi)各國各地區(qū)都在倫理、技術(shù)、治理、經(jīng)濟(jì)、社會(huì)等不同向度進(jìn)行考量協(xié)調(diào),也是考量各國各地區(qū)“治理平衡術(shù)”的歷史時(shí)刻。
(二)人工智能倫理準(zhǔn)則
人工智能治理的總體準(zhǔn)則之一即倫理準(zhǔn)則。有論者認(rèn)為,在技術(shù)層面,隨著平臺(tái)企業(yè)突破并擴(kuò)展了原有邊界,從之前的單一資源整合者轉(zhuǎn)變?yōu)橥ㄟ^插件和應(yīng)用程序接口實(shí)現(xiàn)多維度賦能的資源調(diào)配者,故而形成了基于API、基于插件和基于模型垂直部署三種模式的治理架構(gòu)。在社會(huì)層面,當(dāng)前階段,人工智能既承繼了之前信息技術(shù)的倫理問題,又因?yàn)樯疃葘W(xué)習(xí)等一些人工智能算法的不透明性、難解釋性、自適應(yīng)性、運(yùn)用廣泛等特征而具有新的特點(diǎn),而可能在基本人權(quán)、社會(huì)秩序、國家安全等諸多方面產(chǎn)生一系列倫理風(fēng)險(xiǎn)。人工智能治理路徑選擇上主要有兩種理論:一是“對(duì)立論”,即著眼于人工智能技術(shù)與人類權(quán)利和福祉之間的對(duì)立沖突,進(jìn)而建立相應(yīng)的審查和規(guī)制制度;二是“系統(tǒng)論”,強(qiáng)調(diào)人工智能技術(shù)與人類、其他人工代理、法律、非智能基礎(chǔ)設(shè)施和社會(huì)規(guī)范之間的協(xié)調(diào)互動(dòng)關(guān)系。我國主要以“系統(tǒng)論”為治理路徑,旨在逐漸形成多元主體參與、多維度、綜合性的治理體系。
在世界范圍內(nèi),各國各地區(qū)都試圖在倫理框架之下治理人工智能。《布萊奇利宣言》承諾以安全、以人為本、值得信賴和負(fù)責(zé)任的方式設(shè)計(jì)、開發(fā)、部署和使用人工智能。歐盟委員會(huì)于2021年4月提出《人工智能法案》提案,經(jīng)過多輪討論,歐盟27國已于今年2月投票一致支持《人工智能法案》文本,標(biāo)志著歐盟向立法監(jiān)管人工智能邁出重要一步。美國近年來陸續(xù)推出《人工智能權(quán)利法案藍(lán)圖》《人工智能風(fēng)險(xiǎn)管理框架1.0》《關(guān)于安全、可靠和可信的人工智能行政令》等等。中國近年來發(fā)布陸續(xù)發(fā)布《新一代人工智能治理原則——發(fā)展負(fù)責(zé)任的人工智能》《新一代人工智能倫理規(guī)范》等,積極引導(dǎo)全社會(huì)負(fù)責(zé)任地開展人工智能研發(fā)和應(yīng)用,同時(shí)發(fā)布《生成式人工智能服務(wù)管理暫行辦法》等,對(duì)生成式人工智能服務(wù)實(shí)行包容審慎和分類分級(jí)監(jiān)管。這一系列倫理治理理念也將嵌入訓(xùn)練數(shù)據(jù)制度之中。
(三)“好的數(shù)據(jù)”原則之提出
盡管人工智能倫理原則和框架在世界范圍內(nèi)形成普遍共識(shí),但也可在此基礎(chǔ)上有更多觀察維度和視角。尤其是針對(duì)訓(xùn)練數(shù)據(jù)制度,可輸入更多視角,使一些原則超越抽象,更具可執(zhí)行性。有論者提出,數(shù)據(jù)是人工智能的燃料,提供價(jià)值和力量。人工智能倫理原則往往以相同的價(jià)值觀(公平、問責(zé)、透明度、隱私等)為中心,不足以應(yīng)對(duì)人工智能在社會(huì)中帶來的司法挑戰(zhàn)。在域外,人工智能的能力有時(shí)可能是由地位具有優(yōu)勢(shì)的主體設(shè)計(jì)、資助、開發(fā)、部署和監(jiān)管的(如果真的有),這些具有優(yōu)勢(shì)地位的主體可能也正在推進(jìn)利潤、權(quán)力和主導(dǎo)地位的價(jià)值觀。而希望提出“好數(shù)據(jù)”[21]這個(gè)概念,作為一個(gè)更廣泛的概念,以闡明人工智能的開發(fā)和部署以及其他數(shù)字技術(shù)的價(jià)值觀和相關(guān)權(quán)益!昂脭(shù)據(jù)”應(yīng)具有四大支柱:社區(qū)、權(quán)利、可用性和政治,它們是公正的數(shù)字社會(huì)和經(jīng)濟(jì)的前沿!昂脭(shù)據(jù)”是一個(gè)更廣泛的概念,旨在涵蓋“倫理”之內(nèi)、外的實(shí)踐,以及圍繞數(shù)據(jù)產(chǎn)生的人權(quán)、環(huán)境和社會(huì)正義問題,這可能涉及到超越迄今為止對(duì)“人工智能倫理”的關(guān)注,以及對(duì)“人工智能法律”的關(guān)注,以解決“人工智能道德”的不足。這一觀點(diǎn)極具啟發(fā)性;蛟S在我們通常討論數(shù)據(jù)質(zhì)量之時(shí),已經(jīng)輸入了“好的數(shù)據(jù)”之理念,這一原則與理念比具象意義上的數(shù)據(jù)質(zhì)量涵蓋更廣,也更能補(bǔ)足抽象的倫理要求的不足。故此,在人工智能倫理的基礎(chǔ)上,尤其是在訓(xùn)練數(shù)據(jù)制度建構(gòu)方面,“好的數(shù)據(jù)”原則亦應(yīng)成為人工智能治理中的一個(gè)重要切入視角與新范式。
五、結(jié)論
“科學(xué)—技術(shù)—社會(huì)—法律”的存在論情境,不斷給人們帶來跨越式發(fā)展,同時(shí)也帶來一系列難題!爸悄苡楷F(xiàn)”作為人工智能時(shí)代可能相伴而生的一類新現(xiàn)象,如何認(rèn)識(shí)以及如何從不同維度的制度層面促成“涌現(xiàn)智能”,成為人們十分關(guān)注的問題。訓(xùn)練數(shù)據(jù)制度作為人工智能制度中的重要構(gòu)成之一,在“訓(xùn)練的數(shù)據(jù)”這一維度,應(yīng)遵循合法采集規(guī)則,但同時(shí)為了充分實(shí)現(xiàn)“質(zhì)—量—效”幾者的統(tǒng)一,應(yīng)盡可能在合法性框架之下擴(kuò)大數(shù)據(jù)采集范圍,如此才能為可能的“智能涌現(xiàn)”奠定基礎(chǔ)。對(duì)于“數(shù)據(jù)的訓(xùn)練”這一維度,應(yīng)當(dāng)盡可能更好利用數(shù)據(jù),通過價(jià)值嵌入和技術(shù)支撐,以實(shí)現(xiàn)訓(xùn)練目標(biāo)。從治理維度而言,在傳統(tǒng)的人工智能倫理準(zhǔn)則維度和范式之下,“好的數(shù)據(jù)”原則更以其涵蓋廣、可執(zhí)行性強(qiáng)而具有優(yōu)勢(shì)。在數(shù)據(jù)、算法、算力三個(gè)基本要素的協(xié)同支撐下,人工智能才得以更好發(fā)展。但同時(shí)也給我們留下諸多未竟難題,比如“智能涌現(xiàn)”是否是大模型的特征之一,或者說是否所有的更高級(jí)別的人工智能發(fā)展都需要“涌現(xiàn)”而提升人們的認(rèn)知;“好的數(shù)據(jù)”原則應(yīng)以何種標(biāo)準(zhǔn)予以構(gòu)造,凡此種種,都給我們留下更多討論空間。
作者:姚佳,中國社會(huì)科學(xué)院法學(xué)研究所編審,中國社會(huì)科學(xué)院大學(xué)教授,博士生導(dǎo)師。
來源:《貴州社會(huì)科學(xué)》2024年第2期。
