国产欧美日韩大长腿不卡,亚洲小姐一区二区三区视频

一、引言：智能何以“涌現(xiàn)”

人工智能尤其是生成式人工智能的出現(xiàn)，標(biāo)志著人工智能進入一個變革時代，其在文本、圖像、音頻和合成數(shù)據(jù)的創(chuàng)建方面展現(xiàn)出前所未有的進步。通過數(shù)據(jù)、算法和算力之三大人工智能要素的疊加協(xié)同，在訓(xùn)練參數(shù)和數(shù)據(jù)量達到一定閾值（threshold）之時，甚至可能會出現(xiàn)不可預(yù)測的涌現(xiàn)能力。這種“智能涌現(xiàn)”現(xiàn)象，十分值得關(guān)注。

“涌現(xiàn)現(xiàn)象”與“涌現(xiàn)論”在不同學(xué)科如哲學(xué)、生物學(xué)、物理學(xué)、系統(tǒng)科學(xué)、復(fù)雜科學(xué)、經(jīng)濟學(xué)等領(lǐng)域都受到關(guān)注和系統(tǒng)研究。就“涌現(xiàn)論”（Emergentism）的研究而言，“劉易斯（George Henry Lewes）于1875年提出了‘涌現(xiàn)’一詞。他區(qū)分了涌現(xiàn)和結(jié)果。這種區(qū)分是從密爾（John Stuart Mill）那里學(xué)到的。密爾在其1843年的《邏輯體系》（System of Logic）一書中區(qū)分了‘原因的兩種聯(lián)合作用模式，即機械和化學(xué)’。根據(jù)密爾的觀點，當(dāng)兩個或兩個以上的原因以機械方式結(jié)合在一起產(chǎn)生某種結(jié)果時，這種結(jié)果就是每個原因單獨作用時的結(jié)果的總和�！贝撕箨P(guān)于涌現(xiàn)的研究，經(jīng)歷了從英國涌現(xiàn)主義學(xué)派的經(jīng)典涌現(xiàn)論到以復(fù)雜性科學(xué)為標(biāo)志的復(fù)雜系統(tǒng)涌現(xiàn)研究的發(fā)展。涌現(xiàn)研究重點關(guān)注的是由小的部分結(jié)合成的大系統(tǒng)（復(fù)雜系統(tǒng)）形成的整體現(xiàn)象，“總體大于部分之和”是其通俗的表述。

涌現(xiàn)與復(fù)雜系統(tǒng)緊密相關(guān)�！斑z傳算法之父”霍蘭德（John H. Holland）認(rèn)為，像涌現(xiàn)這么復(fù)雜的主題，不太可能用一個簡潔的定義來完整地解釋，當(dāng)然也就無法給出這樣一個定義。但是霍蘭德也在反復(fù)證明，少數(shù)規(guī)則和規(guī)律就能產(chǎn)生極其錯綜復(fù)雜的系統(tǒng)。比如棋類游戲中多種多樣的棋局，或者遵循萬有引力定律的棒球、行星和星系的運行軌跡，都說明了這一點：少數(shù)規(guī)則或定律能夠產(chǎn)生復(fù)雜的系統(tǒng)，而且以不斷變化的形式引起恒新性（perpetual novelty）和新的涌現(xiàn)現(xiàn)象。實際上，在大多數(shù)情況下，我們只有理解了與系統(tǒng)相伴的涌現(xiàn)現(xiàn)象，才能真正理解這些復(fù)雜系統(tǒng)。涌現(xiàn)研究中的關(guān)鍵術(shù)語主要包括：機制（積木塊、生成器、主體）和恒新性（大量不斷生成的結(jié)構(gòu)）、動態(tài)性和規(guī)律性（在生成的結(jié)構(gòu)中，持續(xù)并重復(fù)出現(xiàn)的結(jié)構(gòu)或模式）、分層組織（由生成器構(gòu)成的構(gòu)件成為更高層次組織的生成器）。但凡可能存在復(fù)雜系統(tǒng)，涌現(xiàn)現(xiàn)象就可能發(fā)生，而涌現(xiàn)的意義恰在于其出現(xiàn)了一種超乎人們想象的現(xiàn)象或結(jié)果，推進了人類的認(rèn)知水平。

人工智能作為一個復(fù)雜系統(tǒng)，已體現(xiàn)出“涌現(xiàn)能力”。盡管人工智能何以出現(xiàn)涌現(xiàn)現(xiàn)象，以及“涌現(xiàn)”是否屬于大模型智能出現(xiàn)的標(biāo)志，仍未有定論，但是人們至少就大量數(shù)據(jù)訓(xùn)練、復(fù)雜算法以及超強算力的綜合應(yīng)用能夠出現(xiàn)“智能涌現(xiàn)”現(xiàn)象，并成為一個值得研究的命題，則具有一定共識。本文擬擷取其中的數(shù)據(jù)維度，探討如何構(gòu)建人工智能的訓(xùn)練數(shù)據(jù)制度，以進一步回應(yīng)并更好解釋“智能涌現(xiàn)”何以增強人們的認(rèn)知能力和洞察力。當(dāng)然，在問題分野上，人工智能的數(shù)據(jù)制度究竟應(yīng)偏向于人工智能制度還是更相對聚焦于數(shù)據(jù)制度，實際上較難明確區(qū)分。就訓(xùn)練數(shù)據(jù)本身而言，在規(guī)則和制度層面基本上偏向于數(shù)據(jù)制度，但是就如何更科學(xué)地建構(gòu)訓(xùn)練數(shù)據(jù)制度以及這一制度如何與人工智能的功能與價值等方面相互影響與匹配，則必然要切入人工智能的技術(shù)特性和宗旨目標(biāo)。故此，二者無法作制度層面的區(qū)分。作為人工智能三大要素之一的數(shù)據(jù)制度，“無數(shù)據(jù)，不智能”，訓(xùn)練數(shù)據(jù)制度之建構(gòu)居于重要地位，如何從各向度研究訓(xùn)練數(shù)據(jù)制度，是當(dāng)下的重要且緊迫的任務(wù)之一�！　　�

二、訓(xùn)練的數(shù)據(jù)：合法采集規(guī)則

大型自然語言模型的訓(xùn)練需要高量級的數(shù)據(jù)“喂養(yǎng)”。在可能出現(xiàn)“智能涌現(xiàn)”的大背景之下，如何盡可能在保障數(shù)據(jù)安全的基礎(chǔ)上將更多數(shù)據(jù)加以采集和利用，正是在“輸入端”的訓(xùn)練數(shù)據(jù)制度中應(yīng)當(dāng)考慮的問題。以ChatGPT為例，人們總結(jié)其具有一系列特性，比如強交互性，能進行多輪對話，可以對過往聊天內(nèi)容進行再學(xué)習(xí)，不斷改進輸出文本的質(zhì)量；同時具有強理解能力，即能夠分析用戶模糊語言，理解用戶意圖，辨別對話中不正確的提問；還具有強生成能力，可以按照要求，生成用于不同場景、不同形式的文字，包括論文、郵件、圖文和代碼等。從某種意義上講，這種大力出奇跡的“暴力美學(xué)”，必然建立在大量數(shù)據(jù)輸入的基礎(chǔ)之上。當(dāng)然，人們對于人工智能具有如此強大的分析能力也保持警惕，有論者認(rèn)為，生成式人工智能亟需規(guī)制的安全風(fēng)險分別是準(zhǔn)備階段的數(shù)據(jù)安全風(fēng)險、運算階段的算法偏見風(fēng)險與生成階段的知識產(chǎn)權(quán)風(fēng)險。在此意義上，就訓(xùn)練數(shù)據(jù)而言，盡管可能存在一定數(shù)據(jù)安全風(fēng)險，但是在符合現(xiàn)行數(shù)據(jù)法律制度的基礎(chǔ)之上，是否應(yīng)在輸入端盡可能考慮構(gòu)建一種以提升人工智能決策質(zhì)效多重目標(biāo)的訓(xùn)練數(shù)據(jù)制度，尚值探討。

（一）數(shù)據(jù)采集的來源

數(shù)據(jù)的量級對于大模型訓(xùn)練而言是一個十分重要的維度。對于“深度學(xué)習(xí)模型來講，訓(xùn)練數(shù)據(jù)的不斷增加能夠帶來性能的提升”。大模型采集數(shù)據(jù)的來源較為廣泛，通常根據(jù)具體需求和場景選擇合適的數(shù)據(jù)源。根據(jù)需求、質(zhì)量與可獲得性等主要影響因素，人工智能等大模型的數(shù)據(jù)來源大致分為以下幾個方面：

第一，企業(yè)自身所有、控制的數(shù)據(jù)。任何企業(yè)均有依據(jù)自身業(yè)務(wù)歷史積累的數(shù)據(jù)，即根據(jù)業(yè)務(wù)特性和場景積累的自身可以利用的一系列數(shù)據(jù)。

第二，公開渠道爬取的數(shù)據(jù)。由政府組織、科研學(xué)術(shù)機構(gòu)或企業(yè)公開發(fā)布，涵蓋各種類型的數(shù)據(jù)，如圖像、文本、音頻、視頻等。例如，ImageNet是一個廣泛用于圖像識別任務(wù)的大規(guī)模圖像數(shù)據(jù)集；Common Crawl則提供了大量的網(wǎng)頁抓取數(shù)據(jù)以供自然語言處理模型訓(xùn)練。另外，還有一些開源數(shù)據(jù)集如WikiQA、EXEQ-300K、Arxiv等。

第三，數(shù)據(jù)資源共享。有一些機構(gòu)、學(xué)者等擁有較為獨特的數(shù)據(jù)資源，并愿意以各種形式合作共享這些數(shù)據(jù)資源，支持不同領(lǐng)域的研究和應(yīng)用，尤其是針對能夠共同提高人類福祉的一些領(lǐng)域。例如，在醫(yī)療領(lǐng)域，醫(yī)療機構(gòu)通常會收集大量的醫(yī)療影像數(shù)據(jù)，這些數(shù)據(jù)可以用于訓(xùn)練圖像分析或者特定疾病檢測等任務(wù)。

第四，互聯(lián)網(wǎng)上的公開資源�；ヂ�(lián)網(wǎng)本身就承載大量信息和數(shù)據(jù)，如UGC平臺、社交媒體、論壇、新聞網(wǎng)站等，以及用戶發(fā)表的內(nèi)容、回復(fù)、評論等等內(nèi)容，都可以成為大模型訓(xùn)練的數(shù)據(jù)源。

另外，在有的情形下，用戶使用生成式人工智能服務(wù)之時，用戶輸入的內(nèi)容和服務(wù)提供者輸出的內(nèi)容也是訓(xùn)練數(shù)據(jù)的來源。在OpenAI官網(wǎng)的《使用協(xié)議》（Terms of Use）中約定，關(guān)于“您的內(nèi)容。您可以向‘服務(wù)’提供‘輸入’，并根據(jù)輸入從‘服務(wù)’接收‘輸出’。輸入和輸出統(tǒng)稱為‘內(nèi)容’。您對內(nèi)容負(fù)責(zé)，包括確保其不違反任何適用法律或本條款。您聲明并保證您擁有向我們的‘服務(wù)’提供輸入所需的所有權(quán)利、許可證和權(quán)限”。同時用戶享有“選擇退出”的權(quán)利，該協(xié)議條款中約定，“如果您不希望我們使用您的內(nèi)容來訓(xùn)練我們的模型，您可以按照本幫助中心中的說明選擇退出。請注意，在某些情況下，這可能會限制我們的‘服務(wù)’更好地解決您的特定的使用案例的能力”。從選擇退出的條款中可知，服務(wù)提供者會利用用戶的對話內(nèi)容訓(xùn)練模型。但是在有一些生成式人工智能服務(wù)提供者的用戶協(xié)議中，對此卻并未明確約定，其是否利用用戶的對話內(nèi)容來訓(xùn)練模型，尚未可知。

（二）數(shù)據(jù)采集行為的合法性

訓(xùn)練數(shù)據(jù)的來源多重，針對數(shù)據(jù)來源本身應(yīng)具有合法性，相應(yīng)采集行為應(yīng)具有合法性。國家網(wǎng)信辦等七部委于2023年7月頒布的《生成式人工智能服務(wù)管理暫行辦法》第7條規(guī)定了生成式人工智能服務(wù)提供者的訓(xùn)練數(shù)據(jù)處理活動要求，即：“生成式人工智能服務(wù)提供者（以下稱提供者）應(yīng)當(dāng)依法開展預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等訓(xùn)練數(shù)據(jù)處理活動，遵守以下規(guī)定：（一）使用具有合法來源的數(shù)據(jù)和基礎(chǔ)模型；（二）涉及知識產(chǎn)權(quán)的，不得侵害他人依法享有的知識產(chǎn)權(quán)；（三）涉及個人信息的，應(yīng)當(dāng)取得個人同意或者符合法律、行政法規(guī)規(guī)定的其他情形；（四）采取有效措施提高訓(xùn)練數(shù)據(jù)質(zhì)量，增強訓(xùn)練數(shù)據(jù)的真實性、準(zhǔn)確性、客觀性、多樣性；（五）《中華人民共和國網(wǎng)絡(luò)安全法》、《中華人民共和國數(shù)據(jù)安全法》、《中華人民共和國個人信息保護法》等法律、行政法規(guī)的其他有關(guān)規(guī)定和有關(guān)主管部門的相關(guān)監(jiān)管要求�！被谠摋l規(guī)定，訓(xùn)練數(shù)據(jù)在來源上應(yīng)具有合法性。涉及知識產(chǎn)權(quán)的，應(yīng)在知識產(chǎn)權(quán)的法律制度框架內(nèi)遵守相關(guān)規(guī)定；涉及個人信息的，應(yīng)遵守個人信息保護相關(guān)規(guī)定。對于版權(quán)和個人信息保護而言，若違反合法性要求，則可能會承擔(dān)相應(yīng)侵權(quán)責(zé)任。針對其中第（四）項提高數(shù)據(jù)質(zhì)量而言，是否引致侵權(quán)責(zé)任則存在一定爭論。針對這幾個問題，如下分述之：

其一，未經(jīng)許可使用相關(guān)作品版權(quán)作為訓(xùn)練數(shù)據(jù)頗具爭議。美國近年來幾起訴訟，無論是針對OpenAI、GitHub的集體訴訟，針對Stability AI，美國萬名作家簽署作家協(xié)會信函呼吁人工智能行業(yè)保護作者權(quán)益，還是《紐約時報》訴OpenAI，這些訴訟和事件均指向利用未經(jīng)授權(quán)使用作品訓(xùn)練人工智能產(chǎn)品或者在開源社區(qū)中可能侵害他人版權(quán)等問題。就訓(xùn)練數(shù)據(jù)中能否使用公開的但未經(jīng)授權(quán)的作品，討論頗多。美國《著作權(quán)法》第107條采取了“四要素分析法”，通過衡量使用目的和性質(zhì)；被從事使用、具有著作權(quán)的作品性質(zhì)；相對于被使用的作品整體，所使用的數(shù)量和程度以及其使用對受到著作權(quán)保護的作品的潛在市場或價值產(chǎn)生的影響等內(nèi)容進行綜合判斷。贊成者認(rèn)為以含有著作權(quán)的作品作為訓(xùn)練數(shù)據(jù)應(yīng)構(gòu)成合理使用，而且只要其不是將特定作品的全部或相當(dāng)部分原封不動地重新呈現(xiàn)，同樣構(gòu)成合理使用；反對者則認(rèn)為，這種“自我學(xué)習(xí)”并非合理使用，其仍然是對原作品進行“續(xù)寫”或“改編”，而非真正的轉(zhuǎn)化性使用，而且若令人工智能從事“仿真”之作，則會對消費者造成困擾，也與原作者構(gòu)成直接競爭。亦有論者從機器學(xué)習(xí)的類型化角度出發(fā)，認(rèn)為機器學(xué)習(xí)可分為非表達型、大眾表達型和個人表達型三種。非表達型機器學(xué)習(xí)，系指沒有表達性內(nèi)容輸出的機器學(xué)習(xí)，即從作品中提取的有價值信息是非表達性的事實或思想，如從作品中提取出的人臉要素、場景要素等等，其對作品的使用屬于非作品性使用。而其他兩種機器學(xué)習(xí)，則要么符合受限制的合理使用規(guī)則，要么構(gòu)成侵權(quán)。盡管上述分析視角和理論框架有所不同，但是在目前世界范圍之內(nèi)的學(xué)術(shù)討論中，底層邏輯依然是——在訓(xùn)練數(shù)據(jù)使用中，應(yīng)尊重在先的著作權(quán)，不得侵害他人依法享有的著作權(quán)，除非其符合其他例外規(guī)則，由于這一問題關(guān)涉用戶是否享有人工智能生成物的著作權(quán)等問題，因此也并非僅靠前端的訓(xùn)練數(shù)據(jù)就能解決，仍有待人工智能發(fā)展全貌下的綜合研判。

其二，個人信息作為訓(xùn)練數(shù)據(jù)，應(yīng)符合現(xiàn)行法對于個人信息保護的相關(guān)規(guī)定。在“告知—同意”規(guī)則的框架中，同意的性質(zhì)已毋庸諱言，其僅為個人信息處理活動的合法性基礎(chǔ)，即合法根據(jù)或正當(dāng)理由之一，而非個人授權(quán)他人使用自己的個人信息。大模型服務(wù)提供者也通常在隱私政策中就個人信息保護進行規(guī)定。對于已公開個人信息的使用，也應(yīng)本著“采取對個人權(quán)益影響最小的方式”使用。總體上，作為訓(xùn)練數(shù)據(jù)的個人信息，仍應(yīng)在個人信息保護的基本框架下有限度使用。

其三，對于數(shù)據(jù)質(zhì)量保障義務(wù)的違反，并不必然承擔(dān)侵權(quán)責(zé)任。有論者認(rèn)為，即便要求生成式人工智能服務(wù)提供者對生成式人工智能的預(yù)訓(xùn)練數(shù)據(jù)、優(yōu)化訓(xùn)練數(shù)據(jù)來源的合法性負(fù)責(zé)，保證數(shù)據(jù)的真實性、準(zhǔn)確性、客觀性、多樣性，如此對于防范虛假信息能夠起到很好的作用。但是目前現(xiàn)有現(xiàn)有技術(shù)尚難以達到這一目的。故此，將防范虛假信息作為一種倡導(dǎo)性的行為是有意義的，但是作為一種嚴(yán)格的法定義務(wù)，要求在人工智能服務(wù)提供者違反該義務(wù)時科以侵權(quán)責(zé)任，則未免過于嚴(yán)苛，而可能不利于鼓勵技術(shù)創(chuàng)新。本文贊成此觀點，對于上述知識產(chǎn)權(quán)、個人信息保護相關(guān)義務(wù)的違反，服務(wù)提供者應(yīng)承擔(dān)相應(yīng)侵權(quán)責(zé)任，但是對于違反數(shù)據(jù)質(zhì)量保障義務(wù)，顯然不能一概而論，本文容后再論。

（三）數(shù)據(jù)采集主體的法律義務(wù)

數(shù)據(jù)采集階段涉及不同采集主體的法律義務(wù)。通常而言，在數(shù)據(jù)采集階段涉及的主體包括人工智能開發(fā)者、云服務(wù)提供商、數(shù)據(jù)標(biāo)注提供商以及數(shù)據(jù)經(jīng)紀(jì)人或數(shù)據(jù)商。概括而言，這些主體均應(yīng)承擔(dān)隱私保護、個人信息保護以及知識產(chǎn)權(quán)保護等義務(wù)，同時還應(yīng)承擔(dān)一系列公法上的數(shù)據(jù)治理義務(wù)。就開發(fā)者而言，應(yīng)承擔(dān)數(shù)據(jù)安全保障義務(wù)、數(shù)據(jù)質(zhì)量保障義務(wù)、數(shù)據(jù)公平治理義務(wù)、數(shù)據(jù)透明義務(wù)和數(shù)據(jù)委托監(jiān)督義務(wù)等。就云服務(wù)提供商而言，應(yīng)承擔(dān)數(shù)據(jù)安全保障義務(wù)。就數(shù)據(jù)標(biāo)注提供商（相對于開發(fā)者而獨立的主體）而言，應(yīng)承擔(dān)數(shù)據(jù)質(zhì)量保障義務(wù)。就數(shù)據(jù)經(jīng)紀(jì)人或數(shù)據(jù)商而言，應(yīng)承擔(dān)數(shù)據(jù)質(zhì)量保障義務(wù)等等。不難發(fā)現(xiàn)，就訓(xùn)練數(shù)據(jù)而言，其質(zhì)量至關(guān)重要，因此各主體均應(yīng)承擔(dān)相應(yīng)的數(shù)據(jù)質(zhì)量保障義務(wù)。因為有論者發(fā)現(xiàn)，在后續(xù)的開放領(lǐng)域?qū)υ捪到y(tǒng)中，對話數(shù)據(jù)有的從社交網(wǎng)絡(luò)中收集，不可避免地存在大量錯誤和噪音，高質(zhì)量的對話數(shù)據(jù)相對缺乏。故此，對于高質(zhì)量數(shù)據(jù)的需求，無論是就大模型自身服務(wù)的目標(biāo)還是“智能涌現(xiàn)”的目標(biāo)，其均比較重要。當(dāng)然，此種數(shù)據(jù)質(zhì)量保障義務(wù)更多是一種數(shù)據(jù)治理義務(wù)，與上文提及的是否承擔(dān)相應(yīng)侵權(quán)責(zé)任，并不是一個問題。　

三、數(shù)據(jù)的訓(xùn)練：“價值—技術(shù)”雙重視角下的數(shù)據(jù)利用規(guī)則

數(shù)據(jù)的訓(xùn)練旨在實現(xiàn)人工智能最終可以更好為人類服務(wù)的目標(biāo)。但是顯然人們也意識到了人工智能可能帶來的一些問題。2023年11月，中國、美國等28個國家和歐盟共同簽署了《布萊奇利宣言》（Bletchley Declaration），大家對一些問題達成共識，認(rèn)為人工智能帶來發(fā)展機會的同時也帶來一定風(fēng)險。諸如，由于內(nèi)容操作或生成欺騙性內(nèi)容的能力，可能會出現(xiàn)未預(yù)見的風(fēng)險；由于可能的有意誤用或與人類意圖對齊的無意控制問題，可能會出現(xiàn)實質(zhì)性的風(fēng)險。這些問題部分是因為這些能力還沒有被完全理解，因此很難預(yù)測。同時，在諸如網(wǎng)絡(luò)安全和生物技術(shù)這樣的領(lǐng)域，以及前沿人工智能系統(tǒng)中，都可能產(chǎn)生被放大的風(fēng)險，如假信息。如何應(yīng)對這些問題，在數(shù)據(jù)訓(xùn)練這個階段尤為重要。技術(shù)和認(rèn)知視角的“智能涌現(xiàn)”顯然是需要更好的數(shù)據(jù)訓(xùn)練，以及好數(shù)據(jù)能被更好利用。

（一）數(shù)據(jù)利用與訓(xùn)練目標(biāo)

“涌現(xiàn)最初是一種具有耦合性的相互作用的產(chǎn)物。在技術(shù)上，這些相互作用以及這些作用產(chǎn)生的系統(tǒng)都是非線性的：整個系統(tǒng)的行為不能通過對系統(tǒng)的各個組成部分進行簡單求和得到�！蹦芊癯霈F(xiàn)涌現(xiàn)，人們無從預(yù)判。但是當(dāng)數(shù)據(jù)達到足夠體量，通過一定訓(xùn)練之后，能夠出現(xiàn)人們意想不到的認(rèn)知能力，這一點已具有共識。有論者亦認(rèn)為，解析生成式人工智能的“涌現(xiàn)”現(xiàn)象，應(yīng)在認(rèn)知、行為和知識的互構(gòu)之中理解知識生態(tài)系統(tǒng)下的涌現(xiàn)邏輯，以及知識生產(chǎn)將體現(xiàn)為“從暗知識到顯知識的涌現(xiàn)”的新模式。

數(shù)據(jù)訓(xùn)練的關(guān)鍵在于選擇合適的訓(xùn)練數(shù)據(jù)集、算法和模型。數(shù)據(jù)集應(yīng)具有代表性，能夠充分反映出待解決問題的特征和規(guī)律。數(shù)據(jù)集的時效性偏差可能會引發(fā)可信度危機。算法選擇之時，則需要考慮問題的性質(zhì)和數(shù)據(jù)的特點，以及算法本身的復(fù)雜度和效率。同時也需要考慮算力消耗之性價比的問題。只有既在宏觀上認(rèn)識到數(shù)據(jù)訓(xùn)練能增強人們的認(rèn)知能力，又在微觀技術(shù)實踐中能夠?qū)崿F(xiàn)預(yù)定目標(biāo)，才能理解如何更好利用數(shù)據(jù)，以及如何更好實現(xiàn)人工智能應(yīng)用之目標(biāo)。

（二）價值嵌入與技術(shù)支撐

數(shù)據(jù)訓(xùn)練之時，既存在傳統(tǒng)問題也存在新問題。有論者從新聞傳播角度進行實證研究后發(fā)現(xiàn)，人工智能開發(fā)者群體在日常生活與一線工作過程中觸達的風(fēng)險邊緣類型主要包括數(shù)據(jù)泄露/冒用作假、隱私販賣/僥幸心理、算法偏見/個人主觀、干擾社會事務(wù)及心理傷害，但個人道德、協(xié)議約束、法律與媒介監(jiān)督等因素警示人工智能開發(fā)者在使用訓(xùn)練數(shù)據(jù)時對于數(shù)據(jù)邊界問題應(yīng)保持清醒與冷靜。這些問題彼此交織，使得數(shù)據(jù)訓(xùn)練只有在價值與技術(shù)融合維度之下，才能實現(xiàn)數(shù)據(jù)訓(xùn)練的最終效果。

在個人信息利用之時，生成式人工智能的場景和問題更為復(fù)雜。個人信息保護是個傳統(tǒng)問題，但是隨著科技的發(fā)展，其也在不同時期呈現(xiàn)出不同問題。在歐盟《一般數(shù)據(jù)保護條例》之中，在數(shù)據(jù)收集限制方面，應(yīng)遵循合法、公平、透明、最小化等原則，并且受目的限定原則等限制。我國《個人信息保護法》也確立了個人信息處理的合法、正當(dāng)、必要和誠信原則，對個人權(quán)益影響最小等方式，遵循公開、透明原則以及保證數(shù)據(jù)質(zhì)量等原則規(guī)則。

人工智能技術(shù)的應(yīng)用，使得個人信息保護等問題變得更為復(fù)雜。信息的廣泛收集，可能會使非個人信息轉(zhuǎn)化為個人信息。這一問題在此前的諸多場景中就已存在。就敏感個人信息而言，比如，因網(wǎng)絡(luò)活動而產(chǎn)生的行為數(shù)據(jù)、從社交網(wǎng)站上搜集的數(shù)據(jù)、生活智能設(shè)備收集用戶行為而產(chǎn)生的數(shù)據(jù)、人工智能技術(shù)的運用而可能產(chǎn)生的可以關(guān)聯(lián)至個人的數(shù)據(jù)以及基于數(shù)據(jù)分析技術(shù)（比如撞庫）等，可能會不斷出現(xiàn)敏感個人信息，進而識別、關(guān)聯(lián)至具體個人。匿名化的個人信息可能會被重新識別以及機器學(xué)習(xí)可能超出人類可以控制的范圍。在此基礎(chǔ)上，生成式人工智能就會產(chǎn)生更多問題。本文致力于從“智能涌現(xiàn)”的角度觀察訓(xùn)練數(shù)據(jù)問題，認(rèn)為應(yīng)盡可能實現(xiàn)大體量數(shù)據(jù)的運用，但是在價值上仍未有任何偏差，仍強調(diào)隱私保護等方面的基本要求。當(dāng)技術(shù)發(fā)展至生成式人工智能之時，通過分析個人信息可能會產(chǎn)生新的虛假個人信息，產(chǎn)生“幻覺”（hallucination）；由于強交互性，進入模型的信息都可能被輸出；訓(xùn)練數(shù)據(jù)中因為包含大量個人信息，可能無法被刪除，并可能進一步產(chǎn)生數(shù)據(jù)泄露等數(shù)據(jù)安全風(fēng)險。故此，如何防止“智能叛變”，將“有意識濫用”和“無意識控制”等問題放在同一場景、維度下考慮，顯然就變得更為重要。也即，如何從多向度在智能時代既保護個人信息，又能更好利用個人信息，就成為一個關(guān)鍵議題。

個人信息匿名化等技術(shù)的運用，是激活個人信息利用的密鑰�！秱€人信息保護法》明確規(guī)定，匿名化是指個人信息經(jīng)過處理無法識別特定自然人且不能復(fù)原的過程。在信息化時代，對于信息安全的落實方式正經(jīng)歷“簡單加密—算法加密—多元加密”的變化。與此相聯(lián)系，即便是個人信息在數(shù)據(jù)訓(xùn)練中合法被使用，但其能否通過技術(shù)實現(xiàn)一種非明碼的使用，對于保護信息安全也十分重要。類比一個計算法學(xué)的原理，所謂的“不可計算”，只是證明我們還沒為這個系統(tǒng)建立完整的模型，在計算理論上只有當(dāng)前算力、算法、數(shù)據(jù)尚無法承擔(dān)的計算任務(wù)，并沒有理論上不可計算的絕對任務(wù)。故此，在數(shù)據(jù)訓(xùn)練過程中，應(yīng)全程嵌入相應(yīng)價值導(dǎo)向，同時亦應(yīng)通過技術(shù)支撐而實現(xiàn)對個人權(quán)益的全方位保障。

（三）模型訓(xùn)練主體的法律義務(wù)

在模型訓(xùn)練階段，主體較為單一，但是義務(wù)卻呈現(xiàn)出全方位、體系化等特征。對于開發(fā)者主要是模型訓(xùn)練者而言，應(yīng)承擔(dān)隱私保護、個人信息保護等義務(wù)、數(shù)據(jù)安全保障義務(wù)、數(shù)據(jù)質(zhì)量保障義務(wù)等等。通常而言，在模型訓(xùn)練之前都會針對訓(xùn)練數(shù)據(jù)進行預(yù)處理，這一階段的義務(wù)實則與前續(xù)采集和后續(xù)模型訓(xùn)練之間都會產(chǎn)生一定關(guān)聯(lián)，居于“中間地帶”。由于其已在采集階段之后，故更接近于模型訓(xùn)練之時對于數(shù)據(jù)的使用。就開發(fā)者的法律義務(wù)的具體定位而言，與前述數(shù)據(jù)采集主體的義務(wù)體系相類似，對于隱私保護、個人信息保護和知識產(chǎn)權(quán)保護等方面的義務(wù)，可能會直接引致侵權(quán)責(zé)任的承擔(dān)。但是對于其他一些義務(wù)，可能多為公法上的義務(wù)。

四、“好的數(shù)據(jù)”原則（Good Data Principle）：人工智能治理的新范式

人工智能時代的治理極具復(fù)雜性，人們不僅要面對不同問題的橫截面，比如克服風(fēng)險與驅(qū)動發(fā)展之間的關(guān)系，同時也需要面對“科學(xué)—技術(shù)—社會”的存在論情境而產(chǎn)生的問題。如英國技術(shù)哲學(xué)家科林格里奇（David Collingridge）從技術(shù)的社會控制角度揭示技術(shù)發(fā)展與社會之間的協(xié)同問題時提出的，“技術(shù)的社會后果是很難在技術(shù)發(fā)展的早期做出準(zhǔn)確預(yù)測的”。因為“當(dāng)技術(shù)的改變相對容易時，其影響卻是難以完全預(yù)見的；而當(dāng)對技術(shù)需要變動的要求變得強烈時，這種改變卻已經(jīng)變得非常昂貴、困難和費時了”。這一現(xiàn)象與理論即“技術(shù)控制的困境”（dilemma of control）。不同國家和地區(qū)都面對這些抽象出來的共同問題，同時又面對自身的具體問題，如何在自身制度體系框架內(nèi)安排最適合自身發(fā)展的制度，顯然成為一道難題。囿于論題限制，本文并未聚焦探討人工智能治理這一問題，而是在人工智能治理這一框架之下探討訓(xùn)練數(shù)據(jù)制度的問題。故此，針對訓(xùn)練數(shù)據(jù)制度的建構(gòu)，當(dāng)然也是人工智能治理制度中的子制度或者至少有較多重疊交叉的部分。

（一）訓(xùn)練數(shù)據(jù)制度的價值衡量

訓(xùn)練數(shù)據(jù)的采集、輸入與利用規(guī)則，面對著一系列價值衡量。在數(shù)據(jù)質(zhì)量、數(shù)據(jù)體量與外部治理之間似乎形成了一個彼此具有彈性縮脹、此消彼長的關(guān)系。數(shù)據(jù)質(zhì)量在采集、輸入和利用全程都十分需要；數(shù)據(jù)體量也是高量級優(yōu)于低量級，但相伴而生的則是可能虛假信息、錯誤信息也會影響數(shù)據(jù)質(zhì)量。外部治理則在數(shù)據(jù)質(zhì)量要求、負(fù)面風(fēng)險或高風(fēng)險方面予以治理。另外，有論者認(rèn)為，針對訓(xùn)練數(shù)據(jù)，應(yīng)構(gòu)建以“數(shù)據(jù)”為客體的數(shù)據(jù)財產(chǎn)權(quán)制度。從本文的分析框架可知，訓(xùn)練數(shù)據(jù)通常涉及前端的數(shù)據(jù)采集規(guī)則以及中端的數(shù)據(jù)利用規(guī)則，較難涉及到后端輸出的數(shù)據(jù)集的權(quán)益歸屬判斷問題。若輸出的數(shù)據(jù)集已成為公開數(shù)據(jù)，可從公開渠道爬取，這就意味著其上很難分配和承載相應(yīng)排他性權(quán)益。另外，OpenAI的《使用協(xié)議》中也約定，輸入和輸出的內(nèi)容均歸用戶所有，但同時服務(wù)提供者也會將用戶對話內(nèi)容用以訓(xùn)練模型。故此，作為工具意義上的訓(xùn)練大模型的數(shù)據(jù)，除在前端采集之時需具有合法性并應(yīng)對相應(yīng)權(quán)利沖突之外，其他并不會過多涉及需要在訓(xùn)練數(shù)據(jù)之上設(shè)定財產(chǎn)權(quán)的問題，而更多還是在數(shù)據(jù)質(zhì)量、體量與治理之間予以衡量。

技術(shù)往往伴隨著試錯的過程而逐步發(fā)展，若不試錯，可能也未必能出現(xiàn)極具偶然性的“智能涌現(xiàn)”。因而如何進行價值衡量并制定更為完善的制度，始終是一個重要議題。尤其是近年來，世界范圍內(nèi)各國各地區(qū)都在倫理、技術(shù)、治理、經(jīng)濟、社會等不同向度進行考量協(xié)調(diào)，也是考量各國各地區(qū)“治理平衡術(shù)”的歷史時刻。

（二）人工智能倫理準(zhǔn)則

人工智能治理的總體準(zhǔn)則之一即倫理準(zhǔn)則。有論者認(rèn)為，在技術(shù)層面，隨著平臺企業(yè)突破并擴展了原有邊界，從之前的單一資源整合者轉(zhuǎn)變?yōu)橥ㄟ^插件和應(yīng)用程序接口實現(xiàn)多維度賦能的資源調(diào)配者，故而形成了基于API、基于插件和基于模型垂直部署三種模式的治理架構(gòu)。在社會層面，當(dāng)前階段，人工智能既承繼了之前信息技術(shù)的倫理問題，又因為深度學(xué)習(xí)等一些人工智能算法的不透明性、難解釋性、自適應(yīng)性、運用廣泛等特征而具有新的特點，而可能在基本人權(quán)、社會秩序、國家安全等諸多方面產(chǎn)生一系列倫理風(fēng)險。人工智能治理路徑選擇上主要有兩種理論：一是“對立論”，即著眼于人工智能技術(shù)與人類權(quán)利和福祉之間的對立沖突，進而建立相應(yīng)的審查和規(guī)制制度；二是“系統(tǒng)論”，強調(diào)人工智能技術(shù)與人類、其他人工代理、法律、非智能基礎(chǔ)設(shè)施和社會規(guī)范之間的協(xié)調(diào)互動關(guān)系。我國主要以“系統(tǒng)論”為治理路徑，旨在逐漸形成多元主體參與、多維度、綜合性的治理體系。

在世界范圍內(nèi)，各國各地區(qū)都試圖在倫理框架之下治理人工智能�！恫既R奇利宣言》承諾以安全、以人為本、值得信賴和負(fù)責(zé)任的方式設(shè)計、開發(fā)、部署和使用人工智能。歐盟委員會于2021年4月提出《人工智能法案》提案，經(jīng)過多輪討論，歐盟27國已于今年2月投票一致支持《人工智能法案》文本，標(biāo)志著歐盟向立法監(jiān)管人工智能邁出重要一步。美國近年來陸續(xù)推出《人工智能權(quán)利法案藍圖》《人工智能風(fēng)險管理框架1.0》《關(guān)于安全、可靠和可信的人工智能行政令》等等。中國近年來發(fā)布陸續(xù)發(fā)布《新一代人工智能治理原則——發(fā)展負(fù)責(zé)任的人工智能》《新一代人工智能倫理規(guī)范》等，積極引導(dǎo)全社會負(fù)責(zé)任地開展人工智能研發(fā)和應(yīng)用，同時發(fā)布《生成式人工智能服務(wù)管理暫行辦法》等，對生成式人工智能服務(wù)實行包容審慎和分類分級監(jiān)管。這一系列倫理治理理念也將嵌入訓(xùn)練數(shù)據(jù)制度之中。

（三）“好的數(shù)據(jù)”原則之提出

盡管人工智能倫理原則和框架在世界范圍內(nèi)形成普遍共識，但也可在此基礎(chǔ)上有更多觀察維度和視角。尤其是針對訓(xùn)練數(shù)據(jù)制度，可輸入更多視角，使一些原則超越抽象，更具可執(zhí)行性。有論者提出，數(shù)據(jù)是人工智能的燃料，提供價值和力量。人工智能倫理原則往往以相同的價值觀（公平、問責(zé)、透明度、隱私等）為中心，不足以應(yīng)對人工智能在社會中帶來的司法挑戰(zhàn)。在域外，人工智能的能力有時可能是由地位具有優(yōu)勢的主體設(shè)計、資助、開發(fā)、部署和監(jiān)管的（如果真的有），這些具有優(yōu)勢地位的主體可能也正在推進利潤、權(quán)力和主導(dǎo)地位的價值觀。而希望提出“好數(shù)據(jù)”[21]這個概念，作為一個更廣泛的概念，以闡明人工智能的開發(fā)和部署以及其他數(shù)字技術(shù)的價值觀和相關(guān)權(quán)益�！昂脭�(shù)據(jù)”應(yīng)具有四大支柱：社區(qū)、權(quán)利、可用性和政治，它們是公正的數(shù)字社會和經(jīng)濟的前沿�！昂脭�(shù)據(jù)”是一個更廣泛的概念，旨在涵蓋“倫理”之內(nèi)、外的實踐，以及圍繞數(shù)據(jù)產(chǎn)生的人權(quán)、環(huán)境和社會正義問題，這可能涉及到超越迄今為止對“人工智能倫理”的關(guān)注，以及對“人工智能法律”的關(guān)注，以解決“人工智能道德”的不足。這一觀點極具啟發(fā)性。或許在我們通常討論數(shù)據(jù)質(zhì)量之時，已經(jīng)輸入了“好的數(shù)據(jù)”之理念，這一原則與理念比具象意義上的數(shù)據(jù)質(zhì)量涵蓋更廣，也更能補足抽象的倫理要求的不足。故此，在人工智能倫理的基礎(chǔ)上，尤其是在訓(xùn)練數(shù)據(jù)制度建構(gòu)方面，“好的數(shù)據(jù)”原則亦應(yīng)成為人工智能治理中的一個重要切入視角與新范式。

五、結(jié)論

“科學(xué)—技術(shù)—社會—法律”的存在論情境，不斷給人們帶來跨越式發(fā)展，同時也帶來一系列難題�！爸悄苡楷F(xiàn)”作為人工智能時代可能相伴而生的一類新現(xiàn)象，如何認(rèn)識以及如何從不同維度的制度層面促成“涌現(xiàn)智能”，成為人們十分關(guān)注的問題。訓(xùn)練數(shù)據(jù)制度作為人工智能制度中的重要構(gòu)成之一，在“訓(xùn)練的數(shù)據(jù)”這一維度，應(yīng)遵循合法采集規(guī)則，但同時為了充分實現(xiàn)“質(zhì)—量—效”幾者的統(tǒng)一，應(yīng)盡可能在合法性框架之下擴大數(shù)據(jù)采集范圍，如此才能為可能的“智能涌現(xiàn)”奠定基礎(chǔ)。對于“數(shù)據(jù)的訓(xùn)練”這一維度，應(yīng)當(dāng)盡可能更好利用數(shù)據(jù)，通過價值嵌入和技術(shù)支撐，以實現(xiàn)訓(xùn)練目標(biāo)。從治理維度而言，在傳統(tǒng)的人工智能倫理準(zhǔn)則維度和范式之下，“好的數(shù)據(jù)”原則更以其涵蓋廣、可執(zhí)行性強而具有優(yōu)勢。在數(shù)據(jù)、算法、算力三個基本要素的協(xié)同支撐下，人工智能才得以更好發(fā)展。但同時也給我們留下諸多未竟難題，比如“智能涌現(xiàn)”是否是大模型的特征之一，或者說是否所有的更高級別的人工智能發(fā)展都需要“涌現(xiàn)”而提升人們的認(rèn)知；“好的數(shù)據(jù)”原則應(yīng)以何種標(biāo)準(zhǔn)予以構(gòu)造，凡此種種，都給我們留下更多討論空間。

作者：姚佳，中國社會科學(xué)院法學(xué)研究所編審，中國社會科學(xué)院大學(xué)教授，博士生導(dǎo)師。

來源：《貴州社會科學(xué)》2024年第2期。

亚洲综合图片20p,欧美一级黄片视频免费,天天干天天日天天干天天日天天日,亚洲av最新版本天堂在线,电影人妻和服诱惑之,日韩人妻一区二区三区不卡,97超碰大香蕉久久草,亚洲无码专区中文字幕专区,最近日韩av一区二区