ChatGPT火爆出圈后,國內(nèi)外各行業(yè)紛紛探索“AI+”等生成式人工智能產(chǎn)品,比如百度的“文心一言”、騰訊的“混元”AI大模型、華為的“盤古西里AI大模型”、微軟新版Bing&Edge。在此背景下,5月30日,北京市人民政府辦公廳印發(fā)《北京市促進(jìn)通用人工智能創(chuàng)新發(fā)展的若干措施(2023-2025年)》(以下簡稱《若干措施》),分別從算力、數(shù)據(jù)要素、技術(shù)體系、應(yīng)用場景創(chuàng)新、監(jiān)管模式等多個(gè)維度探索人工智能產(chǎn)業(yè)創(chuàng)新發(fā)展方向,進(jìn)一步發(fā)揮人工智能技術(shù)在數(shù)字市場中的引領(lǐng)和改革作用。
《若干措施》明確數(shù)據(jù)要素供給能力對人工智能產(chǎn)業(yè)發(fā)展的核心推動作用,聚焦通用人工智能發(fā)展,營造創(chuàng)新生態(tài),重視防范風(fēng)險(xiǎn),F(xiàn)階段,國內(nèi)人工智能產(chǎn)業(yè)發(fā)展面臨的最大障礙是數(shù)據(jù)資源不充分、不全面。在技術(shù)原理層面,生成式人工智能產(chǎn)品的功能迭代依賴質(zhì)量高、規(guī)模大、內(nèi)容全的數(shù)據(jù)集合,經(jīng)由數(shù)據(jù)清洗、歸并、去噪等環(huán)節(jié),輸入至預(yù)設(shè)的算法模型,以此不斷調(diào)整輸出端的可靠性與準(zhǔn)確性。
當(dāng)然,實(shí)際的技術(shù)處理過程遠(yuǎn)比這復(fù)雜得多。但毋庸置疑的是,人工智能產(chǎn)業(yè)的全球競賽在一定程度上也是高質(zhì)量數(shù)據(jù)資源的競爭。因此,《若干措施》直指產(chǎn)業(yè)創(chuàng)新痛點(diǎn),貼合國家數(shù)據(jù)要素市場化配置的戰(zhàn)略目標(biāo),分別從高質(zhì)量的訓(xùn)練數(shù)據(jù)集、國家級數(shù)據(jù)訓(xùn)練基地以及精細(xì)化標(biāo)注平臺三個(gè)方面明確提升數(shù)據(jù)要素供給能力。
人工智能產(chǎn)業(yè)需要滿足高質(zhì)量標(biāo)準(zhǔn)的訓(xùn)練數(shù)據(jù)集。《若干措施》將高質(zhì)量的基礎(chǔ)訓(xùn)練數(shù)據(jù)集歸納為三類表現(xiàn)形式,即合法性、多元性和效用性。所謂的合法性,是指訓(xùn)練數(shù)據(jù)集的來源合法、處理方式合法。這是因?yàn)樵趯?shí)踐中存在部分?jǐn)?shù)據(jù)處理者為了加速算法模型迭代升級速度,以非法方式獲取包含個(gè)人信息的訓(xùn)練數(shù)據(jù)集或者違法抓取第三方數(shù)據(jù),這顯然與我國數(shù)據(jù)安全法所要求的數(shù)據(jù)處理者收集數(shù)據(jù)應(yīng)當(dāng)以“合法、正當(dāng)?shù)姆绞健毕嚆。同時(shí),《若干措施》多次提及“合規(guī)安全”等表述,也是為了貫徹落實(shí)數(shù)據(jù)安全法的立法要求,即“保障數(shù)據(jù)安全,促進(jìn)數(shù)據(jù)開發(fā)利用”。所謂的多元性,是指訓(xùn)練數(shù)據(jù)集應(yīng)當(dāng)盡可能來自不同渠道,不同行業(yè)、不同領(lǐng)域的數(shù)據(jù)資源聚合往往可以產(chǎn)生更高的經(jīng)濟(jì)效益,也有助于更高效地提升算法模型的迭代升級速度。為此,《若干措施》強(qiáng)調(diào),以有條件的社會數(shù)據(jù)開放形式兼顧數(shù)據(jù)來源合法性與數(shù)據(jù)高質(zhì)量運(yùn)用。所謂的效用性,是指訓(xùn)練數(shù)據(jù)集應(yīng)當(dāng)能夠直接投入算法模型迭代優(yōu)化的處理流程,提升數(shù)據(jù)處理效率?陀^而言,以中文語料為主的訓(xùn)練數(shù)據(jù)集往往需要經(jīng)過更為煩瑣的數(shù)據(jù)加工處理流程才能投入使用,這并不利于人工智能產(chǎn)業(yè)創(chuàng)新速度的提升,故而《若干措施》也提出“清洗中文預(yù)訓(xùn)練數(shù)據(jù),形成安全合規(guī)的開放基礎(chǔ)訓(xùn)練數(shù)據(jù)集”等發(fā)展策略。
人工智能產(chǎn)業(yè)需要規(guī);臄(shù)據(jù)資源優(yōu)勢。《若干措施》提出“加快建設(shè)數(shù)據(jù)基礎(chǔ)制度先行先試示范區(qū)”有助于打破目前社會數(shù)據(jù)資源跨行業(yè)傳輸不充分、規(guī)模效益難以實(shí)現(xiàn)的產(chǎn)業(yè)僵局。盡管我國已發(fā)布了《中共中央 國務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》(以下簡稱“數(shù)據(jù)二十條”)等文件,但距離真正實(shí)現(xiàn)數(shù)據(jù)要素的高效市場化配置仍有一段路要走。大部分?jǐn)?shù)據(jù)持有者為了避免承擔(dān)數(shù)據(jù)安全法律責(zé)任、鞏固自身數(shù)據(jù)資源市場競爭優(yōu)勢等,普遍缺乏跨行業(yè)開發(fā)利用數(shù)據(jù)資源的積極性,這導(dǎo)致行業(yè)數(shù)據(jù)遲遲未能充分發(fā)揮潛在的經(jīng)濟(jì)價(jià)值。此外,以ChatGPT為代表的生成式人工智能產(chǎn)品研發(fā)成功離不開規(guī);瘮(shù)據(jù)資源的支持,而這種規(guī);⒉粏渭兪侵负唵蔚臄(shù)量龐大,還包括種類龐大,即需要整合國家層面的高質(zhì)量數(shù)據(jù)進(jìn)行算法模型訓(xùn)練。加快建設(shè)數(shù)據(jù)基礎(chǔ)制度先行先試示范區(qū)的現(xiàn)實(shí)意義便是盡可能為符合安全標(biāo)準(zhǔn)的企業(yè)或科研機(jī)構(gòu)提供單個(gè)市場主體無法獲取的訓(xùn)練數(shù)據(jù)集,這恰恰也是“數(shù)據(jù)二十條”中“建立合規(guī)高效、場內(nèi)外結(jié)合的數(shù)據(jù)要素流通和交易制度”的具體實(shí)現(xiàn)路徑。值得注意的是,為了解決過去數(shù)據(jù)交易中心營利模式單一、數(shù)據(jù)交易單一等局限性,《若干措施》還鼓勵(lì)開展內(nèi)容信息服務(wù)的互聯(lián)網(wǎng)平臺提供高質(zhì)量語料數(shù)據(jù),供創(chuàng)新主體申請使用。探索基于數(shù)據(jù)貢獻(xiàn)、模型應(yīng)用的商業(yè)化場景合作。
人工智能產(chǎn)業(yè)需要精細(xì)化標(biāo)準(zhǔn)服務(wù)支撐。數(shù)據(jù)標(biāo)注是人工智能算法優(yōu)化的核心業(yè)務(wù)流程,其原理是通過人為地標(biāo)注文本、圖像、視頻、聲音等數(shù)據(jù)的特征,以便讓計(jì)算機(jī)能夠理解不同數(shù)據(jù)的性質(zhì)、作用與真?zhèn)危M(jìn)而達(dá)成自主識別數(shù)據(jù)的目標(biāo)。換言之,人工智能產(chǎn)業(yè)創(chuàng)新不僅僅是算法模型等技術(shù)要素的創(chuàng)新,同時(shí)也包括數(shù)據(jù)標(biāo)注的質(zhì)量提升。不同的服務(wù)提供者往往采用符合自身業(yè)務(wù)特征的數(shù)據(jù)標(biāo)注體系,但伴隨著越來越精確的數(shù)據(jù)標(biāo)注需求,僅憑研發(fā)企業(yè)自身難以有效支撐其業(yè)務(wù)發(fā)展需求,故而《若干措施》有的放矢地提出“精細(xì)化標(biāo)注眾包服務(wù)平臺”。這里的眾包服務(wù)可以理解為服務(wù)提供者把數(shù)據(jù)標(biāo)注任務(wù)有償?shù)剡M(jìn)行分包,好處是能夠由不同行業(yè)的工作者對本行業(yè)數(shù)據(jù)設(shè)置更精確的標(biāo)準(zhǔn),有利于降低企業(yè)運(yùn)營的經(jīng)濟(jì)成本。更重要的是,精細(xì)化的數(shù)據(jù)標(biāo)準(zhǔn)結(jié)果能夠提升人工智能輸出端的準(zhǔn)確性。當(dāng)然,如果僅僅按照現(xiàn)有的數(shù)據(jù)標(biāo)注服務(wù)模式遠(yuǎn)遠(yuǎn)不足以支撐我國人工智能產(chǎn)業(yè)走得更遠(yuǎn),而是需要更長久、更直接的經(jīng)濟(jì)激勵(lì)機(jī)制確保標(biāo)注工作者能夠勤勉認(rèn)真地完成高質(zhì)量的數(shù)據(jù)標(biāo)準(zhǔn)工作,比如對于貢獻(xiàn)者適當(dāng)獎(jiǎng)勵(lì)顯得尤為必要。
《若干措施》切實(shí)抓住了人工智能技術(shù)創(chuàng)新的三大關(guān)鍵要素,即數(shù)據(jù)、算力和算法。過去的產(chǎn)業(yè)政策中,大多是針對訓(xùn)練數(shù)據(jù)的規(guī)模、類型、內(nèi)容提出具體要求,此次北京市選擇了更具操作性的政策實(shí)施方案,細(xì)化了訓(xùn)練數(shù)據(jù)高質(zhì)量保障、規(guī);垡约皵(shù)據(jù)標(biāo)注質(zhì)量提升三個(gè)具體目標(biāo)的實(shí)施步驟,這對完善數(shù)字時(shí)代人工智能產(chǎn)業(yè)發(fā)展的短板具有重要意義,對于我國搶占人工智能技術(shù)國際競爭高地將起到提速增效的重要作用。
。ㄗ髡邌挝唬罕本┖娇蘸教齑髮W(xué))
