構(gòu)建數(shù)據(jù)標(biāo)注新生態(tài) 推進(jìn)高質(zhì)量數(shù)據(jù)集建設(shè)
文 | 清華大學(xué)數(shù)字政府與治理研究院 孟天廣
隨著人工智能技術(shù)快速發(fā)展,高質(zhì)量數(shù)據(jù)集已成為推動生成式人工智能創(chuàng)新發(fā)展的核心稀缺要素。2017年國務(wù)院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》首次在國家層面確立人工智能發(fā)展戰(zhàn)略地位,明確提出“構(gòu)筑我國人工智能發(fā)展的數(shù)據(jù)先發(fā)優(yōu)勢”。2024年《關(guān)于促進(jìn)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展的實施意見》則系統(tǒng)規(guī)劃了數(shù)據(jù)標(biāo)注領(lǐng)域的技術(shù)創(chuàng)新、標(biāo)準(zhǔn)建設(shè)和人才培養(yǎng)等發(fā)展路徑。數(shù)據(jù)標(biāo)注作為將原始數(shù)據(jù)轉(zhuǎn)化為可識別、可訓(xùn)練、可計算的關(guān)鍵環(huán)節(jié),其質(zhì)量直接決定了數(shù)據(jù)集的應(yīng)用價值?!吨泄仓醒?國務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》構(gòu)建了從數(shù)據(jù)確權(quán)到價值釋放的制度框架,為高質(zhì)量數(shù)據(jù)集建設(shè)提供制度保障。在人工智能創(chuàng)新發(fā)展進(jìn)程中,高質(zhì)量數(shù)據(jù)集的關(guān)鍵性日益凸顯。國家數(shù)據(jù)局實施《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》,為數(shù)據(jù)要素價值釋放拓寬了應(yīng)用場景,進(jìn)而通過數(shù)據(jù)標(biāo)注基地建設(shè)、行業(yè)數(shù)據(jù)集開發(fā)應(yīng)用、數(shù)據(jù)標(biāo)準(zhǔn)制定與安全保障等多項舉措加快推進(jìn)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展,構(gòu)建高效、智能、包容的數(shù)據(jù)標(biāo)注新生態(tài),為高質(zhì)量數(shù)據(jù)集建設(shè)提供堅實支撐。
01
數(shù)據(jù)標(biāo)注釋放數(shù)據(jù)要素價值
2021年12月,國務(wù)院印發(fā)《“十四五”數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》,強(qiáng)調(diào)數(shù)據(jù)要素的作用,提出“提升數(shù)據(jù)資源處理能力”和“培育壯大數(shù)據(jù)服務(wù)產(chǎn)業(yè)”?!?/span>“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》圍繞多領(lǐng)域融合應(yīng)用,以技術(shù)賦能優(yōu)化數(shù)據(jù)深度加工,以場景驅(qū)動數(shù)據(jù)要素流通,共同推動數(shù)據(jù)要素市場化配置改革,為數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展奠定基礎(chǔ)。數(shù)據(jù)作為新型生產(chǎn)要素,具有無形性、非消耗性和價值不確定性等特質(zhì),其價值實現(xiàn)高度依賴場景化應(yīng)用。原始數(shù)據(jù)往往呈現(xiàn)無序狀態(tài),譬如噪音數(shù)據(jù)比例高導(dǎo)致價值密度低、多來源數(shù)據(jù)存在異構(gòu)難題、多模態(tài)數(shù)據(jù)未能得到有效挖掘等,由此難以直接用于數(shù)據(jù)挖掘和模型訓(xùn)練。這種特性決定了數(shù)據(jù)必須經(jīng)過標(biāo)準(zhǔn)化、結(jié)構(gòu)化和場景化處理,才能轉(zhuǎn)化為高質(zhì)量數(shù)據(jù)要素。數(shù)據(jù)標(biāo)注正是實現(xiàn)這一轉(zhuǎn)化的關(guān)鍵環(huán)節(jié),通過特征提?。ㄈ鐚嶓w識別)、分類(如圖像分割)、注釋(如語義標(biāo)注)、標(biāo)簽化(如情感分類)等操作,將原始數(shù)據(jù)轉(zhuǎn)化為機(jī)器可識別、可訓(xùn)練、可計算的結(jié)構(gòu)化數(shù)據(jù)。
數(shù)據(jù)轉(zhuǎn)換為生產(chǎn)要素需要加工成本與匹配成本的持續(xù)投入。在加工成本方面,數(shù)據(jù)要素的低價值密度和高異構(gòu)化特征決定了必須投入大量資源進(jìn)行收集、整理、清洗和標(biāo)注等操作,以提升數(shù)據(jù)的有序化程度。在匹配成本方面,數(shù)據(jù)要素的高度場景化特征使其難以成為標(biāo)準(zhǔn)化產(chǎn)品。與土地、勞動等傳統(tǒng)生產(chǎn)要素不同,數(shù)據(jù)要素價值具有顯著的場景依賴性,同一數(shù)據(jù)在不同應(yīng)用場景下可能產(chǎn)生完全不同的效用。數(shù)據(jù)需求方往往需要構(gòu)建場景適配評估模型來尋找合適的供給方,產(chǎn)生額外的搜索與試錯成本。
數(shù)據(jù)要素的這些特性使得數(shù)據(jù)標(biāo)注成為數(shù)據(jù)價值釋放的必要前提。數(shù)據(jù)標(biāo)注過程將原始數(shù)據(jù)轉(zhuǎn)化為機(jī)器可理解的標(biāo)準(zhǔn)化格式,通過分類、標(biāo)記等操作建立統(tǒng)一的數(shù)據(jù)語義框架,使不同來源的數(shù)據(jù)能夠在相同維度進(jìn)行比較和匹配。標(biāo)注規(guī)則的確立為數(shù)據(jù)質(zhì)量評估提供了客觀標(biāo)準(zhǔn),標(biāo)注結(jié)果的準(zhǔn)確率、一致性等量化指標(biāo)可直接作為價值評估依據(jù),減少交易雙方在質(zhì)量驗證上的資源消耗。更重要的是,專業(yè)化的數(shù)據(jù)標(biāo)注能夠針對特定應(yīng)用場景進(jìn)行定制化處理,通過行業(yè)專識標(biāo)注或場景化標(biāo)簽體系,使數(shù)據(jù)與需求場景形成精準(zhǔn)映射,有效解決數(shù)據(jù)要素的場景適配性問題。這種基于標(biāo)注的標(biāo)準(zhǔn)化和場景化改造,使原本難以匹配的非標(biāo)數(shù)據(jù)轉(zhuǎn)化為可流通的數(shù)據(jù)產(chǎn)品,正是構(gòu)建高質(zhì)量數(shù)據(jù)集的關(guān)鍵路徑。
02
人工智能驅(qū)動數(shù)據(jù)標(biāo)注模式轉(zhuǎn)型
高質(zhì)量數(shù)據(jù)集的核心價值在于其能夠精準(zhǔn)匹配模型訓(xùn)練需求,而這一目標(biāo)的實現(xiàn)高度依賴于數(shù)據(jù)標(biāo)注的專業(yè)化。人工智能模型性能的提升與標(biāo)注數(shù)據(jù)質(zhì)量呈現(xiàn)強(qiáng)正相關(guān)性,這種依賴關(guān)系隨著模型復(fù)雜度的增加而愈發(fā)顯著。數(shù)據(jù)標(biāo)注質(zhì)量與模型性能之間存在非線性傳導(dǎo)機(jī)制,細(xì)微的標(biāo)注偏差通過模型訓(xùn)練過程中的誤差累積效應(yīng),可能導(dǎo)致輸出結(jié)果的顯著偏移。
人工智能發(fā)展對標(biāo)注工作的新要求,本質(zhì)上是對高質(zhì)量數(shù)據(jù)集建設(shè)標(biāo)準(zhǔn)的提升。數(shù)據(jù)集的質(zhì)量不僅體現(xiàn)在基礎(chǔ)標(biāo)注的準(zhǔn)確性,更需要適應(yīng)技術(shù)演進(jìn)的前瞻性設(shè)計。當(dāng)前人工智能的快速迭代推動數(shù)據(jù)標(biāo)注需求的結(jié)構(gòu)性升級:首先是應(yīng)用場景的多元化,從通用領(lǐng)域向醫(yī)療、金融等專業(yè)領(lǐng)域延伸,要求標(biāo)注工作具備跨行業(yè)的專業(yè)知識整合能力;其次是數(shù)據(jù)類型的復(fù)雜化,多模態(tài)數(shù)據(jù)的融合應(yīng)用需要建立標(biāo)準(zhǔn)化的協(xié)同標(biāo)注機(jī)制;最后是性能要求的精細(xì)化,模型調(diào)優(yōu)需要多維度的細(xì)粒度標(biāo)注來支撐。這些發(fā)展趨勢使得傳統(tǒng)標(biāo)注方式在效率、精度和一致性等方面都面臨系統(tǒng)性挑戰(zhàn),亟需建立更加體系化、專業(yè)化的標(biāo)注生態(tài)體系。
當(dāng)前數(shù)據(jù)標(biāo)注產(chǎn)業(yè)正處于轉(zhuǎn)型升級的關(guān)鍵時期,呈現(xiàn)出高技術(shù)含量、高知識密度、高價值應(yīng)用協(xié)同發(fā)展的新特征,這一轉(zhuǎn)型發(fā)展主要受到國家戰(zhàn)略布局和大模型技術(shù)突破的雙重驅(qū)動。從政策層面來看,《關(guān)于促進(jìn)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展的實施意見》等政策文件將數(shù)據(jù)標(biāo)注納入國家數(shù)據(jù)要素市場建設(shè)體系,明確提出要構(gòu)建覆蓋技術(shù)創(chuàng)新、標(biāo)準(zhǔn)制定、人才培養(yǎng)的產(chǎn)業(yè)生態(tài),為產(chǎn)業(yè)發(fā)展提供了頂層設(shè)計。與此同時,以DeepSeek、通義千問等為代表的大模型技術(shù)的快速發(fā)展對數(shù)據(jù)標(biāo)注提出了高階要求:監(jiān)督微調(diào)階段要求指令數(shù)據(jù)的精準(zhǔn)標(biāo)注,強(qiáng)化學(xué)習(xí)階段依賴人類偏好反饋的復(fù)雜標(biāo)注機(jī)制。這些技術(shù)需求都推動著數(shù)據(jù)標(biāo)注產(chǎn)業(yè)必須向工程化、標(biāo)準(zhǔn)化、體系化發(fā)展。
03
數(shù)據(jù)標(biāo)注產(chǎn)業(yè)轉(zhuǎn)型升級路徑
在國家戰(zhàn)略布局和大模型技術(shù)突破的雙重驅(qū)動下,數(shù)據(jù)標(biāo)注產(chǎn)業(yè)正在經(jīng)歷從勞動密集型向知識密集型的深刻轉(zhuǎn)型。這一轉(zhuǎn)型過程呈現(xiàn)出高技術(shù)含量、高知識密度特征:首先,標(biāo)注工具從簡單的人工操作向智能化輔助標(biāo)注平臺轉(zhuǎn)變,預(yù)訓(xùn)練模型的應(yīng)用顯著提升了基礎(chǔ)標(biāo)注效率;其次,質(zhì)量控制從人工抽檢向動態(tài)評估體系轉(zhuǎn)變,通過數(shù)據(jù)質(zhì)量看板實現(xiàn)全流程監(jiān)測;最后,數(shù)據(jù)處理從單一模態(tài)向多模態(tài)協(xié)同標(biāo)注轉(zhuǎn)變,以滿足復(fù)雜場景下的數(shù)據(jù)融合需求。這種產(chǎn)業(yè)生態(tài)的重構(gòu)為標(biāo)注產(chǎn)業(yè)邁向高質(zhì)量發(fā)展奠定了基礎(chǔ),但轉(zhuǎn)型過程中的系統(tǒng)性挑戰(zhàn)也日益凸顯。例如在市場競爭中,部分企業(yè)缺乏核心技術(shù)競爭力,陷入同質(zhì)化價格戰(zhàn)的惡性循環(huán);在業(yè)務(wù)模式上,眾包標(biāo)注模式雖降低成本,卻導(dǎo)致標(biāo)注質(zhì)量不穩(wěn)定、人員流動性大等問題。
破解種種挑戰(zhàn)的關(guān)鍵在于把握智能化與專業(yè)化協(xié)同發(fā)展的內(nèi)在規(guī)律。數(shù)據(jù)標(biāo)注產(chǎn)業(yè)智能化聚焦技術(shù)層面的革新,旨在通過關(guān)鍵技術(shù)攻關(guān)和工具研發(fā),提升數(shù)據(jù)標(biāo)注的效率與精準(zhǔn)度。數(shù)據(jù)標(biāo)注產(chǎn)業(yè)專業(yè)化側(cè)重于產(chǎn)業(yè)整體的規(guī)范與深度發(fā)展,包括建立標(biāo)準(zhǔn)體系、培育專業(yè)主體、打造創(chuàng)新載體等,以提高產(chǎn)業(yè)的專業(yè)水準(zhǔn)和競爭力?;谥悄芑c專業(yè)化協(xié)同發(fā)展的邏輯,未來數(shù)據(jù)標(biāo)注產(chǎn)業(yè)需聚焦三個關(guān)鍵方向。在技術(shù)創(chuàng)新方面,大模型驅(qū)動的自動化標(biāo)注技術(shù)大幅提升了基礎(chǔ)標(biāo)注效率,使人工資源可集中投入復(fù)雜場景的質(zhì)量把控,產(chǎn)業(yè)主體要持續(xù)優(yōu)化標(biāo)注工具、系統(tǒng)和算法,重點突破智能標(biāo)注、多模態(tài)數(shù)據(jù)處理、自動化質(zhì)檢等關(guān)鍵技術(shù)。在生態(tài)建設(shè)方面,數(shù)據(jù)標(biāo)注企業(yè)要融入政產(chǎn)學(xué)研用協(xié)同創(chuàng)新體系,通過行業(yè)高質(zhì)量數(shù)據(jù)集共建強(qiáng)化定制化服務(wù)能力,開發(fā)針對不同行業(yè)的專業(yè)標(biāo)注解決方案,參與國家數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)體系建設(shè)。在人才體系建設(shè)方面,要建立數(shù)據(jù)標(biāo)注師職業(yè)資格認(rèn)證制度,形成“院校培養(yǎng)-企業(yè)實訓(xùn)-專項認(rèn)證”的三級培養(yǎng)體系,為從業(yè)人員提供清晰立體的職業(yè)發(fā)展通道。
通過數(shù)據(jù)要素市場化配置改革與產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的雙輪驅(qū)動,數(shù)據(jù)標(biāo)注產(chǎn)業(yè)將構(gòu)建起技術(shù)驅(qū)動、生態(tài)協(xié)同、人才支撐的新發(fā)展格局。這種新型產(chǎn)業(yè)生態(tài)不僅推動數(shù)據(jù)標(biāo)注服務(wù)深度融入數(shù)字經(jīng)濟(jì)發(fā)展大局,更將通過國家級標(biāo)注基地建設(shè)筑牢高質(zhì)量數(shù)據(jù)集的發(fā)展根基,為人工智能技術(shù)突破和行業(yè)智能化應(yīng)用提供持續(xù)動力。
(來源:國家數(shù)據(jù)局網(wǎng)站)