九九国产中文字幕_在线国内精品自线视频_国产最新看片在线_久碰免费视频在线观看

信息網(wǎng)_資訊網(wǎng)

經(jīng)典美文聯(lián)系我們

周口信息網(wǎng) > 熱點信息 > 正文

數(shù)據(jù)標注產(chǎn)業(yè)及法律風(fēng)險防范

網(wǎng)絡(luò)整理 2024-05-27

(原標題:數(shù)據(jù)標注產(chǎn)業(yè)及法律風(fēng)險防范)

數(shù)據(jù)是人工智能大模型的基礎(chǔ)。經(jīng)過海量、高質(zhì)量數(shù)據(jù)不斷訓(xùn)練調(diào)整能提高大模型準確性和效率。大模型訓(xùn)練需要通過如數(shù)據(jù)挖掘、網(wǎng)絡(luò)爬蟲、數(shù)據(jù)共享、數(shù)據(jù)開放、合法交易等方式獲取數(shù)據(jù),通過數(shù)據(jù)清洗、去重、格式化和人工標注等方式對數(shù)據(jù)進行處理。一般認為,訓(xùn)練數(shù)據(jù)生產(chǎn)過程,主要包括訓(xùn)練數(shù)據(jù)集結(jié)構(gòu)設(shè)計、原料數(shù)據(jù)采集獲取、數(shù)據(jù)加工標注、數(shù)據(jù)質(zhì)量檢測等環(huán)節(jié)。

近年來,我國數(shù)據(jù)標注市場發(fā)展迅速。據(jù)華經(jīng)產(chǎn)業(yè)研究院統(tǒng)計,2021我國人工智能數(shù)據(jù)標注市場中,計算機視覺類、智能語音類和NLP(Natural Language Processing,縮寫 NLP,自然語言處理)類需求占比分別為45.3%、40.5%和14.2%;2021年我國數(shù)據(jù)標注行業(yè)市場規(guī)模達到43.3億元,同比增長約19.2%,預(yù)計到2029年市場規(guī)模將達到204.3億元。

一、數(shù)據(jù)標注

一般認為,數(shù)據(jù)標注是對未經(jīng)處理過的語音、圖片、文本、視頻等數(shù)據(jù)進行加工處理,從而轉(zhuǎn)變成機器可識別信息的過程。數(shù)據(jù)標注的類型包括圖像標注、語音標注、文本標注、視頻標注等,例如對文本進行分詞、詞性標注和實體識別,對圖像進行目標檢測和分割。通過數(shù)據(jù)標注將需要機器識別和分辨的數(shù)據(jù)打上標簽,然后讓計算機不斷地學(xué)習(xí)這些數(shù)據(jù)的特征,最終實現(xiàn)計算機能夠自主識別。

數(shù)據(jù)標注對人工智能大模型具有重要意義,可以說是人工智能大模型得以有效運行的關(guān)鍵環(huán)節(jié)之一。具體而言,數(shù)據(jù)標注可以帶來以下幾方面的意義。

一是提高機器學(xué)習(xí)算法的準確度,標注數(shù)據(jù)可以使機器學(xué)習(xí)算法更加準確地學(xué)習(xí)和預(yù)測。對于圖像分類任務(wù),有標注的圖像可以讓算法更好地識別圖像中的物體和場景,從而提高準確率。

二是加速算法的訓(xùn)練過程。標注數(shù)據(jù)可以使機器學(xué)習(xí)算法更快地學(xué)習(xí)和訓(xùn)練,從而減少算法的訓(xùn)練時間和成本,標注數(shù)據(jù)廣泛應(yīng)用促進了機器學(xué)習(xí)技術(shù)的發(fā)展。

三是促進機器學(xué)習(xí)技術(shù)應(yīng)用能力。有了標注的數(shù)據(jù)人們可以更好地利用機器學(xué)習(xí)技術(shù)來解決實際問題,如自然語言處理、計算機視覺、推薦系統(tǒng)等。總之,數(shù)據(jù)標注是機器學(xué)習(xí)領(lǐng)域中非常重要的一個環(huán)節(jié)。

二、數(shù)據(jù)標注與數(shù)據(jù)治理

根據(jù)數(shù)據(jù)管理能力成熟度評估模型(GB/T 36073-2018)規(guī)定,數(shù)據(jù)治理(data governance)是對數(shù)據(jù)進行處置、格式化和規(guī)范化的過程。數(shù)據(jù)治理是數(shù)據(jù)和數(shù)據(jù)系統(tǒng)管理的基本要素。數(shù)據(jù)治理涉及數(shù)據(jù)全生存周期管理,無論數(shù)據(jù)是處于靜態(tài)、動態(tài)、未完成狀態(tài)還是交易狀態(tài)。

數(shù)據(jù)標注和數(shù)據(jù)治理是兩個不同的概念。數(shù)據(jù)治理是指對數(shù)據(jù)的收集、處理、分析和存儲等數(shù)據(jù)活動統(tǒng)一管理,以確保數(shù)據(jù)質(zhì)量和安全性、可靠性使之規(guī)范化。數(shù)據(jù)治理的目標是促進數(shù)據(jù)的有序、高效和合規(guī)使用,從而推動業(yè)務(wù)決策和業(yè)務(wù)發(fā)展。數(shù)據(jù)標注是對原始數(shù)據(jù)進行分類、標注、注釋等處理,以作為機器學(xué)習(xí)或人工智能模型的訓(xùn)練素材的過程。數(shù)據(jù)標注的目的是提高機器學(xué)習(xí)模型的準確性和泛化能力,使得模型能夠更好地適應(yīng)實際業(yè)務(wù)場景。

數(shù)據(jù)標注和數(shù)據(jù)治理是相互關(guān)聯(lián)的。數(shù)據(jù)治理可以確保數(shù)據(jù)的質(zhì)量和可靠性,為數(shù)據(jù)標注提供高質(zhì)量的原始數(shù)據(jù)。同時,數(shù)據(jù)標注的結(jié)果也可以為數(shù)據(jù)治理提供更好的反饋和指導(dǎo),使得數(shù)據(jù)治理更加精準和有效。

三、數(shù)據(jù)標注與數(shù)據(jù)標準

根據(jù)數(shù)據(jù)管理能力成熟度評估模型(GB/T 36073-2018)規(guī)定,數(shù)據(jù)標準(Data Standard)是指數(shù)據(jù)的命名、定義、結(jié)構(gòu)和取值的規(guī)則。數(shù)據(jù)標注是數(shù)據(jù)標準制定和實施的重要環(huán)節(jié)。數(shù)據(jù)標準是為保障數(shù)據(jù)定義和使用的一致性、準確性和完整性的規(guī)范性約束。對于企業(yè)而言,數(shù)據(jù)標準是保障數(shù)據(jù)內(nèi)外部使用和交換一致性和準確性的規(guī)范性約束,有利于打通數(shù)據(jù)底層的互通性,提升數(shù)據(jù)的可用性,從而降低數(shù)據(jù)管理成本。

數(shù)據(jù)標準可以包括數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)內(nèi)容來源、技術(shù)業(yè)務(wù)等方面的標準。數(shù)據(jù)標準的制定和發(fā)布需要結(jié)合實際業(yè)務(wù)需求,通過各種管理活動,推動數(shù)據(jù)的標準化管理,從而保障數(shù)據(jù)的完整性、一致性、規(guī)范性。數(shù)據(jù)標準的管理目標是通過統(tǒng)一的數(shù)據(jù)標準制定和發(fā)布,結(jié)合完善的數(shù)據(jù)標準管理體系,實現(xiàn)數(shù)據(jù)的標準化管理,為后續(xù)的數(shù)據(jù)管理提供標準依據(jù)。

數(shù)據(jù)標注是對數(shù)據(jù)進行分類、畫框、標注、注釋等處理,以作為機器學(xué)習(xí)基礎(chǔ)素材的過程。由于數(shù)據(jù)標注的質(zhì)量直接關(guān)系到機器的智能程度,因此數(shù)據(jù)標注需要按照嚴格的質(zhì)量標準進行。數(shù)據(jù)標注流程包括數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標注、數(shù)據(jù)質(zhì)檢等環(huán)節(jié)。其中,數(shù)據(jù)采集和清洗是準備階段,數(shù)據(jù)標注是核心環(huán)節(jié),而數(shù)據(jù)質(zhì)檢則是對標注數(shù)據(jù)的檢驗和評估。從具體體現(xiàn)來看,數(shù)據(jù)標準則是一套經(jīng)過定義、解釋、使用和修訂的標準化技術(shù)和過程,用于處理數(shù)據(jù)的采集、表示、交換、分析和管理等方面。

因此,數(shù)據(jù)標注和數(shù)據(jù)標準是相互關(guān)聯(lián)的,數(shù)據(jù)標注是數(shù)據(jù)標準化的具體實施過程,而數(shù)據(jù)標準則是數(shù)據(jù)標注的規(guī)范和依據(jù)。通過數(shù)據(jù)標注和數(shù)據(jù)標準化的結(jié)合,可以進一步提高機器學(xué)習(xí)和人工智能應(yīng)用的效果和可靠性。

四、數(shù)據(jù)標注相關(guān)規(guī)范

數(shù)據(jù)標注需要遵守包括《中華人民共和國網(wǎng)絡(luò)安全法》、《中華人民共和國數(shù)據(jù)安全法》和《中華人民共和國個人信息保護法》等數(shù)據(jù)信息相關(guān)基本法律法規(guī)。

國家網(wǎng)信辦、國家發(fā)展改革委、教育部、科技部、工信部、公安部、國家廣電總局等七部委發(fā)布的于2023年8月15日正式生效的《生成式人工智能服務(wù)管理暫行辦法》第八條專門對數(shù)據(jù)標注作出規(guī)定,要求在生成式人工智能技術(shù)研發(fā)過程中進行數(shù)據(jù)標注的,提供者應(yīng)當(dāng)制定符合本辦法要求的清晰、具體、可操作的標注規(guī)則;開展數(shù)據(jù)標注質(zhì)量評估,抽樣核驗標注內(nèi)容的準確性;對標注人員進行必要培訓(xùn),提升尊法守法意識,監(jiān)督指導(dǎo)標注人員規(guī)范開展標注工作。

根據(jù)人力資源社會保障部會同國家市場監(jiān)督管理總局、國家統(tǒng)計局以2015年版《中華人民共和國職業(yè)分類大典》為基礎(chǔ)的修訂版本《中華人民共和國職業(yè)分類大典(2022年版)》,人工智能訓(xùn)練師正式成為新職業(yè)并納入國家職業(yè)分類目錄。,人工智能訓(xùn)練師主要工作任務(wù)包括標注和加工圖片、文字、語音等業(yè)務(wù)的原始數(shù)據(jù);分析提煉專業(yè)領(lǐng)域特征,訓(xùn)練和評測人工智能產(chǎn)品相關(guān)算法、功能和性能;設(shè)計人工智能產(chǎn)品的交互流程和應(yīng)用解決方案;監(jiān)控、分析、管理人工智能產(chǎn)品應(yīng)用數(shù)據(jù);調(diào)整、優(yōu)化人工智能產(chǎn)品參數(shù)和配置等。

人工智能 面向機器學(xué)習(xí)的數(shù)據(jù)標注規(guī)程(GB/T 42755-2023)是一個推薦性國家標準,將于2023年12月1日起實施,是人工智能中面向機器學(xué)習(xí)的數(shù)據(jù)標注規(guī)程是一套指導(dǎo)和規(guī)范數(shù)據(jù)標注過程的標準和規(guī)則,規(guī)定了數(shù)據(jù)標注操作流程,并對標注任務(wù)、標注人員、標注環(huán)境;過程控制、質(zhì)量保證、管理機制;內(nèi)部質(zhì)檢、數(shù)據(jù)交付、后期維護等問題作出了規(guī)定,以確保數(shù)據(jù)標注的一致性和準確性,為機器學(xué)習(xí)算法提供高質(zhì)量的訓(xùn)練數(shù)據(jù)。

一些地方標準也值得參考和借鑒。2022年6月,山西省市場監(jiān)督管理局發(fā)布《人工智能 數(shù)據(jù)標注總體框架》《人工智能 數(shù)據(jù)標注一般技術(shù)要求》《人工智能 數(shù)據(jù)標注通用工作規(guī)程》等3項人工智能數(shù)據(jù)標注領(lǐng)域省級地方標準。

《人工智能 數(shù)據(jù)標注總體框架》提供了人工智能機器學(xué)習(xí)中數(shù)據(jù)標注生產(chǎn)的生產(chǎn)流程和生產(chǎn)內(nèi)容的建議,明確數(shù)據(jù)標注的地位和產(chǎn)業(yè)概念。《人工智能 數(shù)據(jù)標注通用工作規(guī)程》規(guī)定了人工智能機器學(xué)習(xí)中數(shù)據(jù)標注生產(chǎn)所需要的通用工作要求,包括原則、流程、規(guī)劃等?!度斯ぶ悄?數(shù)據(jù)標注一般技術(shù)要求》規(guī)定了人工智能機器學(xué)習(xí)中數(shù)據(jù)標注通用技術(shù)要求的術(shù)語和定義、通用技術(shù)分類和通用技術(shù)要求。

2023年6月,中國信息通信研究院牽頭,二十余家相關(guān)行業(yè)重點企業(yè)包括聯(lián)通數(shù)科、數(shù)據(jù)堂、海天瑞聲、Testin云測、整數(shù)智能、??低?、美的集團等頭部標注企業(yè)、AI科技企業(yè)和大型行業(yè)企業(yè),聯(lián)合編制了《人工智能數(shù)據(jù)標注平臺技術(shù)要求和測試方法》標準,該標準也同步在三大國際標準組織之一國際電信聯(lián)盟(ITU-T)進行了立項和文稿討論。標準針對數(shù)據(jù)標注平臺的各個關(guān)鍵環(huán)節(jié)給出了規(guī)范性約束和參考性建議,目前該標準團標已定稿。

除此以外,還有一系列與數(shù)據(jù)標注相關(guān)的國家標準。如《信息技術(shù) 大數(shù)據(jù) 數(shù)據(jù)資源規(guī)劃》(GB/T 42450-2023),數(shù)據(jù)資源規(guī)劃(Data Resource Planning,簡稱DRP)是一種信息技術(shù)(IT)規(guī)劃和戰(zhàn)略,旨在確保組織能夠有效地管理其數(shù)據(jù)資源,以滿足業(yè)務(wù)需求并確保數(shù)據(jù)安全和隱私保護。

《數(shù)據(jù)質(zhì)量 第8部分:信息和數(shù)據(jù)質(zhì)量:概念和測量》(GB/T 42381.8-2023)是一項國家標準,它規(guī)定了信息和數(shù)據(jù)質(zhì)量的概念和測量方法。該標準由TC159(全國自動化系統(tǒng)與集成標準化技術(shù)委員會)歸口,TC159SC4(全國自動化系統(tǒng)與集成標準化技術(shù)委員會工業(yè)數(shù)據(jù)分會)執(zhí)行,主管部門為中國機械工業(yè)聯(lián)合會。

《數(shù)據(jù)質(zhì)量 第61部分:數(shù)據(jù)質(zhì)量管理過程參考模型》(GB/T 42381.61-2023)數(shù)據(jù)質(zhì)量管理的過程參考模型是ISO 8000指定的一個標準,用于指導(dǎo)組織如何實施數(shù)據(jù)質(zhì)量管理。

五、數(shù)據(jù)標注產(chǎn)業(yè)法律風(fēng)險

不同業(yè)務(wù)部門、不同生態(tài)之間數(shù)據(jù)共享與應(yīng)用過程中,數(shù)據(jù)標注產(chǎn)業(yè)在未來很長一段時間將可能會產(chǎn)生持續(xù)需求。

在數(shù)據(jù)標注中確實也出現(xiàn)了一些不和諧因素,包括數(shù)據(jù)標注不規(guī)范,可能導(dǎo)致數(shù)據(jù)質(zhì)量下降,影響后續(xù)數(shù)據(jù)處理和使用;數(shù)據(jù)標注錯誤或不準確,影響后續(xù)數(shù)據(jù)處理和應(yīng)用;數(shù)據(jù)標注作假,可能導(dǎo)致數(shù)據(jù)不真實,影響后續(xù)數(shù)據(jù)處理和應(yīng)用;數(shù)據(jù)標注過程違反法律法規(guī),導(dǎo)致數(shù)據(jù)被禁止使用或受到處罰等。

具體而言,數(shù)據(jù)標注產(chǎn)業(yè)在法律方面可能存在以下風(fēng)險。

一是違反個人信息保護法律法規(guī)風(fēng)險。數(shù)據(jù)標注可能需要處理大量個人信息,如姓名、身份證號碼、通信通訊聯(lián)系方式、住址、賬號密碼、財產(chǎn)狀況、行蹤軌跡等。如果數(shù)據(jù)標注產(chǎn)業(yè)未能按照相關(guān)法律法規(guī)要求處理個人信息,可能會導(dǎo)致個人信息泄露、濫用等安全問題,違反了個人信息保護法律法規(guī)。

二是違反數(shù)據(jù)安全法律法規(guī)風(fēng)險。數(shù)據(jù)標注產(chǎn)業(yè)可能需要處理大量敏感數(shù)據(jù),如金融數(shù)據(jù)、醫(yī)療數(shù)據(jù)等。如果數(shù)據(jù)標注產(chǎn)業(yè)未能采取必要安全措施如數(shù)據(jù)加密、訪問控制等,可能會導(dǎo)致數(shù)據(jù)泄露、篡改等安全問題,違反了數(shù)據(jù)安全法律法規(guī)。

三是違反知識產(chǎn)權(quán)法律法規(guī)風(fēng)險。數(shù)據(jù)標注產(chǎn)業(yè)需要處理大量可能包括知識產(chǎn)權(quán)的數(shù)據(jù)。如果數(shù)據(jù)標注產(chǎn)業(yè)未能得到相關(guān)知識產(chǎn)權(quán)的授權(quán)或許可而導(dǎo)致違法違約使用,可能會導(dǎo)致知識產(chǎn)權(quán)侵權(quán)問題。

四是違反競爭法律法規(guī)風(fēng)險。數(shù)據(jù)標注產(chǎn)業(yè)存在激烈的競爭,一些企業(yè)可能通過不正當(dāng)手段獲取競爭對手的數(shù)據(jù),或者濫用市場優(yōu)勢地位,違反競爭法律法規(guī)侵害相關(guān)合法權(quán)益。

為了防范這些法律風(fēng)險,數(shù)據(jù)標注產(chǎn)業(yè)需要加強個人信息保護、數(shù)據(jù)安全、知識產(chǎn)權(quán)和競爭等方面的法律意識和風(fēng)險管理。同時,政府和社會各界也需要加強對數(shù)據(jù)標注產(chǎn)業(yè)的監(jiān)管和管理,確保其合法合規(guī)經(jīng)營。

六、數(shù)據(jù)標注產(chǎn)業(yè)法律風(fēng)險防范

數(shù)據(jù)標注產(chǎn)業(yè)要行穩(wěn)致遠,需要遵守數(shù)據(jù)標注相關(guān)法律、法規(guī)和相關(guān)標準,規(guī)范、準確、高效地進行數(shù)據(jù)標注。數(shù)據(jù)標注企業(yè)可以通過以下幾種方式來防范法律風(fēng)險。

一是建立健全數(shù)據(jù)標注規(guī)章制度。企業(yè)應(yīng)建立和完善數(shù)據(jù)標注相關(guān)的規(guī)章制度,包括數(shù)據(jù)采集、存儲、處理、分析和保護等方面的規(guī)定,以確保數(shù)據(jù)標注的合規(guī)性和安全性。建立符合法律法規(guī)規(guī)章要求的清晰、具體、可操作的數(shù)據(jù)標注規(guī)則,開展數(shù)據(jù)標注質(zhì)量評估,抽樣核驗標注內(nèi)容的準確性。數(shù)據(jù)內(nèi)容安全保障機制,確保堅持社會主義核心價值觀、反對各種歧視;完善個人信息和相關(guān)合法權(quán)益保護機制,不得侵害他人肖像權(quán)、名譽權(quán)、榮譽權(quán)、隱私權(quán)和個人信息權(quán)益等;強化數(shù)據(jù)安全保障措施,數(shù)據(jù)標注企業(yè)應(yīng)該遵守相關(guān)法律法規(guī)要求,在數(shù)據(jù)安全標準與策略的指導(dǎo)下,通過對數(shù)據(jù)訪問的授權(quán)、分類分級的控制、監(jiān)控數(shù)據(jù)的訪問等進行數(shù)據(jù)安全的管理工作,滿足數(shù)據(jù)安全的業(yè)務(wù)需要和監(jiān)管需求,實現(xiàn)組織內(nèi)部對數(shù)據(jù)生存周期的數(shù)據(jù)安全管理。保數(shù)據(jù)的保密性、完整性和可用性。

二是加強企業(yè)合規(guī)經(jīng)營管理。數(shù)據(jù)標注企業(yè)應(yīng)該遵守相關(guān)法律法規(guī)要求,規(guī)范企業(yè)經(jīng)營行為、尊重合法權(quán)益,不得實施壟斷和不正當(dāng)競爭行為。不得采取不正當(dāng)手段獲取競爭對手的數(shù)據(jù),不得濫用市場優(yōu)勢地位侵害他人合法知識產(chǎn)權(quán),侵害他人商業(yè)秘密;強化合同管理,在與合作方簽訂合同時,應(yīng)當(dāng)明確標注任務(wù)的要求、數(shù)據(jù)使用范圍、保密條款等內(nèi)容,確保合作方了解并遵守相關(guān)法律法規(guī),降低違約風(fēng)險。

四是加強員工培訓(xùn)教育。企業(yè)應(yīng)加強員工法律意識和風(fēng)險意識培訓(xùn),加強數(shù)據(jù)標注操作、個人信息保護、數(shù)據(jù)安全、知識產(chǎn)權(quán)等方面培訓(xùn)和教育,使員工了解數(shù)據(jù)標注相關(guān)法律法規(guī)和企業(yè)規(guī)章制度,提高員工的合規(guī)意識和風(fēng)險防范能力。

五是建立風(fēng)險管理團隊。企業(yè)應(yīng)建立數(shù)據(jù)監(jiān)管機制,對標注數(shù)據(jù)進行實時監(jiān)管,及時發(fā)現(xiàn)并處理不合規(guī)的數(shù)據(jù),避免因數(shù)據(jù)質(zhì)量問題引發(fā)的法律風(fēng)險。建議企業(yè)建立專業(yè)風(fēng)險管理團隊,對數(shù)據(jù)標注過程中可能出現(xiàn)的法律風(fēng)險進行預(yù)測和評估,提出相應(yīng)風(fēng)險防范建議和措施。

作者:張烽,萬商天勤律師事務(wù)所合伙人,萬商天勤數(shù)字法律專業(yè)委員會主任,上海市突出貢獻專家協(xié)會知識產(chǎn)權(quán)專業(yè)委員會副秘書長,上海區(qū)塊鏈技術(shù)協(xié)會智庫專家/科技評價專家,中國移動通信聯(lián)合會元宇宙產(chǎn)業(yè)工作委員會常務(wù)委員,未來產(chǎn)業(yè)元宇宙50人論壇副理事長。

本文系未央網(wǎng)專欄作者:張 烽 發(fā)表,內(nèi)容屬作者個人觀點,不代表網(wǎng)站觀點,未經(jīng)許可嚴禁轉(zhuǎn)載,違者必究!

免責(zé)聲明:信息網(wǎng)轉(zhuǎn)載此文目的在于傳遞更多信息,不代表本站的觀點和立場。文章內(nèi)容僅供參考,不構(gòu)成投資建議。如果您發(fā)現(xiàn)網(wǎng)站上有侵犯您的知識產(chǎn)權(quán)的作品,請與我們?nèi)〉寐?lián)系,我們會及時修改或刪除。

Tags:[db:TAG標簽](1531895)

轉(zhuǎn)載請標注:信息網(wǎng)——數(shù)據(jù)標注產(chǎn)業(yè)及法律風(fēng)險防范

搜索
網(wǎng)站分類
標簽列表