首頁 > 熱點 > 正文

我給AI當老師:辛苦又廉價,比教人還費勁

2023-02-20 12:33:28來源:引領外匯網(wǎng)

我給AI當老師:辛苦又廉價,比教人還費勁,人工智能也沒那么神奇,多少人把幾百萬、幾千萬的句子掰開揉碎了教它才教明白,教人才沒這么費勁。

人工智能也沒那么神奇,多少人把幾百萬、幾千萬的句子掰開揉碎了教它才教明白,教人才沒這么費勁。

編者按:本文來自微信公眾號 經(jīng)濟觀察報 (ID:eeo-com-cn),作者:鄭晨燁,創(chuàng)業(yè)邦經(jīng)授權轉(zhuǎn)載。

每當丈夫上班、兒子返校,家住武漢的全職媽媽吳海燕便會坐到電腦前開始一天的工作,在一個被稱為“freespace魚眼語義分割”的項目中進行標注工作。


【資料圖】

之所以叫魚眼語義分割,是因為吳海燕標注的圖片全都來源于車載魚眼攝像頭所錄視頻。這些圖片的場景大多在停車場中,吳海燕需要做的是利用點陣工具,將立柱、柵欄、機動車、行人等物體的接地點標出并鏈接,形成一塊藍色的封閉多邊形區(qū)域,這塊區(qū)域就是freespace(可行駛區(qū)域)。

當吳海燕將一段視頻的300幀圖像全部標注好,這些數(shù)據(jù)集便可用于訓練智能汽車的自動駕駛算法,幫助AI(人工智能)理解在停車場哪些區(qū)域可以行駛、哪些區(qū)域可以泊車以及哪些區(qū)域不能觸碰。

“現(xiàn)在看到新聞里很火的ChatGPT都有種親切感,好像是自己手把手教出來的?!?月15日,吳海燕告訴經(jīng)濟觀察報。

這樣一份可以被形容為AI“老師”的工作,在《國家職業(yè)分類大典(2022年版)》中被稱為數(shù)據(jù)標注員,即通過對圖片、語音、文本等數(shù)據(jù)進行標注和加工,為AI算法學習及優(yōu)化提供樣本。

像吳海燕這樣的兼職數(shù)據(jù)標注員,僅在其工作的平臺就有近兩萬人,他們的職業(yè)背景和社會身份各異,既有吳海燕這樣的家庭主婦,也有大城市的基層白領,以及部分殘障人士。

這些數(shù)據(jù)標注員正處在火熱AI賽道的最底層,用日復一日的枯燥勞動,為如今大放異彩的各類AI應用提供重要的數(shù)據(jù)養(yǎng)料,他們所在的行業(yè)也被統(tǒng)稱為“人工智能基礎數(shù)據(jù)服務”。

根據(jù)IDC發(fā)布的數(shù)據(jù),近5年中國AI基礎數(shù)據(jù)服務市場規(guī)模年復合增長率達到47%,預期2025年將突破120億元,占到中國人工智能市場規(guī)模總額約10%。

一、“數(shù)據(jù)標注員”

2月15日,經(jīng)濟觀察報記者在兼職平臺報名了一份數(shù)據(jù)標注員的兼職,當晚,項目負責人趙強杰電話詢問了記者的基本情況,隨后將記者拉至一個名為“試標”的微信群里。

“新進群的同學先看群公告,再看聊天記錄里的視頻,看完有想做(數(shù)據(jù)標注)的,私聊找我試標,只差三個人了?!?/p>

這是一份時長36分鐘的標注培訓視頻,示范了如何在一幀車載魚眼攝像頭錄制的視頻中,通過將立柱、機動車、行人等障礙物的接地點連接到一塊,從而精準標注出一塊藍色區(qū)域。

“標注人員需以封閉多邊形的形式標出視頻每一幀畫面中障礙物接地點freespace的邊界。”與教學視頻配套的另一份培訓文檔上有對該項目的概述。

“freespace簡單說就是可行駛區(qū)域,常見于泊車場景的數(shù)據(jù)標注,通過將柵欄、墻面等障礙物阻隔的近端區(qū)域,未被機動車占用的可泊車位等邊界的像素坐標信息標注后,用于幫助AI定義可行駛區(qū)域,可以實現(xiàn)自動泊車、一鍵呼叫等功能?!鄙虾R患抑悄苡布髽I(yè)的算法工程師馮易向經(jīng)濟觀察報解釋。

趙強杰所說的試標,便是兼職數(shù)據(jù)標注員的面試,通過標注“實戰(zhàn)”來測試應聘者的工作能力,在大致看完了標注項目的教學視頻后,記者私聊了趙強杰,表達了想要試標的意愿,隨后得到一個測試賬號。

記者登錄一個名為數(shù)加加眾包的數(shù)據(jù)標注平臺,并在其中打開了趙強杰指定的測試項目。在觀看教學視頻之初,這份標注工作的難度并不高,只不過是按照既定規(guī)則將畫面中可行駛區(qū)域標注出來。

但在實際操作過程中,記者還是遇到了不少難題,例如畫面中遠處的立柱被遮擋,無法準確標出邊界與接地點,抑或是畫面遠處過于模糊,無法區(qū)分標注物體所屬類型。

用了將近10分鐘,記者勉強完成了第一幀圖像的標注,過程中,趙強杰多次催促了記者。

“你確定你看過視頻了嗎?看過視頻是不可能還標成這樣的,要像你這樣標,AI學完車就直接撞柱子上了?!痹谑盏搅嗽嚇俗⒌膱D像后,趙強杰向記者反饋。

他還告訴記者,通常一段魚眼視頻會有20幀圖像需要標注,熟練的數(shù)據(jù)標注員一天需要標200~300幀畫面,像記者這樣的標注速度無法勝任兼職工作。

圖說:上圖為記者完成的道路場景語義分割標注,下圖為符合AI訓練標準的道路場景語義分割標注。

在記者進行試標的同時,一位在深圳上班的白領董程也加入了趙強杰的群。

他稍早前在社交平臺上看到有關兼職數(shù)據(jù)標注員的介紹信息,隨后被“下班兼職、工資日結、日薪300、就像連連看”等關鍵詞吸引,在私聊發(fā)布信息的博主后,獲得了趙強杰的聯(lián)系方式并進群。

同記者一樣,董程也在隨后的試標中被趙強杰淘汰,記者對比了董程標注的截圖與趙強杰提供的正確標注截圖,發(fā)現(xiàn)除了個別點位的標注不同外,大致區(qū)域范圍其實并沒有太大差異。

“自動駕駛類的數(shù)據(jù)標注需求是很嚴的,不精細的數(shù)據(jù)甲方是不會驗收的,你看起來可能就差一點點,但是人人都差一點點,累積起來給到AI訓練那邊可能就會是天大的錯誤,如果出現(xiàn)無效訓練,輕則浪費一些成本,重則要出人命的?!泵鎸τ浾叩囊蓡?,趙強杰說。

深圳一家AI企業(yè)的產(chǎn)品經(jīng)理何茂對記者表示,在算力、算法和數(shù)據(jù)構成AI應用的三大要素中,訓練的準備數(shù)據(jù)可以算得上是最重要環(huán)節(jié),谷歌大腦創(chuàng)始人吳恩達就曾指出:“AI研究80%的工作應該放在數(shù)據(jù)準備上,確保數(shù)據(jù)質(zhì)量是最重要的工作;業(yè)界如果更多地強調(diào)以數(shù)據(jù)為中心而不是以模型為中心,那么機器學習的發(fā)展會更快?!?/p>

何茂告訴記者,當前主流的機器學習算法為有監(jiān)督學習,即讓機器通過標簽化的數(shù)據(jù)進行學習訓練,“就像人類一樣,小時候有人告訴你什么是汽車,什么是飛機,教你學會了鑒別,這就叫有監(jiān)督學習”。

而在有監(jiān)督學習中,通過對大量原始語音、視頻、文本及圖片數(shù)據(jù)進行加工處理,從而使機器能夠識別和學習這些信息的數(shù)據(jù)標注工作,便成了機器學習順利進行的關鍵環(huán)節(jié)?!皩?jīng)過標注的數(shù)據(jù)集進行模型訓練,可以讓AI在未來再次接收到對應數(shù)據(jù)時,能夠進行簡單分類并輸出正確判斷,例如freespace數(shù)據(jù)標注,便能夠讓AI在泊車場景下快速判斷可行駛區(qū)域與可停泊車位,所以數(shù)據(jù)標注就像是AI的啟蒙老師,教給不同場景下的AI最基礎的鑒別和分類功能?!焙蚊忉尅?/p>

馮易指出,對于有監(jiān)督學習算法來說,訓練數(shù)據(jù)的需求空間還很大,所以基礎數(shù)據(jù)服務對模型算法發(fā)揮著關鍵支撐作用。

二、“訓練”ChatGPT

根據(jù)應用場景的不同,數(shù)據(jù)標注也分很多類型,像趙強杰、吳海燕最近在做的魚眼freespace標注就屬于語義分割的一種。

“根據(jù)不同物體、區(qū)域的外形進行描邊標注,將對應邊界像素數(shù)據(jù)對應到具體類別和屬性,使機器能夠快速識別,相當于告訴機器什么樣的是車、什么樣的是路、什么樣的是樹等等,主要應用在自動駕駛、智慧安防等場景。”何茂告訴記者。

而近期大火的ChatGPT屬于NLP(自然語言處理)模型的一種,這類模型的訓練同樣需要標注員進行對應的數(shù)據(jù)標注,趙強杰在去年底就曾接到過自然語義類型的標注任務,“那是一個十萬條的新聞情感分類標注項目,要根據(jù)每條新聞的內(nèi)容進行正面、中性、負面三種類型的標注”。

據(jù)了解,情感標注是指針對原始文本、語音等自然語言內(nèi)容進行情緒傾向的判定,幫助NLP模型人類語境與情感。

趙強杰舉例,“比如,機器收到了一句‘今天是周五’,這句話可能在傳達正面情緒,如果后面緊接著補一句‘我還要加班’,就變成了負面情緒的表達,理解用戶情緒能夠幫助AI更好地組織回答”。

在趙強杰展示的項目說明文檔中,記者看到了其團隊去年所接新聞情感標注項目的具體要求,客戶希望標注團隊根據(jù)新聞內(nèi)容,判斷其對經(jīng)濟的影響好壞,從而進行三種類型的分類。

例如,在該文檔中,有一則新聞內(nèi)容是在去年北京市某場新冠疫情防控工作新聞發(fā)布會上,通報了多名違反疫情防控相關規(guī)定,及涉嫌妨害傳染病防治罪的相關責任人,該則新聞的標注處有一個數(shù)字0,即此新聞表達的為負面情緒。

“情感標注的項目任務比較常見,除了在智能客服、智能家居領域,還可以用在輿情監(jiān)測上,幫助企業(yè)快速鎖定負面輿情,進行公關處理?!壁w強杰說。

相較于略顯簡單的情感標注,吳海燕去年還曾參與過更為復雜的詞性及句法標注,這類經(jīng)過標注后的數(shù)據(jù),便被用于訓練類似于ChatGPT這類自然語言處理模型。

吳海燕回憶,該項目的原始數(shù)據(jù)主要為采集自各類社交平臺評論區(qū)的語句,標注員要將語句中的詞匯語法屬性以及句中的依存關系進行標注。

以“今天凌晨蘋果公司發(fā)布了iPhone14”一句為例,該句中一共有“今天、凌晨、蘋果、公司、發(fā)布、了、iPhone、14”八個需要標注的詞性以及依存句法,其中今天為時間詞,標注為t,該短語又屬于定中關系,需標注為ATT;凌晨同樣屬于時間詞,標注為t,但在句法上屬于狀中結構需標注為ADV。

“原始的文本數(shù)據(jù)直接給到機器當然是識別不了的,所以需要進行標注,給每一個詞語、句子進行定性,從而可以使用模型做分析和表達。”馮易向記者解釋。

他告訴記者,目前中文領域主流的詞性標注法,為北京大學計算語言所在2003年推出的語料庫加工規(guī)范,其中將中文詞性分為39類,包括“形容詞、時間詞、人名、地名、成語”等等,而中文作為典型的大字符集語言,僅僅標注詞性仍難以用于高效訓練模型,因此就需要進一步標注句法。

“常用的漢字可能都有七八千個,所有漢字加一塊有10萬個,還存在同音、同義、歧義等情況,這就需要將句法標注和詞性標注結合起來,依存句法標注簡單來說,就是分解一段句子,尋找其內(nèi)部詞語之間的依存關系,從而實現(xiàn)對不同語句結構的高效概括,讓AI能夠通過分析句子結構提煉出相關信息,以便更準確、自然地給到用戶回復?!瘪T易表示。

何茂亦表示,諸如詞性及句法標注只不過邁出了NLP模型訓練的第一步,后續(xù)還要經(jīng)過特征工程(將詞句向量化,便于計算機識別)、選擇模型、訓練模型、評估模型及測試上線,如果沒有高質(zhì)量的優(yōu)秀訓練數(shù)據(jù)集作為基礎,后面的所有工作都無從談起。

“ChatGPT的誕生本質(zhì)上還是屬于‘大力出奇跡’的事情,依靠大數(shù)據(jù)、高算力、大模型硬堆出來的人工智能,背后包含了數(shù)不清的標注員、訓練師的勞動成果?!焙蚊f。

如今,回憶起去年曾經(jīng)參與的文本標注項目,再來看眼下到處都能刷到的有關ChatGPT的新聞,吳海燕覺得有些不以為然:“人工智能也沒那么神奇,多少人把幾百萬、幾千萬的句子掰開揉碎了教它才教明白,教人才沒這么費勁?!?/p>三、“企業(yè)工會”的眾包

“你是數(shù)加加公司的人嗎?是代表數(shù)加加招人嗎?”在記者加入的試標群中,有應聘者艾特了趙強杰提問。

“我們是數(shù)加加旗下的企業(yè)公會,就是以團隊形式領取任務的眾包組織,群里只有我一個對接人,其他人找你們都不要相信?!壁w強杰回答。

眾包即一家企業(yè)或機構將工作任務拆分包裝為不同的項目,以自愿自由的形式通過互聯(lián)網(wǎng)外包給非特定群體。

國內(nèi)最早讓大眾了解到眾包的,便是每日穿行在大街小巷的百萬外賣小哥,對企業(yè)來說,眾包降低了用工成本,提高了業(yè)務運行效率,對從業(yè)者來說,眾包形式靈活、多勞多得。

而對人工智能數(shù)據(jù)標注這樣的工作來說,以眾包模式運轉(zhuǎn)無疑是最優(yōu)解,因為數(shù)據(jù)標注這份工作實在是太過瑣碎、辛苦且廉價。

像趙強杰就已經(jīng)記不清遇到過多少干了兩天就打退堂鼓的標注員,“大家都覺得這份工作簡單,好像坐在電腦前把東西框起來就能輕輕松松掙錢,實際哪有那么好的事”。

對AI訓練來說,數(shù)據(jù)標注的質(zhì)量具有十分重要的意義,如果在標注過程中出現(xiàn)不準確乃至錯誤,很有可能會導致十分嚴重的后果。“比如魚眼語義分割,該標的柱子沒標出來,該圈的區(qū)域沒圈進去,AI學習完,把車撞柱子上,或者死活識別不了空車位泊不進去”。

他以一個2D拉框任務向記者說明標注工作所需的細致程度,其在標注平臺上打開了一張車輛在道路上行駛的照片,并指出記者的目標是將該照片中的物體分別打框標記。記者在圖片中唯一一輛皮卡車上畫了一個框,并提交了任務??吹接浾甙l(fā)來的標注成果后,趙強杰樂了:“你再仔細看看,這個圖里只有這一輛車嗎?”記者反復查看圖片,確認只有這一輛機動車后,再次向趙強杰提交了標注圖片。

當看到趙強杰發(fā)來的正確標注圖片后,記者才明白自己的錯誤有多“離譜”。

在正確的標注圖片上,除了記者框定的那“唯一”一輛機動車外,道路上的交通標線,路兩旁的行道樹,甚至在樹蔭遮蔽下只顯露了一小截的電線桿,以及畫面遠處幾乎濃縮為幾個像素點的三輪車都需要標注。“你畫框的方式也不對,畫的范圍太大了,框線應該要緊緊貼著目標物體,不要留出空隙?!壁w強杰又指出記者的一個錯誤。

他告訴記者,對標注員的工作質(zhì)量,其公會的考核十分嚴格,例如最近正在進行的魚眼分割項目,如果一名標注員連續(xù)標錯了三幀畫面,會被直接取消當月結算資格?!澳銇砦覀冞@干肯定拿不到錢。”趙強杰調(diào)侃。

但記者注意到,能夠精準標注、極少犯錯的熟練標注員,月收入其實也很低,遠沒有各類平臺上宣傳的“輕輕松松五六千”那么風光。

“現(xiàn)在標一個框基本就三到四分錢,甚至更低,我又是兼職,有的時候標得頭暈眼花,一個月下來還沒有一千塊錢?!眳呛Q嗾f。

趙強杰也表示,其公會旗下熟練標注員的時薪大多在10~15元左右。

他統(tǒng)計,能夠長期堅持在標注領域干下來的成員,大多為家庭主婦、制造業(yè)跨行、長期自由職業(yè)人士等,而像董程這類有穩(wěn)定工作的白領,就算試標通過,也不會穩(wěn)定在此兼職。

對于人工智能基礎數(shù)據(jù)服務領域的商業(yè)模式,2021年登陸科創(chuàng)板的國內(nèi)人工智能基礎數(shù)據(jù)龍頭海天瑞聲(688787.SH)曾在其招股說明書中有過詳細披露——

此外,海天瑞聲答復上市問詢函時透露,2019年度,在其一體化數(shù)據(jù)處理平臺注冊賬號的終端勞務人員達到了6.93萬人,同期該公司的員工僅142人。

海天瑞聲在生產(chǎn)訓練數(shù)據(jù)的過程中,通過對接第三方數(shù)據(jù)服務供應商、人力資源外包服務公司的形式解決了大規(guī)模勞務人員需求,在這一過程中,甚至還可能出現(xiàn)層層外包的情況。

這在一定程度上解釋了為何像吳海燕、趙強杰一樣的產(chǎn)業(yè)底層數(shù)據(jù)標注從業(yè)者,在經(jīng)歷了繁瑣、枯燥、重復且辛苦的工作后,依然得不到一份“像樣”的回報。

不過,雖然背靠眾包模式搭建起了一座低成本的人工智能數(shù)據(jù)工廠,但海天瑞聲上市以來的財務表現(xiàn)卻始終差強人意。

其2020年至2021年的營收分別為2.33億元及2.06億元,同比下滑了1.76%、11.53%,其2022年的營收有所回暖,前三季度同比增長27.82%,但扣非凈利潤仍舊延續(xù)跌勢,1.67億元的營收只有427萬元的凈利潤,同比暴跌77.76%。

“人工智能行業(yè)整體發(fā)展迅速,應用領域和場景日趨復雜,像打個框、標個點這樣簡單的標注工作也很快會被AI取代,以后的標注工作只會越來越專業(yè),越來越復雜,ChatGPT就是一個很典型的例子,人家已經(jīng)實現(xiàn)了AI教育AI?!焙蚊赋?。

在他看來,隨著下游需求不斷變化,上游一眾人工智能基礎數(shù)據(jù)服務企業(yè)若還沉迷于提供勞動密集型服務,很快也將面臨淘汰。

在采訪即將結束時,記者調(diào)侃趙強杰就像是一位在AI時代的富士康里上班的線長,他的回答卻是:“標注員跟富士康里的民工比不了,人家包吃包住,簽勞動合同,有五險一金?!?/p>

本文(含圖片)為合作媒體授權創(chuàng)業(yè)邦轉(zhuǎn)載,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。

關鍵詞: 數(shù)據(jù)標注員

責任編輯:hnmd004