“都說數(shù)據(jù)是人工智能(AI)時代的石油,我們的工作就是把原油煉成汽油。”

“我們就像一個‘幼教’,教AI更好地認(rèn)識數(shù)據(jù)。”

……

聊起數(shù)據(jù)標(biāo)注師這份職業(yè),“90后”李宇龍顯得格外興奮。雖然從業(yè)僅4年,但他已經(jīng)是一名資深的數(shù)據(jù)標(biāo)注師。

數(shù)據(jù)標(biāo)注師是隨著人工智能的發(fā)展而出現(xiàn)的新職業(yè)。人工智能練習(xí)認(rèn)知需要大量經(jīng)過標(biāo)注的數(shù)據(jù),數(shù)據(jù)標(biāo)注工作最早由AI工程師完成,隨著人工智能所需數(shù)據(jù)量的不斷增加,數(shù)據(jù)標(biāo)注逐漸獨(dú)立成為新的工種。

“數(shù)據(jù)標(biāo)注有時候就像玩游戲。”李宇龍最近正做一個自動駕駛的數(shù)據(jù)標(biāo)注項(xiàng)目,工作內(nèi)容是對照一張2D街景照片,在相應(yīng)的3D點(diǎn)云圖上框選打點(diǎn)。

“你看,把汽車框起來,都打成白色的點(diǎn),就代表這是一個障礙物。”隨著鼠標(biāo)快速滑動,屏幕上的點(diǎn)云圖不斷翻轉(zhuǎn),一個個針尖大的數(shù)據(jù)點(diǎn)被標(biāo)注在圖中不同物體上——藍(lán)色是路面、綠色是綠植、紅色是路沿、白色是障礙物。

李宇龍說,像這樣一張普通的點(diǎn)云圖,大約要標(biāo)注18萬個點(diǎn),一個熟練的數(shù)據(jù)標(biāo)注師只用半個多小時就能完成,“這樣算下來,一天標(biāo)200萬個點(diǎn)不成問題”。

李宇龍?jiān)驹谝患矣≈齐娐钒宓耐赓Y企業(yè)工作,偶然機(jī)會下接觸了數(shù)據(jù)標(biāo)注行業(yè),便投身其中。他說,與傳統(tǒng)產(chǎn)業(yè)相比,這份職業(yè)有種“科幻感”:傳統(tǒng)行業(yè)的原料、產(chǎn)品都看得見、摸得著,而數(shù)據(jù)標(biāo)注師只需要一臺電腦、一根網(wǎng)線,原料是數(shù)據(jù),產(chǎn)品也是數(shù)據(jù)。

然而,這份“科幻”的職業(yè)卻實(shí)實(shí)在在地改變著現(xiàn)實(shí)生活。自動駕駛、人臉支付、智慧醫(yī)療、智能家居……人工智能正在給生活帶來越來越多的便利,這背后都有著數(shù)據(jù)標(biāo)注師的功勞。

“雖然我們從事的是人工智能領(lǐng)域最基礎(chǔ)的工作,卻經(jīng)常能體會到價值感。”李宇龍說,新冠肺炎疫情期間他和同事做了一個醫(yī)療項(xiàng)目,是在肺部CT片上標(biāo)注病灶數(shù)據(jù),以提高人工智能對病毒的識別能力。“平常醫(yī)生看一張CT片需要幾分鐘,如果用改進(jìn)后的人工智能算法作為輔助,幾秒鐘就能初步判斷一張CT上是否存在疑似病毒。”

從事數(shù)據(jù)標(biāo)注需要每天對著電腦,不免讓人覺得枯燥。但李宇龍卻說,數(shù)據(jù)標(biāo)注為他打開了更大的世界,因?yàn)榻?jīng)常接觸不同的項(xiàng)目,每個項(xiàng)目涉及的領(lǐng)域也不同,會經(jīng)常帶來新鮮感。

“更重要的是,這會是一個持續(xù)發(fā)展的行業(yè)。”李宇龍說,隨著人工智能進(jìn)入越來越多的行業(yè)領(lǐng)域,對數(shù)據(jù)標(biāo)注的需求會更多、要求也會更高,數(shù)據(jù)標(biāo)注行業(yè)的前景無限。

如今,僅李宇龍所在的百度(山西)人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地,就有35家數(shù)據(jù)標(biāo)注企業(yè)、2300多名數(shù)據(jù)標(biāo)注師。百度智能云數(shù)據(jù)眾包則擁有超過5萬名線下采集員,超過2000萬名眾包互聯(lián)網(wǎng)用戶。

“每當(dāng)有人問起我的職業(yè),我回答數(shù)據(jù)標(biāo)注師的時候,對方的臉上總是寫滿了問號。”李宇龍說,期待有越來越多人了解這個行業(yè),“希望有一天,大家提起數(shù)據(jù)標(biāo)注師,就像提起教師、醫(yī)生一樣。”

標(biāo)簽: 數(shù)據(jù)標(biāo)注師