行(xíng)業分享:文本數據标注的(de)整體流程、類型與應用場景

發布時間:2022-02-11 15:00:44 閱讀次數:747

  自(zì)然語言對話是網絡大數據語義理(lǐ)解的(de)主要挑戰之一(yī),被譽為(wèi)人工智能皇冠上的(de)寶石,而文本數據标注就是這一(yī)系列工作中最基礎、最重要的(de)環節。自(zì)然語言對話系統的(de)研究是希望機(jī)器人能夠理(lǐ)解人類的(de)自(zì)然語言,同時實現個性化的(de)情感表達、知識推理(lǐ)和(hé)信息彙總等功能。

  文本标注的(de)目标則是幫助機(jī)器理(lǐ)解人類的(de)自(zì)然語言,通過标注數據中的(de)标簽,例如(rú)關(guān)鍵字、符号、短(duǎn)語或句子(zǐ),甚至是隐含的(de)各種情緒,教會機(jī)器識别文本中的(de)人類意圖或者情感,并促使機(jī)器人對人類的(de)情感做(zuò)出精準定位。

  什麼是文本數據标注

  作為(wèi)常見數據标注類型之一(yī),文本标注指将文字、符号在內(nèi)的(de)文本進行(xíng)标注,讓計算機(jī)能夠讀懂識别,從而應用于人類的(de)生産生活領域!

  文本數據标注的(de)重要性

  在人工智能的(de)三要素數據、算力和(hé)算法中,數據相當于AI算法的(de)燃料。簡單理(lǐ)解,文本數據标注相當于為(wèi)“投喂”AI準備“飼料”。機(jī)器學(xué)習中的(de)監督學(xué)習和(hé)半監督學(xué)習都需要人工标注好的(de)數據進行(xíng)學(xué)習,其訓練集、驗證集和(hé)測試集都是标注過的(de)數據。

  當前,雖然有(yǒu)很多公開的(de)語料庫可(kě)供使用,但對于垂直領域來說,還是需要構建自(zì)己的(de)專業語料庫後訓練模型效果比較理(lǐ)想,也經常會出現自(zì)己根據實際業務需求而進行(xíng)數據标注的(de)情況。

  實際上,與圖片、語音、視(shì)頻等其他模态的(de)數據标注相比,文本标注更具有(yǒu)其自(zì)身的(de)特點,這也就産生了後續一(yī)些十分經典的(de)标注故事。

  文本數據标注的(de)類型

  文本是最常用的(de)數據類型。70%的(de)公司均離(lí)不開文本。文本的(de)數據标注包括各種标注,如(rú)情緒、意圖、屬性、關(guān)系、實體、類别和(hé)搜索等類型

  01命名實體标注

  實體标注; 實體标注需要将一(yī)句話中的(de)實體提取出來,如(rú)電視(shì),足球,門等。有(yǒu)時候還需要将劃分這句話的(de)類别如(rú)音樂(yuè),百科(kē),新聞等或者是标注出文本中的(de)動作指令(開門,播放等),許多企業都會在各種應用場景中應用命名實體标注功能。

  02情感标注

  情感标注∶此類标注通常需要判定一(yī)句話包含的(de)情感,如(rú)三級情感标注(正向,中性,負向),要求高(gāo)的(de)會分成六級甚至十二級情感标注。為(wèi)了獲得這些數據,經常要用到人工标注者,因為(wèi)他們(men)可(kě)以評估所有(yǒu)網絡平台(包括社交媒體和(hé)電商(shāng)網站)上的(de)情緒和(hé)評論內(nèi)容,并能夠标記和(hé)報告中辱罵、敏感的(de)關(guān)鍵字或新詞。

  03關(guān)系标注

  關(guān)系标注是對複句的(de)句法關(guān)聯和(hé)語義關(guān)聯做(zuò)出重要标示的(de)一(yī)種任務,是複句自(zì)動分析的(de)形式标記。下面對涉及關(guān)系标注的(de)知識圖譜做(zuò)簡要介紹。

  知識圖譜,也叫知識庫,客戶用來做(zuò)查詢和(hé)推理(lǐ)用。知識圖譜的(de)結構包括實體、屬性和(hé)關(guān)系。例如(rú),用戶提問“北(běi)緯38”56.東經116”20的(de)城市(shì)在哪個國(guó)家",機(jī)器回答“這個城市(shì)是北(běi)京,且在中國(guó)”

  04意圖标注

  随着人們(men)越來越多地(dì)使用人機(jī)交互進行(xíng)交流,機(jī)器必須能夠理(lǐ)解自(zì)然語言和(hé)用戶意圖。多意向數據收集和(hé)分類可(kě)将意向劃分為(wèi)若幹關(guān)鍵類别,包括請求、命令、預訂、推薦和(hé)确認。

  如(rú)客戶要明确查詢天氣,裡面有(yǒu)“查詢天氣”“查詢氣象-雨”“查詢氣象-霧”“查詢氣象-氣溫”等意圖

  05語義标注

  語義标注既可(kě)以改進産品列表,又可(kě)以确保客戶能夠找到想要的(de)産品。這有(yǒu)助于把浏覽者轉化為(wèi)買家。語義标注服務通過标記産品标題和(hé)搜索查詢中的(de)各個組件,幫助訓練算法,以識别各組成部分,提高(gāo)總體搜索相關(guān)性

  不同文本數據标注示例

  文本數據标注的(de)流程介紹

  數據标注一(yī)般都分為(wèi)采集、清洗、标注、質檢等幾個步驟,文本數據标注也不例外,大緻流程為(wèi)處理(lǐ)、标注(線上标注、線下标注)、質檢、驗收,數據處理(lǐ)和(hé)數據交付。

  具體到各個步驟,操作細節如(rú)下:

  (1)預處理(lǐ):根據數據的(de)規範要求,對數據進行(xíng)算法的(de)初步處理(lǐ)

  (2)标注:根據項目要求,可(kě)以将标注分為(wèi)線上标注(數據+平台)和(hé)線下标注

  ①線上标注:将源數據上傳到“數據+平台",通過互聯網進行(xíng)操作

  ②線下标注:通過線下小工具或線下文本(TXT、Excel等)進行(xíng)操作

  (3)質檢:根據數據合格率要求,由理(lǐ)解定義規範的(de)人員對已标注數據進行(xíng)抽查

  (4)驗收:由數據質量中心對質檢合格數據進行(xíng)再次驗證

  (5)數據處理(lǐ):利用技術處理(lǐ)成客戶需要的(de)格式(如(rú)JSON、UTF-8文本或Excel等)

  (6)數據交付:數據加密後交付客戶

  文本數據标注的(de)應用場景

  文本标注應用範圍很廣泛,具體來說,文本數據标注應用比較多的(de)場景包括新零售行(xíng)業、客服行(xíng)業、廣告行(xíng)業、金融行(xíng)業和(hé)醫療行(xíng)業等:應用類型主要有(yǒu)數據清洗、語義識别、實體識别、場景識别、情緒識别以及應答識别等。

  01客服行(xíng)業

  在客服行(xíng)業文本标注主要集中在場景識别和(hé)應答識别,客服基本可(kě)分為(wèi)人工客服和(hé)電子(zǐ)客服,其中人工客服又可(kě)細分為(wèi)文字客服、視(shì)頻客服和(hé)語音客服三類

  以不少電商(shāng)平台的(de)智能客服機(jī)器為(wèi)例,當用戶在購物遇到問題,需要與機(jī)器人溝通交流時人工智能将根據用戶的(de)咨詢內(nèi)容且對應的(de)場景,然後讓用戶選擇更細分的(de)應答模式,再定位到用戶的(de)實際場景中,根據用戶的(de)具體問題給出對應的(de)回答,整個過程就好比是把用戶的(de)問題的(de)用漏鬥狀的(de)篩子(zǐ)過一(yī)遍

  在初期建立應答體系的(de)時候,需要對海量用戶咨詢語言所産生的(de)文字材料進行(xíng)分類,把應對的(de)用戶咨詢的(de)問題事先标記好,然後放進對應的(de)模型中,例如(rú)我(wǒ)看到的(de)這台電視(shì)電腦CPU是什麼型号

  在這一(yī)步中,數據标注的(de)具體工作就是給句子(zǐ)的(de)場景打标,将用戶問題細分應對的(de)場景中,在進行(xíng)這種标注時需要人工智能非常熟悉本行(xíng)業的(de)業務邏輯數,其實這就是建立機(jī)器人的(de)應答知識庫,機(jī)器人在收到用戶發出的(de)指令時,需要識别這些指令和(hé)哪個細分問題的(de),你額度最高(gāo),然後選取哪個問題的(de)答案作為(wèi)給用戶的(de)答案

  02新零售行(xíng)業

  新零售是指個人、企業以互聯網為(wèi)依托,通過運用大數據、人工智能等先進技術手段,對商(shāng)品的(de)生産、流通與銷售過程進行(xíng)升級改造,進而重塑業态結構與生态圈,并對線上服務、線下體驗以及現代物流進行(xíng)深度融合的(de)零售新模式。

  在此過程中,需要對客戶的(de)問題進行(xíng)精準定位,既需要對客戶的(de)問題進行(xíng)量身定制,又需要考慮多數客戶的(de)共性要求,這就需要借助文本數據标注的(de)方法,将顧客的(de)相應問題做(zuò)出标記。

  03金融行(xíng)業

  線上平台标注和(hé)線下表格标注是金融行(xíng)業文本标注主要的(de)标注形式。以現代商(shāng)業的(de)企業簽約舉例:在企業的(de)商(shāng)務合同中,對關(guān)鍵信息的(de)讀取就顯得尤為(wèi)重要

  例如(rú),合同中提到的(de)公司名稱,合同編号、發票(piào)編号、相關(guān)金額,到期日期和(hé)風險提示等,這些內(nèi)容囊括了甲乙雙方公司的(de)核心信息。對于一(yī)個規模較大的(de)公司來說,每天的(de)簽約合同非常之多,如(rú)果采用一(yī)個或幾個人對這些合同中的(de)相關(guān)信息加以提收乃至核對,這項任務就顯得十分繁重而且意義不大。

  在人工智能時代,可(kě)以考慮建立一(yī)個企業合同分析模型,對合同中的(de)相關(guān)信息進行(xíng)提取,從而可(kě)以減少勞動量,降低(dī)人力成本,提高(gāo)工作效率。

  04廣告行(xíng)業

  廣告行(xíng)業是在市(shì)場經濟充分發展的(de)條件下逐步形成的(de),從單一(yī)的(de)廣告活動發展成為(wèi)獨立的(de)廣告行(xíng)業經曆了漫長(cháng)的(de)過程。廣告制作作為(wèi)廣告行(xíng)業的(de)重點工作之一(yī),都需要廣告設計工作者的(de)辛勤勞動

  考慮到未來商(shāng)品市(shì)場的(de)發展趨勢。以及單個商(shāng)品的(de)文案設計與廣告其他工作,類别相近且銷量較高(gāo)的(de)商(shāng)品文案可(kě)相互借鑒,将已有(yǒu)的(de)單個商(shāng)品文案進行(xíng)綜合,取其精華、去(qù)其根粕,通過文本數據标注将文案中的(de)“精華”與“糟粕”标記出來,讓文案設計工作者可(kě)以在案例中進行(xíng)提取綜合,這無疑将提高(gāo)工作效率

  05醫療行(xíng)業

  在醫療行(xíng)業對自(zì)然語言進行(xíng)标注處理(lǐ),對專業度要求比較高(gāo),需要專門的(de)醫學(xué)人才才能進行(xíng)标注,往往本行(xíng)業的(de)标注的(de)對象是從病列中抽取出來的(de)一(yī)些字段,病例裡面的(de)體查項和(hé)既往病史是有(yǒu)模闆的(de),直接識别可(kě)以,替換項的(de)結果就可(kě)以,這往往比較容易的(de)。但是主訴和(hé)醫生對患者的(de)描述通常每次都會有(yǒu)所差異

  我(wǒ)們(men)在做(zuò)标注的(de)時候可(kě)以這樣處理(lǐ),首先明确每個詞的(de)屬性,記每個詞在這種語境下面具備怎樣的(de)屬性,然後标注每個詞在句子(zǐ)中的(de)作用,舉個例子(zǐ)患者主訴為(wèi)腰痛2年(nián),伴左下肢放射痛10日餘


在線客服 聯系方式 二維碼

電話

17791672784

掃一(yī)掃,關(guān)注我(wǒ)們(men)