排行 | 簡稱 |
---|---|
1 | 云測數據 |
2 | 澳鵬appen |
3 | Magic Data |
4 | 海天瑞聲 |
5 | 數據堂 |
6 | 科樂園 |
7 | 龍貓數據 |
8 | 曼孚科技MindFlow |
9 | 標貝科技 |
10 | 慧聽科技 |
11 | 37度數據 |
12 | 文德數慧 |
13 | 星塵數據 |
14 | 泛函科技 |
15 | 冰山數據 |
16 | 景聯文 |
17 | 博菲數據 |
18 | 博登智能 |
19 | 元坤智能數據 |
20 | 未有科技 |
2022.05互聯網周刊/eNet研究院/德本咨詢聯調 |
人工智能大道的“基石”
人工智能的目標指向了對人思維過程的復刻,它希望將人的智能脫離肉體的限制,延伸到機器上,使得機器能夠像人類一樣面對變化的外部環境,綜合做出判斷和行為反應。在這項探索的初始階段,我們已經看到包括機器人、語言識別、圖像識別、自然語言處理等在內的各分領域分級別的研究成果。
在大眾傳播和科幻想象中,人工智能往往以一種“酷炫”的形式作為最終的結果呈現,而探究人工智能何以形成的機制則會發現,它不似人想象的那樣輕松和神秘。
數據標注就是目前機器實現智能化一個必不可少的過程,它指的是在采集數據后,通過分類、分割、關鍵點線標注、畫框、追蹤等處理方式,對文本、圖片、語音、視頻等原素材進行標記注釋,將多源異構的數據轉化成可識別的AI訓練數據,從而成為機器學習的基礎材料。
這個過程并不如同想象中那樣簡便和迅速,反而顯得有點“笨拙”,機器的學習并不像人那樣具備主動的記憶、認知、理解能力,它更像是一種計算,在大量相似數據標注為一件物品后,經過比對,它才能“認識”到物品的屬性。
例如在圖像的數據標注中,一張圖片包含的實體會逐一分割開來,進行分類和檢測,再進行關鍵點和線段的標記;在語音數據標注中,一段發音就被切割成了韻律、音素、詞性以及更復雜的附屬的年齡、性別等屬性;在視頻數據標注中,由于內容是動態的,還要進行打點和追蹤,才能提取可使用的數據。
數據標注的視角里,機器就像人的嬰兒時期,接受到的都是零散的、分隔的信息,暫時還理解不了其中的“意”,而機器不具備主動汲取的能力,其成長速度遠遠弱于嬰孩。
由此就可以理解,為什么在目前日常生活中得到應用的人工智能有時因為理解不了人類的指令被戲稱為“人工智障”,人類的語言、圖像、行為在長期的發展中已經具備了十分復雜的涵義,一個細節的不同就可能導致完全不同的意義,目前的機器學習量和覆蓋范圍還達不到高級智能的水平。
數據標注的創新,人工智能的進步
在我們的生活中,人工智能的應用面越來越廣,智能交通、智能家居、智慧醫療……但無一例外,智慧場景要取得進展,就要保證人工智能判斷的準確度。無人駕駛要精準判斷道路周邊環境,才能實現最為重要的安全行駛;智能音箱要對人的指令做出正確反應,就要提升對語音的理解分析能力;智慧醫療影像要實現為醫務人員分擔工作壓力,也要做到正確辨識患者疾病部位,等等。
而人工智能要取得進步,追溯起來,就需要從數據標注這一步開始,加強創新、改善質量。
事實上,數據標注并不完全是一個不需要知識儲備就能完成的勞動密集型產業,一些基礎的像是對應指定位置、打點等雖然需要大量人力,也無需太多專業素質,但隨著行業發展,就需要進一步解決數據數量大、要素復雜、專業領域數據標注等問題。
首先是專業領域的數據標注問題,要提升人工智能的質量,擴展人工智能的領域,在走過基礎的智能反應階段后,像醫療等專業學科內容的標注,也逐漸需要進行完善。因此,隨著人對數據的需求越來越深入,必然要求更多的專業性人才輔助完成數據標注工作。
其次,機器學習要變得更準確,需要大量標注好的數據作為“原材料”,此時完全依靠人力工作對生產成本和效率都會形成挑戰。為了提升數據標注效率,將人力資源投入到更具挑戰性的工作中去,如數據堂、Magic Data等企業已經開發了相關的集成自動化標注工具、人機協同數據處理平臺,以半自動化的數據標注工具創新加快人工智能開發進程,優化運營效率。
同時,要讓機器的“理解”能力更強,與人的互動更順暢,同一段文字、一張圖片、一段語音和視頻,其數據標注的層次一定是越詳細越有助于機器學習,而為了數據規律能被機器識別,還需要建立清晰的標注規范。
人工智能走過粗放式的發展階段,未來將需要更多高質量、精細化、專業化的數據,而這都要求數據標注行業實現進一步的研發與創新。
走向強人工智能
雖然人工智能的目標和人的智力指向的是相同的目標,但目前的研究水平,機器對智能的模仿是“拼接”而成的,是對人的視覺、聽覺、觸覺等感官的模仿,這些是較為基礎的能力,它的最終目標是對人的意識的模仿甚至超越。
但在機制上,對于機器而言,信息是以字符串形式存在的,對于人類而言,信息則是事物。因此,不管人工智能在表現上能達到多大程度的與人類反應相似,它的有限性仍然比我們想象得更強。
人工智能的目標也是希望機器能建立起認知系統,從而幫助人類社會實現更大的集體利益,要走向這樣的強人工智能,需要龐大的數據量,極強的計算能力,模擬人類各感官的傳感器,對人類大腦的工作機制實現更深度的突破等等。
從數據這一角度來說,它是人類行為、意識外化的集合和數字化表征,足夠充分的數據量和運算能力有助于為機器提供關鍵信息,越精確的數據越能有效推動機器的智能化,為其實現“自主”決策打下基礎。
強人工智能可能是人類社會最具挑戰性的事業,它意味著人類徹底的自我探索與實現外部利用,同時也是時代的發展趨勢,要實現這一偉大創新,需要數據、計算、聯通、傳感等各環節的開創性探索。