沒有數(shù)據(jù)的人工智能不是真正的智能
人工智能的目標是讓機器像人類一樣學會學習。算法訓練、深度學習等都需要大量數(shù)據(jù)支持,數(shù)據(jù)挖掘是人工智能做訓練樣本的前提條件。如無人車需要大量的試車數(shù)據(jù)不斷地測試算法,并在業(yè)務(wù)場景上形成自我改進的反饋系統(tǒng)。可見如果沒有數(shù)據(jù)的場景不可能實現(xiàn)人工智能,數(shù)據(jù)就是人工智能的引爆點。
基于深度學習的人工智能技術(shù),核心在于通過計算找尋數(shù)據(jù)中的規(guī)律,運用該規(guī)律對具體任務(wù)進行預(yù)測和決斷。源數(shù)據(jù)需要進行采集、標注等處理后才能夠使用,標注的數(shù)據(jù)形成相應(yīng)數(shù)據(jù)集。業(yè)務(wù)類型主要包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存儲以及數(shù)據(jù)交易等環(huán)節(jié)。 當前,人工智能數(shù)據(jù)集的參與主體主要有以下幾類:
一是學術(shù)機構(gòu),為開展相關(guān)研究工作,自行采集、標注,并建設(shè)學術(shù)數(shù)據(jù)集。這類數(shù)據(jù)集以 ImageNet 為代表,主要用于算法的創(chuàng)新性驗證、學術(shù)競賽等,但其迭代速度較慢,難用于實際應(yīng)用場景。
二是政府,等中立機構(gòu),他們以公益形式開放的公共數(shù)據(jù),主要包括政府、銀行機構(gòu)等行業(yè)數(shù)據(jù)及經(jīng)濟運行數(shù)據(jù)等,數(shù)據(jù)標注一般由使用數(shù)據(jù)的機構(gòu)完成。
三是人工智能企業(yè),他們?yōu)殚_展業(yè)務(wù)而自行建設(shè)數(shù)據(jù)集,企業(yè)一般自行采集,標注形成自用數(shù)據(jù)集,或采購專業(yè)數(shù)據(jù)公司提供的數(shù)據(jù)外包服務(wù)。四是數(shù)據(jù)處理外包服務(wù)公司,這類公司業(yè)務(wù)包括出售現(xiàn)成數(shù)據(jù)訓練集的使用授權(quán),或根據(jù)用戶的具體需求提供數(shù)據(jù)處理服務(wù)(用戶提供原始數(shù)據(jù)、企業(yè)對數(shù)據(jù)進行轉(zhuǎn)寫、標注),具體業(yè)務(wù)服務(wù)形式包括且不限于提供數(shù)據(jù)庫資源、提供數(shù)據(jù)采集服務(wù),提供數(shù)據(jù)轉(zhuǎn)寫標注服務(wù)等。
當前,人工智能基礎(chǔ)數(shù)據(jù)類型主要包括語音語言類(包括聲音、文字、語言學規(guī)則)、圖像識別類(包括自然物體、自然環(huán)境、人造物體、生物特征等)以及視頻識別類三個大類,從世界范圍來看,數(shù)據(jù)服務(wù)商總部主要分布在美國、歐洲等發(fā)達國家。但其數(shù)據(jù)處理人員則大多數(shù)分布在第三世界國家;我國語音、圖像類資源企業(yè)機構(gòu)正處于快速發(fā)展階段,為產(chǎn)業(yè)發(fā)展增添了動力。





