人工智能的目標是讓機器像人類一樣學會學習。算法訓練、深度學習等都需要大量數(shù)據支持,數(shù)據挖掘是人工智能做訓練樣本的前提條件。如無人車需要大量的試車數(shù)據不斷地測試算法,并在業(yè)務場景上形成自我改進的反饋系統(tǒng)。可見如果沒有數(shù)據的場景不可能實現(xiàn)人工智能,數(shù)據就是人工智能的引爆點。
基于深度學習的人工智能技術,核心在于通過計算找尋數(shù)據中的規(guī)律,運用該規(guī)律對具體任務進行預測和決斷。源數(shù)據需要進行采集、標注等處理后才能夠使用,標注的數(shù)據形成相應數(shù)據集。業(yè)務類型主要包括數(shù)據采集、數(shù)據處理、數(shù)據存儲以及數(shù)據交易等環(huán)節(jié)。 當前,人工智能數(shù)據集的參與主體主要有以下幾類:
一是學術機構,為開展相關研究工作,自行采集、標注,并建設學術數(shù)據集。這類數(shù)據集以 ImageNet 為代表,主要用于算法的創(chuàng)新性驗證、學術競賽等,但其迭代速度較慢,難用于實際應用場景。
二是政府,等中立機構,他們以公益形式開放的公共數(shù)據,主要包括政府、銀行機構等行業(yè)數(shù)據及經濟運行數(shù)據等,數(shù)據標注一般由使用數(shù)據的機構完成。
三是人工智能企業(yè),他們?yōu)殚_展業(yè)務而自行建設數(shù)據集,企業(yè)一般自行采集,標注形成自用數(shù)據集,或采購專業(yè)數(shù)據公司提供的數(shù)據外包服務。四是數(shù)據處理外包服務公司,這類公司業(yè)務包括出售現(xiàn)成數(shù)據訓練集的使用授權,或根據用戶的具體需求提供數(shù)據處理服務(用戶提供原始數(shù)據、企業(yè)對數(shù)據進行轉寫、標注),具體業(yè)務服務形式包括且不限于提供數(shù)據庫資源、提供數(shù)據采集服務,提供數(shù)據轉寫標注服務等。
當前,人工智能基礎數(shù)據類型主要包括語音語言類(包括聲音、文字、語言學規(guī)則)、圖像識別類(包括自然物體、自然環(huán)境、人造物體、生物特征等)以及視頻識別類三個大類,從世界范圍來看,數(shù)據服務商總部主要分布在美國、歐洲等發(fā)達國家。但其數(shù)據處理人員則大多數(shù)分布在第三世界國家;我國語音、圖像類資源企業(yè)機構正處于快速發(fā)展階段,為產業(yè)發(fā)展增添了動力。





