“這就像我們在淘寶上買東西,看到的都是賣家秀,拿到手的卻是買家秀。這其中最大的差別,就是光線環(huán)境的問題。”
“圖像識別的賣家秀和買家秀之間,永遠隔著一盞燈光的距離。”眼擎科技(eyemore)創(chuàng)始人&CEO朱繼志日前在IF創(chuàng)新大會2018上發(fā)布全球首款AI成像芯片時說,“我們經??吹皆诟鞣N圖像識別比賽中,圖像識別率很高。但在實際場景中,比如人臉識別,卻沒有任何一家廠商敢提供識別率數據,因為現場問題實在太多了。”
下圖是朱繼志在發(fā)布會現場分享的一張PPT。左邊,是《花花公子》雜志御用模特Leina一張裸照的一部分。這張照片細節(jié)豐富、層次分明、邊緣清晰,三十年來所有和圖像算法相關的圖片,都拿它來做標準;但實際在現場拍到的圖片,卻往往是右邊的模樣,根本無法識別。
“圖像識別的賣家秀和買家秀之間,永遠隔著一盞燈光的距離。”
“這就像我們在淘寶上買東西,看到的都是賣家秀,拿到手的卻是買家秀。這其中最大的差別,就是光線環(huán)境的問題。”朱繼志說,給美女拍照片,會設置很多燈光。然而現實生活中的光線環(huán)境是不可控的,遇到弱光、逆光、反光情況時,成像效果就很差,AI算法無法識別。
給人看的像素時代終結,給機器看的視覺時代開啟
要解決賣家秀和買家秀的問題,就要靠視覺器官的進化,把視覺放在一個系統(tǒng)整體來看。首先是眼睛,在前端負責感知,產生圖像;然后是大腦,在后端負責認知,它分析圖像視覺;此外,還有第三部分—大腦如何控制眼睛,也就是雙方怎樣進行智能的交互?只有大腦、眼睛、腦眼交互這三部分都智能化了,才能說機器視覺是智能的。這也代表了人工智能在產業(yè)里發(fā)展的三個階段:大腦的進化、器官的進化、大腦和器官交互方式的進化。
視覺的三種智能
要了解眼睛這個成像器官的進化,就要先回顧一下成像技術的歷史。成像技術從30年代美國的膠卷時代開始,代表廠商是柯達;80年代進入數碼時代,產業(yè)轉移到了日本,今天看到的所有的數碼照片,都是源自80年代日本的成像架構,包括索尼、尼康、佳能等公司。然而到了AI時代,行業(yè)對圖像的需求可能會發(fā)生本質的變化:圖像不再是給人看的,而是要給機器看。
給人看的時候,關注的自然是像素,喜歡自拍的姑娘,一定會關心手機前后攝像頭是多少像素。然而當大家開始用iPhone X刷臉的時候,似乎又沒有多少人關心攝像頭的像素問題。因為常識告訴我們,人眼看世界的時候,是沒有像素概念的。
人眼是人類長期進化的結果,最強大之處在于對環(huán)境的適應能力。正常情況下,看哪里都是清楚的,顏色都是對的,不存在賣家秀和買家秀的問題。相比之下,機器和人眼最大的差距,就是適應性太差,而要解決適應環(huán)境的問題,機器能用的資源只有三種:算力、算法和數據。
為了解決各種復雜光線問題導致的問題,眼擎科技使用了各種新型的算法,計算復雜度是數碼成像的50倍以上,通過對大量場景數據的測試,使得成像引擎能夠像人類眼睛一樣自動的適應各種環(huán)境,消除各種光線環(huán)境的影響,輸出穩(wěn)定的視覺圖像。
從IoE到VoE,新的千億級市場誕生
視覺技術分為兩種:成像(imaging)和圖像處理(image processing)。前端成像技術負責生成視覺圖像,后端圖像處理負責分析、識別、處理視覺圖像。換句話說,成像相當于人的眼睛,圖像處理相當于人的大腦。
目前人工智能領域的明星公司,包括商湯、曠世、地平線、云從、依圖、深鑒等,都是基于圖像處理算法為核心技術的獨角獸公司。在過去的三年里,受深度學習技術的驅動,圖像處理獲得了飛速的發(fā)展,但前端的成像技術,仍然停留在二十年前的水平,成為AI視覺未來發(fā)展以及商業(yè)應用落地的嚴重的瓶頸,也是當前各大AI公司的下一個必爭之地。
“AI將帶動成像技術和產業(yè)從像素到視覺的一次大的變革和顛覆。中國是AI視覺產業(yè)落地最快的地方,我相信,這個新的成像技術的第三個階段,會由中國主導。”朱繼志說。
和數碼時代相比,AI時代的成像在成像架構、算法模型、評判標準、光線適應性等諸多關鍵環(huán)節(jié)都發(fā)生了本質上的變化,傳統(tǒng)的數碼成像技術架構已不能滿足AI視覺的需求,面臨迅速被淘汰的窘境。未來五年,成像技術將有望完成從“圖像”到“視覺”的劃時代升級,視覺成像芯片和AI處理芯片一樣,成為人工智能的核心部件,由此衍生的產業(yè)升級需求,將在未來五年催生出成像領域千億級別的新增量市場。
從IoE到VoE,新的千億級市場誕生
給機器配置視覺中樞
算力、算法和數據集成到一起成為產品,就是一顆芯片,比如眼擎科技此番推出的全球首款AI視覺專用成像芯片Eyemore X42。這顆芯片采用了全新的成像引擎架構,集成了超過20種的新型成像算法,感光度最高可以達到40萬,單次曝光動態(tài)范圍可以超過16bit,最大功耗在1.5W以內。
全球首款AI視覺專用成像芯片Eyemore X42
完全自主研發(fā)的eyeMix、eyeNoise等核心成像算法構成了X42的基礎。它拋棄了傳統(tǒng)的日系全局成像架構,轉而采用分區(qū)域、分層的Eyemore成像引擎架構,解決了視覺成像中存在的弱光、逆光、反光等痛點。
Eyemore成像引擎
“做成像芯片其實是一件很苦逼的事情。眼擎科技成立四年了,很多人都在問我這期間做了什么?我只能苦笑著說我們在調試圖像,在調試圖像,在不停的調試圖像。因為成像是一個主觀性比較強的事情,我們測試了500+以上的場景,前后耗時四年,才打磨完成了這款全球首個面向AI視覺應用領域推出的成像芯片。”看得出來,朱繼志在回憶往事時也是不勝唏噓。
Eyemore X42的使命只有一個,那就是成像,就是要使成像引擎在各種復雜光線環(huán)境下,能排除現場光線的干擾,給AI視覺算法輸出穩(wěn)定可靠的高品質視覺圖像,尤其是在微弱光線下超越人眼的視覺成像能力,幫助眾多AI公司客戶解鎖更加豐富的應用場景。而為了提高芯片的成像性能,研發(fā)人員甚至將標準的視頻壓縮功能全部去掉。朱繼志對《電子工程專輯》表示,這就好比Intel的CPU雖然集成了顯卡功能,但Nvidia的專用GPU一定是未來的主流。
未來是個軟件定義硬件的世界,朱繼志對此也深信不疑。所以,在X42的芯片架構中,所有的底層成像功能與各種算法都是可以被調用的。與傳統(tǒng)成像產品的“黑盒”屬性不一樣,X42芯片是一個“白盒”,可以提供完整的開發(fā)工具,支持各種平臺(包括Windows、Linux、Android、iOS)的開發(fā)接口API。這樣做的目的,也是希望讓所有的視覺算法工程師不必懂任何硬件,就能夠精確的掌控成像效果,從而提升AI視覺分析算法的效率和準確性。
三年完成500家公司的Design-in
然而,一顆全新的芯片出來,誰會相信你?誰敢用?怎么用?
在創(chuàng)立眼擎科技之前,朱繼志在國內最大的芯片分銷公司工作了八年,負責推廣各種類型的芯片。他深知芯片行業(yè)通行的規(guī)則,是要客戶在使用一顆全新的芯片之前,必須準備好一系列的方案。首先是要有開發(fā)工具套件,讓客戶可以先學習調研;當項目明確之后,要有產品模組,幫助客戶快速產品化;當產品銷售上了批量,被完全驗證之后,才會直接使用芯片;如果量再大,還需要提供IP授權;如果客戶有特殊的要求,還需要提供深度定制。這套完整的流程,就是傳說中的Design-in。目前,眼擎科技AI視覺產品生命周期全棧式成像解決方案已經準備就緒,所有客戶即刻就可以開始使用。
眼擎科技AI視覺產品生命周期全棧式成像解決方案
眾所周知,芯片行業(yè)有屬于自己的固定周期。做一顆原創(chuàng)芯片,從技術開發(fā),到市場大規(guī)模成熟應用,一般需要接近七年的時間,也就是“3+2+2”模式:三年開發(fā),兩年推廣,兩年成熟。按照這一規(guī)律,成立于2014年的眼擎科技在經歷了3年開發(fā)期后,2018年將開始進入規(guī)模推廣期。
芯片開發(fā)的“3+2+2”模式
在朱繼志為公司規(guī)劃的三年市場戰(zhàn)略中,眼擎科技將重點布局四個市場應用方向:1、自動駕駛的視覺成像;2、智能手機的AI成像;3、基于人臉識別的高端智能安防;4、包括軍工和醫(yī)療在內的工業(yè)視覺成像。到2020年底,眼擎科技通過完成超過500家的AI視覺客戶的design-in,占領50%以上的AI視覺成像市場,成為新興的AI視覺成像技術的全球領導者。同時,眼擎科技將圍繞視覺成像技術,建立完整的成像生態(tài),與AI視覺產業(yè)鏈的各個環(huán)節(jié)合作,包括共建實驗室、戰(zhàn)略合作、聯合開發(fā)、技術授權等多種方式,共同推進AI視覺的發(fā)展,為下一個階段將“Eyemore Inside”推向千億級數量的視覺應用奠定基礎。
“3D結構光電商掃描儀產品”是朱繼志在現場分享的一個實際案例。一家做“深度相機”的廠商此前在為電商掃描商品的3D模型時使用了兩個成像模組,一個拍結構光,一個拍彩色畫面。而在采用眼擎科技的分時復用方案之后,僅僅用一個成像模組就解決了問題。然后,再通過交互接口API大幅提升了AI視覺算法的效率和準確率,這在以前是不可想象的。
Eyemore成像引擎應用案例
關于AI、視覺與芯片一些思考
● 第三種智能
所謂的“第三種智能”,其實是指AI與視覺的關系。AI做的是大腦,成像做的是眼睛。這里就存在一個問題:大腦該如何控制眼睛?傳統(tǒng)的技術方法是定義一個通信控制接口,但在視覺應用中這種做法會非常復雜。比如,人眼有一個特點,就是“定睛一看”。通俗而言,就是人眼的成像是非常聚焦的,只看到關注的東西,其他都是模糊的。當AI算法解決了“要看什么”的問題后,前端成像就有了目標,可以把所有的資源都調配到關注的對象上,做到“指哪打哪”。這種根據AI的需求來成像,能解決很多以前解決不了的問題。從半年前開始,眼擎科技將大腦和眼睛的交互接口的開發(fā)當作重點來突破,也希望能跟更多的AI算法公司合作,共同推進大腦和眼睛交互的“第三種智能”。
● 從一家獨大到三國鼎立
朱繼志表示,以前,主流的處理器都集成了圖像功能,包括成像和圖像處理,但位置很不重要,這是Intel模式;現在,視覺處理成了核心,以前被集成的視覺部分會被分拆出來單獨成為一顆芯片,這是Nvidia模式,其他的AI芯片也都是這個思路。同樣的,集成的成像功能處理能力也不夠,也會被從SoC處理器中獨立出來,這就是Eyemore成像芯片正在做的事情。俗話說,“天下事,分久必合,合久必分”,以前芯片行業(yè)是CPU一家獨大,現在因為視覺的原因,變成三分天下了。也就是說,視覺影響了芯片的行業(yè)格局。
AI時代,芯片行業(yè)將從一家獨大變?yōu)槿龂α?/p>
● 去中心化的AI視覺產品產業(yè)鏈
區(qū)塊鏈是最近極火的概念,其核心思想就是去中心化。同樣的,在AI產業(yè)鏈中,也在上演去中心化的過程。朱繼志指出,傳統(tǒng)的硬件產品中,最核心的是CPU處理器,操作系統(tǒng)運行在CPU上,誰掌握了這個入口,誰就成了中心,比如Intel、高通、MTK這些芯片都是中心。但在AI產品里,AI算法和數據運行在包括GPU在內的AI大腦芯片上,CPU將不再是中心。
在中心化時代里,CPU會不斷集成各種功能,最終成為turn-key的SoC模式。當芯片集成了所有功能之后,所做的產品就會變得毫無差異化,最后比拼的只剩制造能力和銷售能力。而在AI時代,即便用同樣的芯片,不同的產品也會因為不同的算法和數據,產生極大的差異性和更大的市場價值,這就是在芯片去中心化后對AI產品產生的最大價值。
去中心化的AI視覺產品產業(yè)鏈





