企業(yè)如何深挖護城河,是算法還是數據？

時間：2020-08-06 14:36:02

關鍵字：人工智能機器學習

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 　　現(xiàn)在，AI浪潮引起人們關注的是，它帶來了一種新型網絡效應，有人將其稱為“數據網絡效應”。機器學習的算法需要數據來支撐。　　投資無非就是要找到“護

　　現(xiàn)在，AI浪潮引起人們關注的是，它帶來了一種新型網絡效應，有人將其稱為“數據網絡效應”。機器學習的算法需要數據來支撐。

　　投資無非就是要找到“護城河”，也就是某行業(yè)領域內一家公司獨有的優(yōu)勢和強項。因為：

　　? 未來的預期現(xiàn)金流預示了公司的估值；

　　? 盈利的能力預示了未來的預期現(xiàn)金流；

　　? 而護城河則預示了盈利的能力。

　　在AI時代，一家希望在AI領域創(chuàng)業(yè)成功的公司的護城河是什么？不是算法，不是數據，而是數據的平方。

　　為什么護城河預示了盈利的能力？很簡單，因為護城河增強了一家公司與其供應商和顧客的議價能力，幫助公司提高產品價格、降低成本，以此獲得更多利潤。各個市場里現(xiàn)有的網絡效應就是護城河的一個絕佳例子。以Airbnb來說，如果有越多的房出租，就越有可能吸引更多的房東自己找上門來，在Airbnb上發(fā)布房源。這樣就形成了閉環(huán)，其他平臺就很難進入這個市場了。

　　這種機制產生了一種“贏家通吃”的態(tài)勢，最大最強的那家公司常常會比它的競爭對手們大出幾個數量級。這也是為什么投資者喜歡這類獨角獸的原因。

　　AI為何如此特別？

　　現(xiàn)在，AI浪潮引起人們關注的是，它帶來了一種新型網絡效應，有人將其稱為“數據網絡效應”。機器學習的算法需要數據來支撐。雖然算法和數據之間并不存在線性關系，但機器學習的算法在接受了大量的數據后，處理預測/分類性任務的準確性變得更高了。

　　還有以下這種機制也值得注意：一家公司，隨著其用戶增多，會收集到越來越多的數據來訓練和優(yōu)化自己的算法，預測顧客喜好的精準度就越高，產品的總體質量也隨之提升，這就會吸引更多的新顧客來購買產品，為公司提供更多數據。這樣又形成一個閉環(huán)。

　　這就出現(xiàn)另一種自我增強型反饋環(huán)路，我們稱之為“人才吸引環(huán)路”。一家公司擁有越多數據，它就越能吸引到數據研究者來該公司工作，就有更大的機會吸引到業(yè)內大神，打造出完美的機器學習產品。

　　但問題是，一家初創(chuàng)公司起初一點數據都沒有（或只有一點數據），只能依靠一小群有才華的人（通常就是創(chuàng)始人）來維持運作。正如市場需要時間和資源來形成網絡效應，AI公司也需要初始數據來開始形成自己的增強環(huán)路。

　　而誰擁有這樣的數據？

　　現(xiàn)有的大公司。

　　這就是為什么現(xiàn)有公司會憑著既有優(yōu)勢，有失公平地站在了人工智能這場浪潮的浪尖上。

　　不過，好消息是，現(xiàn)有的大公司也不是那么容易地就可以駕馭這股潮流。

　　歌利亞可以戰(zhàn)勝：

　　分析現(xiàn)有公司優(yōu)勢的框架

　　以下這個公式可能可以用來解釋AI公司成功的部分原因：

　　AI企業(yè)成功＝數據＋機器學習能力＋算法

　　也就是，成功的、有市場競爭防御能力的AI公司有著足夠多的數據讓其機器學習可以用來創(chuàng)造出最佳的算法。

　　要想看清AI領域現(xiàn)有公司的優(yōu)勢，一個很有用的方法便是觀察這個2x2矩陣，其中一條軸是每個用例里可用的數據總量，另一條軸則是這個用例里的公司的本質。

　　在大型科技公司的用例里，每個潛在的客戶都擁有大量的數據，如果我們看這些用例，就會發(fā)現(xiàn)現(xiàn)有公司的優(yōu)勢十分明顯。除了那些典型的優(yōu)勢外（如客源更廣、更有能力去投資和承受損失），大型科技公司就像坐吃山不空，依靠的是多年積累的數據。

　　它們也從自己的品牌和強大的財力資源中獲益，有能力去聘請最優(yōu)秀的機器學習人才，讓他們研發(fā)出最強大的算法?，F(xiàn)有公司的得分：3／3。

　　初創(chuàng)公司在這種情況下不應該跟現(xiàn)有科技公司硬碰硬。

　　但現(xiàn)有公司在矩陣的這一塊并沒有很大優(yōu)勢，這就是右下方這一領域。這一塊是非技術公司的主場，而且它們的每一位潛在客戶都已經擁有了大量數據。想一想管理高速公路的運營商，它們就擁有著多年以來的收費站數據。

　　歷史已經證明，數據可能比算法更有價值，尤其是在深度學習登場后。

　　此外，大型技術公司正不斷地將最新的機器學習包開源出來，讓算法變成了商品，尤其是在物體識別、自然語言處理領域——我們稱為廣義機器學習。有了廣義機器學習，那些擁有大量數據集的非技術公司在使用開源數據包后得以獲得相關的有用結果，而這些數據包先前都是用科技公司的數據集來訓練的。

　　總的來說，一家大公司，無論它是不是科技公司，也不管內部有沒有頂尖的機器學習專家，都可以比一家擁有頂尖機器學習專家的小公司創(chuàng)造出更優(yōu)質的人工智能產品，因為它比小型初創(chuàng)公司擁有更多數據，就這么簡單。

　　這樣一來，我們就應該在方程式里更注重數據而不是機器學習的能力，所以，之前的公式應該修正為：

　　AI企業(yè)成功＝數據&TImes;數據＋機器學習能力＋算法

　　對初創(chuàng)公司來說，這可能意味著大量機遇。尤其是如果初創(chuàng)公司能：

　　? 整合大型技術公司缺乏的多種信息源，或者：

　　? 產生額外的專有數據。

　　這個矩陣里剩下的左下角這一塊，可能就存在著最大的機遇：技術公司沒有參與進來，而客戶也沒有途徑接觸到足夠龐大的數據集來讓廣義機器學習發(fā)揮作用。農業(yè)和醫(yī)護的某些領域就是很好的例子，這些領域里還沒有大型技術公司占據市場，而每個客戶也只有少量數據。

　　初創(chuàng)公司如何深挖護城河？

　　上述新公式意味著，當數據一開始只有很少量的時候，它的影響就沒有公式修正之前時那么大，機器學習能力和算法的權重就顯得更大。在這種情況下，現(xiàn)有公司的優(yōu)勢就沒有之前那么明顯了。

　　這樣計算的直接結果就是，當市場里數據稀少時，初創(chuàng)公司有機會憑借關鍵的機器學習能力和創(chuàng)新性的算法成為市場贏家。

　　以下三種相互關聯(lián)的方法，可以解決數據稀少情況下如何啟動創(chuàng)業(yè)的問題。

　　? 方法1：從眾多顧客身上收集數據

　　雖然憑一家公司之力可能無法獲得足夠多的數據集來打造出一款高級AI產品，但如果一家AI初創(chuàng)公司從其主要客戶中不斷收集數據，形成自己的數據池，那它就有可能成為唯一一家產品能讓顧客滿意的公司。在這個過程中，所有相關方都需要貢獻出自己獲得的數據，讓算法能夠在更龐大的數據基礎上得以訓練，進而從中受益。

　　? 方法2：（多個）智能系統(tǒng)

　　如果我們再深入一點探究大數據集難以獲得的其他原因，就會發(fā)現(xiàn)這些數據集不僅存在于不同客戶之間，還存在于不同的SaaS工具里。

　　坐擁這兩類數據集的AI初創(chuàng)公司就有非常大的可能做出最精準的預測，成為一種智能系統(tǒng)。

　　你可以把數據集看作是價值鏈上的互補性資產。剛成立的、看上去人畜無害的AI初創(chuàng)公司，可以與現(xiàn)有公司不屑于合作的客戶合作，從而建立起互補性資產，在與現(xiàn)有公司的競爭中存活下來。

　　這種觀點的逆反命題就是，任何一家依賴于單一、非專有數據的公司，其市場競爭抵御能力比那些結合多種數據來源的公司要低。

　　最后，我們回到了這個問題上：“誰在用我的數據賺錢？”——是那家產生數據的公司嗎？是儲存數據的公司嗎？還是那家打造出了最佳機器學習產品的公司？

　　? 方法3：獲得特有用戶生成的數據集

　　如果一家公司無法從多方客戶或多種SaaS工具里收集到數據，或者這些數據不足以讓公司做出精準模型，那么它可以嘗試從其對外提供的SaaS服務里產生額外的數據。這種獨特的方式可以讓公司獲得專有的數據集，而其他現(xiàn)有公司無法獲得。

　　只需少量的時間、投入和金錢就可以獲得足夠多的數據來滿足客戶的期待，因此公司的防御能力相對有限。這種情況尤其適用于所使用的數據可以公開獲得的案例。

　　客戶很有可能不會貢獻他們的數據，而數據網絡效應也需要經過漫長時期才能顯現(xiàn)，所以公司的防御能力會越來越強。

　　數據稀少的第二種情況可能會讓公司的防御能力大大增強，但也有可能會讓公司過得很艱難。

　　最后一點就是，機器學習的防御能力和SaaS服務的防御能力并非相互排斥。非常詳盡的產品發(fā)展藍圖、超贊的用戶體驗或用戶/數據鎖定，對AI公司構建自己的護城河都有重要的作用，這比依靠數據網絡效應發(fā)展起來的防御能力要強。