為什么說AI創業不是4、5個人的團隊就能搞定的事
在人工智能領域內的一系列突破點燃了無限商機,大公司希望抓住機遇來加強現有職位,小公司希望借助新技術來提升市場領先地位。作為FirstMark的投資者,MattTurck已經看到機器學習領域內的初創正在躍躍欲試。MattTurck曾任BloombergVentures常務董事,現為FirstMarkCapital合伙人。
以下MattTurck對于機器學習型初創公司發展模式的討論,哪些是推動生態系統發展的原因,以及為什么它們看起來與之前的SaaS初創公司不同。
采訪人SamDeBrule是人工智能、技術、創業等領域的優秀博主。在Medium社區,他有8600多粉絲。他的《機器學習和人工智能的非技術指南》、《如何找到一個值得工作的創業公司》等文章獲得了許多喜愛。
Sam:Matt,請你簡單介紹一下自己以及你所做的工作吧。
Matt:我是紐約風投公司FirstMark的合伙人,FirstMakr管理著61億美元的資金,已經成為紐約市最大的早期投資創業公司。作為投資者,我雖然對很多事情感興趣,但我重點關注的領域有兩個。
第一個是數據領域,包括大數據、機器學習和人工智能公司,以及將大數據視為護城河的初創公司,如ActionIQ、Dataiku、x.ai、Sense360和HyperScience這樣的公司,我很熱衷于投資于這樣的企業,并時常在博客上討論這些話題。與此同時,我還運營著一個有著14000名大數據和AI愛好者的社區DataDrivenNYC。
第二是前沿科技領域,包括新型計算平臺、VR/AR、物聯網以及你所能想到的所有流行新事物。同樣地,我也會在個人博客上討論,并運營著一個超過5000人的社區HardwiredNYC。
1.現在確實是投資AI的最佳時機
Sam:你是在什么時候開始考慮投資機器學習領域
Matt:我是以數據分析師這個角色進入科技行業的。我是一家搜索引擎初創公司的聯合創始人,我們用貝葉斯理論(一種機器學習方法)來進行問題搜索和檢索。
實際上,機器學習已經存在于創投領域很多年了。但近年來,因為大數據的出現這個領域變得有趣了許多。大數據技術以合理的成本和速度捕獲和處理大量數據。另一方面,它同時加快了機器學習的發展速度,特別是需要大量數據工作的領域,如神經網絡。
現在正是投資該領域的最佳時機。在我看來,人工智能確實很熱。
2.營銷蓋過現實:IBM可能在兌現承諾方面做得最差
Sam:接下來,我們來討論一個比較犀利的問題。如今眾多的AI企業中,哪家企業在兌現消費者承諾方面做得最差?
Matt:根據我從市場上聽到的,可能是IBM。
很大程度上,正是因為他們的營銷機制和雄心勃勃讓他們陷入了一個尷尬的境地:承諾太多,同時間投入在多個領域難以得到市場的滿意回饋。據說,只要你愿意花幾個月的時間和大量的金錢去訓練IBMWaston,你就能用它來實現有趣的事情。但是,很明顯,這有些言過其實了。
他們會發現,在每個垂直領域的競爭上都十分激烈。據我了解,他們正在損失大量交易,通常是敗給那些更為專注、靈活的小公司。
3.人才是核心,而創業公司距離人才更近
Sam:Salesforce是否會走上和IBM同樣的路徑?
Matt:我覺得不會。當Salesforce創始人MarcBenioff去年宣揚人工智能平臺Einstein時,Salesforce公司自己的人都有些害怕,不過這可能是因為Marc本身就愛吹牛。
問題的核心是,創業生態系統的導向和市場收購動作有著直接聯系。因為創業公司距離機器學習領域的人才更近,而目前來看,這個因素是該行業的決定性條件。Salesforce和創業生態系統有較強的連接性,這一點很重要。
4.沒有大數據對創業公司的影響并沒有想象中大,行業里最敏銳的人正在致力于減少神經網絡對大數據的依賴,這是未來的一個方向
Sam:眾所周知,專有數據是模型訓練的關鍵,這使得創業公司和大公司相比會處于劣勢。是否能找到更小的數據集來為模型提供動力的方法?
Matt:創業公司在這一方面確實處于劣勢,但是這同時也會讓他們具備更多創造性,讓資源變得豐富。
從技術角度來說,當下該行業中最敏銳的人(不僅僅是初創公司里的人)正在致力于讓神經網絡在數據量較少的情況下發揮作用。在可以看得到的未來里,這將是這個行業前進的方向。
幾家我很熟悉創業公司已經取得了一些真正的進展,并在遷移學習方面做了一些有趣的事情。話雖如此,這似乎還是一個特別棘手的問題,所以還需要些時間。
同時,創業公司也正在尋找多種的方法獲得他們所需要的大型數據集。例如醫學成像領域的人工智能公司,他們中的一些人在與特定醫院建立了合作后,能安全地訪問一些特定的放射影像數據庫。在保險、工業機械、農業等領域也同樣如此。
另外,獲取數據只是挑戰的中一部分,你還需要給它貼上標簽,以便深入學習。一些創業公司在世界各地雇傭了一大批人,用MechanicalTurk(Amazon旗下的公司,網絡交易平臺)的套路來給他們的數據貼上標簽。
我還看到其他一些創企聘請了一些行業專家來給特定類型的數據貼上標簽,比如一個外科醫生精英組給最復雜的醫療圖像數據集貼標簽。
5.理論上,任何人都能收集到足夠多的數據,形成馬太效應
Sam:基于Netflix、Spotify和Facebook等平臺,我們看到數據集帶來的馬太效應。哪些初創公司在構建下一代強大的數據馬太效應?
Matt:理論上,任何人都能從多個用戶那里收集到足夠多的數據,在集合數據集上運行算法,并將學習反饋給每個客戶的機器學習企業這些都可以從數據網絡效應中受益。
以x.ai項目為例,人工智能助手安排的會議越多,得到的數據也就越多,算法隨即變得越聰明。算法越智能,體驗也就越好。反過來,體驗越好,www.twshmhelmet.com,人們也就會更愿意使用x.ai來安排會議,從而x.ai就能獲得更多的數據。如此良性循環下去。這便是數據網絡效應。
這種效應的奇妙之處適用于很多創業公司,從像x.ai幫助人們安排會議的公司,再到像Phosphorous幫助醫院經營基因檢測實驗室的公司都能適用。
在B2B模式背景下,通常不會輕易受到數據聚集帶來的馬太效應影響,因為企業都很注重對數據的保護,比較抗拒把自家數據和所在行業其他公司的數據摻糅在一起。
另一方面,數據集造成的門檻問題也將在一定程度上得到解決。谷歌搜索在幾個月前發表了一份關于聯合學習的文章,文章的想法是:在不實際收集數據的情況下支持協作式機器學習。這就可以解決所有關于數據隱私的擔心,充分利用各類數據網絡效應了。
不管怎樣,數據網絡效應的影響要幾年才能發揮出來。創企要建立客戶基礎來收集足夠的數據,這才能讓他們的模型進行學習。不過,一旦完成,企業就會形成較強的競爭力。
6.人工智能創業不是簡簡單單4、5個人就能搞定的事
Sam:人工智能是否將成為創業公司的最佳市場策略?