別笑 雅虎也有人工智能的秘密武器
發(fā)表日期:2016.02.29 訪問人數(shù):666
又一個科技巨頭與世界分享它的人工智能成果了。2月24日,雅虎公布了 CaffeOnSpark 人工智能引擎的源代碼,從學(xué)術(shù)研究者到大公司員工都可以使用或修改。
也許近年來很少人了解雅虎在科技界的實(shí)力。它孵化了開源項(xiàng)目 Hadoop被 Facebook、Twitter 和許多其他公司廣泛使用的數(shù)據(jù)分析平臺。Hadoop 對于人工智能有特別的價值。數(shù)據(jù)和算法對訓(xùn)練人工智能系統(tǒng)同樣重要,而雅虎擁有最有意思的數(shù)據(jù)庫之一圖片站點(diǎn) Flickr。
和許多新的開源人工智能項(xiàng)目一樣,CaffeOnSpark 以深度學(xué)習(xí)為基矗深度學(xué)習(xí)是人工智能的一項(xiàng)分支,對幫助機(jī)器識別人類講話、圖像和視頻內(nèi)容用處尤其大。比如雅虎利用它測定不同圖片的內(nèi)容,來優(yōu)化 Flickr 的搜素結(jié)果。雅虎不是依賴上傳圖片的人所輸入的描述和關(guān)鍵詞,而是教會計(jì)算機(jī)識別圖片的某些特點(diǎn),比如特定的顏色、甚至動物和物體。
幾個月來,谷歌開源了它的深度學(xué)習(xí)框架TensorFlow,微軟開源了它的類似框架CNTK,臉書開源了它的人工智能硬件設(shè)計(jì),中國搜索引擎巨頭百度開源了它的深度學(xué)習(xí)訓(xùn)練軟件代碼。
這些開源各有側(cè)重。雅虎想在現(xiàn)有的系統(tǒng)上運(yùn)行深度學(xué)習(xí)進(jìn)程,不必把數(shù)據(jù)從一個地方移到另一個地方。雅虎的構(gòu)架副總裁 Andy Feng 解釋,訓(xùn)練一個深度學(xué)習(xí)系統(tǒng)識別圖片需要巨大的數(shù)據(jù)量。比如你把大量貓的圖片交給算法處理,最終機(jī)器會 “學(xué)到” 貓的共同特征,從而有能力分辨包含貓的照片和不包含貓的照片。
Flickr 擁有幾十億張照片,有充足的圖片類別來訓(xùn)練人工智能。但團(tuán)隊(duì)不想把所有 Flickr 主服務(wù)器的圖片復(fù)制到新的運(yùn)行深度學(xué)習(xí)軟件的服務(wù)器集群中。因此他們發(fā)明了在現(xiàn)有的基礎(chǔ)架構(gòu)中運(yùn)行深度學(xué)習(xí)軟件的途徑。
CaffeOnSpark,從名字可以看出,它將兩種現(xiàn)有技術(shù)結(jié)合起來:廣泛流行的深度學(xué)習(xí)框架Caffe和后起之秀數(shù)據(jù)分析系統(tǒng) Spark。雅虎創(chuàng)造了一種可以在Spark集群上運(yùn)行 Caffee 的方式。它可以在 Spark 上單獨(dú)運(yùn)行,也可以在 Hadoop 上運(yùn)行。Feng 說,除了簡化人工智能開發(fā)者對類似工具的操作,避免把數(shù)據(jù)搬來搬去,CaffeOnSpark 還使在多個服務(wù)器上分配深度學(xué)習(xí)進(jìn)程變得相對容易,這是谷歌的 TensorFlow 所做不到的。
Feng 表示在團(tuán)隊(duì)發(fā)布一條關(guān)于軟件的長文后,很多公司要求雅虎開源 CaffeOnSpark。看來有許多機(jī)構(gòu)都不想把服務(wù)器集群上的數(shù)據(jù)移來移去。