今年 8 月,雷鋒網(wǎng)將在深圳舉辦一場盛況空前,且有全球影響力的人工智能與機器人創(chuàng)新大會。屆時雷鋒網(wǎng)將發(fā)布「人工智能&機器人 Top25 創(chuàng)新企業(yè)榜」榜單。目前,我們正在拜訪人工智能、機器人領(lǐng)域的相關(guān)公司,從中篩選最終入選榜單的公司名單。
2013年的時候,初創(chuàng)公司Leap面向PC端發(fā)布了Leap Motion之后,率先把手勢識別引入到了消費級市場。但是從現(xiàn)在來看,手勢識別似乎并沒有在PC端爆發(fā)的趨勢,相比較而言,VR領(lǐng)域卻推動了這項技術(shù)的發(fā)展。
本期硬創(chuàng)公開課我們邀請了極魚科技的兩位嘉賓為大家解答手勢識別的疑惑,他們分別是極魚科技創(chuàng)始人&CEO,前360智能攝像機聯(lián)合創(chuàng)始人房文新,和極魚科技算法組長、中國礦業(yè)大學(xué)碩士、計算機視覺專家、前靈境算法負責(zé)人Arron。
手勢識別對VR來說意味著什么?它的應(yīng)用場景有哪些?
VR和AR是公認的第三代計算平臺,每一代計算平臺都需要與之配套的交互方式,PC之于鼠標(biāo)、iPhone之于觸摸屏、VR+AR之于手勢操控。
毋庸置疑,手是人最自然的交互方式,帶上VR眼鏡大家很自然的就是伸出手。
沒有通用人機交互的創(chuàng)新,VR+AR不可能成為下一代計算平臺,只有脫離了手柄脫離了游戲(100億的市場),深入到人們的工作和生活中去(一千億的市場),代替電腦代替手機成為離每個人都最近最強大隨身攜帶的信息終端節(jié)點。
舉個例子,諾基亞的失敗與蘋果的成功,差別在于后者人機交互上更自然體驗更好,一個使用電阻觸摸屏一個使用了電容觸摸屏:前者就這樣被顛覆了,當(dāng)然還有與之配套的UI設(shè)計、人機交互設(shè)計、App和游戲支持。
能顛覆PC的必然不是PC的變種,能顛覆iPhone的必然不是iPhone的變形,下一代計算平臺必然離我們更近:VR、AR、MR!
而對下一代計算平臺來說,我們認為手勢識別為主+語音識別為輔+人工智能語音助手的組合就是最佳的人機交互方案。
按照現(xiàn)在的趨勢,手勢識別未來的應(yīng)用場景非常廣泛,例如視頻、游戲、社交、建筑、設(shè)計、實驗、教育、旅游、軍事、全息交互控制等。
手勢識別與姿態(tài)識別、人臉識別、物體識別的差異是什么?
其實這幾種識別的方案在硬件(如傳感器的模式)大體是相同的。
而且從技術(shù)角度來說,它們也有一些共性,都需要進行目標(biāo)提取,特征識別定位,三維重建等步驟。當(dāng)然,如果要增強識別的效果,手勢識別肯定是要融合機器學(xué)習(xí)算法的,這樣就可以以離線、在線的方式不斷優(yōu)化識別的特征沒這樣就可以提升識別的效率和準(zhǔn)確率。
姿態(tài)識別
手勢識別與姿態(tài)識別、人臉識別、物體識別的差異主要體現(xiàn)在應(yīng)用場景:手勢識別目前多用于人機交互;人臉識別可應(yīng)用于電影中的動畫表情重建,另外在安防領(lǐng)域應(yīng)用較多;姿態(tài)識別則主要用在體感游戲,例如Kinect;物體識別的應(yīng)用就多了,例如網(wǎng)絡(luò)購物實時繪制商品,家具模型等。
手勢識別的實現(xiàn)路徑有哪些?技術(shù)原理是什么樣的?
現(xiàn)在的手勢識別方案主要有四種:第一種是機械手勢識別,例如DExmo;第二種,慣性傳感器,Ahrs九軸的noitem的動捕手套就是這種;第三中是基于彎曲傳感器的方案;最后一種是最自然的手勢,基于視覺的手勢識別,例如leapmotion、Kinect和ThisVR等。
我們主要聊一下基于視覺的方案。
按照結(jié)構(gòu)和數(shù)據(jù)源來區(qū)分,也可以包含四大類:RGB攝像頭,紅外雙目攝像頭+IR補光,light coding紅外結(jié)構(gòu)光,ToF深度攝像頭。
紅外雙目攝像頭+IR補光是一種比較主流的方案。它的特點是成像質(zhì)量好,目標(biāo)容易提取,背景干凈,通過雙目標(biāo)定能很好的實現(xiàn)手勢目標(biāo)邊緣的三維重建。以leap motion的三維重建原理為例:
雙目攝像頭方案原理
它應(yīng)用了特殊紅外波段打光,集合攝像頭加入了對應(yīng)波段的紅外窄帶帶通濾光片,第一步先進行目標(biāo)提取,通過雙攝像頭的標(biāo)定之后,結(jié)合特征匹配能很好的進行左右視察對應(yīng)的特征點。
因為雙目攝像頭的標(biāo)定作用體現(xiàn)在左右時差能達到小范圍的一一對應(yīng),這對之后的三維重建和匹配有很大的幫助。
除此之外,現(xiàn)在雙目攝像頭多采用技術(shù)比較成熟的CMOS傳感器,這樣的分辨率和幀率(很容易達到100幀)可以達到很高的水平。
不過雙目攝像頭的缺點就是需要進行算法處理后才能獲得三維信息,因為目前的幀率很高,已經(jīng)能實現(xiàn)很好的跟蹤效果,但是它的紅外補光又使得這種方案無法在強光或是和它同一波段的光源下使用,因為太陽光是全波段光譜,所以雙目攝像頭方案在白天室外環(huán)境下基本不能使用。
ToF原理
light coding紅外結(jié)構(gòu)光也面臨同樣的問題。相比之下,ToF深度攝像頭則剛好彌補了這一短板,你可以理解它是一個激光正面,通過發(fā)射和接收光信號的相位差,直接算出深度值,這樣的方案抗光性好,在室內(nèi)外都適用。
light coding和ToF對比
其實,手勢識別是個很單一的問題,無論用哪個方案,經(jīng)過細分拆解都要進行分析和算法的實現(xiàn),如左右手區(qū)分,手腕和手掌的分割,正面、側(cè)面和背面的識別,最后就是手指ID的識別。
手勢識別實現(xiàn)的功能和穿戴式的手套的一樣嗎?
其實手勢識別和穿戴式手套是互補的關(guān)系,玩游戲還是手柄手套比較適合,因為能有力反饋但是手柄30年來只存在游戲行業(yè)。
但手勢識別未來主要的應(yīng)用場景并不是游戲?;剡^頭來談VR/AR,它們要成為下一代計算平臺,深入到大眾的工作和生活當(dāng)中,還是需要一個通用人機交互方式,而這樣的人機交互不僅是在游戲或者視頻領(lǐng)域,想象一下?lián)Q成了手柄或者手套是一種什么樣的場景...手勢識別的實現(xiàn)是為了讓人解放雙手,手上不帶任何設(shè)備就可以實現(xiàn)最自然的人機交互。
如果用市場空間來做對比的話,游戲行業(yè)只有100億美元左右的規(guī)模,而深入到工作和生活的每個角落:辦公、家居、教育、旅游、衣食住行等,才是萬億級別的市場。
所以,我們認為手勢識別為主,語音識別為輔就是第三代人機交互的方式。
手勢識別離普及還有多久?
當(dāng)然,現(xiàn)在的手勢識別技術(shù)還不成熟。
以我們自己遇到的問題為例,現(xiàn)階段積累的手勢模型庫還比較少,雖然人工采集了幾萬個,計算機自動建模也有幾百萬個,但這遠遠不夠,如果要達到成熟完全能用的情況還最少要提升十倍到百倍的量,這時候又會涉及到計算量以及帶寬等問題。
嚴格來說,模型庫越大,加上好的特征選擇和特征降維技術(shù),深度學(xué)習(xí)體系越完整,學(xué)習(xí)效率越高,廠商訓(xùn)練出來的識別矩陣就更完善,相應(yīng)的廠商識別精度和匹配準(zhǔn)確度越高,通用性更強,越能適配各種不同年齡大小胖瘦的人群。
所以未來的手勢識別普及的前提就是解決上述問題。