3D視覺技術(shù)的發(fā)展
近年來,隨著芯片技術(shù)的發(fā)展以及相關(guān)軟硬件系統(tǒng)的深入,視覺傳感器得到了極為廣泛的應(yīng)用。社會越來越智能,可以使用人工智能和大數(shù)據(jù)技術(shù)將人們記錄下來的圖像智能地利用起來,而不是用一個個柜子將圖像、視頻束之高閣。
從膠卷,到CCD 再到現(xiàn)在特別成熟、隨處可見的CMOS,我們對圖像傳感器的性能追求也逐漸發(fā)生了改變。shou機上開始出現(xiàn)前攝、后攝,后攝也出現(xiàn)了俗稱的“浴霸”、“加特林”。在算法的加持下,每顆攝像頭的用處都不一樣。
而18、19年將是3D圖像傳感器起飛與騰飛的兩年。有了3D傳感器,我們就更容易做基于事件的分析并直接指導(dǎo)我們身邊圖像的優(yōu)化做出體感游xi、人臉支付、機器人自動避障、工業(yè)自動分揀等應(yīng)用。
2016年,AlphaGo成為個不借助讓子而擊敗圍棋職業(yè)九段棋手李世石的計算機圍棋程序,這件事引起了人類的轟動,也展開了各種討論。隨之而來的是人工智能鋪天蓋地的宣傳,這給了無數(shù)人信心,機器智能化的大浪潮撲面而來。
現(xiàn)在AI是一個很火的詞。很多人都想做AI,也有很多人想往AI上面靠,AI的出現(xiàn)就相當(dāng)于我們有了一個聰明的大腦。以前的處理器,只能處理一個特定場景的問題,AI給這個世界帶來了可以自我學(xué)習(xí)、自我改進的功能,特別是對復(fù)雜場景的處理,AI更“聰明”。
可是只有AI,自動駕駛也做不起來,它還需要攝像頭、激光雷達、毫米波雷達等各類傳感器。
人臉識別也是非常好的一項技術(shù),可以用來做人臉識別閘機、人臉無感支付,但是現(xiàn)在很多時候人臉識別還是容易受到環(huán)境干擾、hei客攻擊。
所以,想把AI做好,傳感器對我們進入智能時代至關(guān)重要。有了3D傳感器,掃地機不會跌跌撞撞,僅憑一張照片一個視頻也騙不開shou機解鎖,自動駕駛也能檢測到來往行人、車輛,變得更安全。
3D傳感器在AI幾乎所有的領(lǐng)域都有廣泛的應(yīng)用,比如新零售,自動駕駛,個性化教育,智慧醫(yī)療,智能安防,智能監(jiān)護,智能機器人等等。 2019年,我們也將迎來3D視覺技術(shù)在各個領(lǐng)域的廣泛應(yīng)用。
1、 雙目視覺
談到3D視覺,主要就是指圖像不僅僅是二維的XY坐標(biāo),還要感受被拍照物體的距離遠近,大小尺寸,也就是空間坐標(biāo)Z。
我們?nèi)丝恐笥覂芍谎劭梢怨烙嫵銮胺降拈T在3m處,桌子上的茶杯在1.5m處,遠處的樹大概在10m。仿生學(xué)是被應(yīng)用得非常好的,通過兩只攝像頭,無人機可以分辨前方障礙物一根電線桿的距離。因為在它的左眼中,物體坐標(biāo)為A,相應(yīng)的視場角度α, 右眼坐標(biāo)為B,相應(yīng)的視場角度β,而基線距離x是早先就在機械結(jié)構(gòu)上確定的。這樣通過下面的公式,我們就可以得到空間點的z軸距離。
這個方法已經(jīng)沿用了很多年,從技術(shù)上來說,視野里面所有的點都不可靠了,不能確定左右眼中的兩個點是不是同一個點。它的優(yōu)點就是觀測距離遠,精度高,成本相對較低。缺點就是面對單一場景,例如一面白墻,波動的水面,皚皚的白雪,綠油油的草地,我們?nèi)硕紩⒖键c,這時候無人機或處理器就無法計算出深度。
這也就是為什么雙目攝像頭鮮少應(yīng)用在shou機、人臉識別、人臉解鎖等方面。
另外一個問題是,如果我們要將物體表面做一個高分辨率深度探測,那么處理器先要做多點的圖像數(shù)據(jù)匹配,這個匹配算法的算力要求就超乎一般人想象,然后再執(zhí)行圖中公式的計算,而這個運算是三角函數(shù)級別,比較復(fù)雜??梢韵胂笕绻枰獙⑷四槺砻孀?000個點的深度信息建模,那么所需要的運算量是多么的復(fù)雜。
2、結(jié)構(gòu)光
2017年iPhone X面世,它采用3D結(jié)構(gòu)光的方式,將我們?nèi)四樀?D數(shù)據(jù)測算出來,又一次了技術(shù)潮流。
對于結(jié)構(gòu)光,其實也是一個很古老的技術(shù),只不過蘋果可以把它做到shou機里面,還是比較讓大家吃驚的。
左圖是一個3d結(jié)構(gòu)光的簡單實驗版。通過右邊的投影儀可以投影出黑白相間的條紋狀圖案,打在一個狐貍面具上面這些條紋狀的圖案就會產(chǎn)生一定的畸變。通過CCD相機將這個畸變的形狀拍下來之后,便可以通過這個畸變的狀態(tài),去計算出這個面具相應(yīng)的凹凸不平的3D信息。比如條紋向左彎曲,就代表凸起,向右彎曲代表凹陷。
單點結(jié)構(gòu)光的三角測距法基本原理如右圖,激光光源打出一個很小很亮的紅點,傳感器接收到之后,就可以在sensor表面找到這個特別亮的點的坐標(biāo)(x’,y’)。結(jié)合光源的投影角,基線距離b,鏡頭焦距f,就可以通過上面的公式解析出三軸坐標(biāo)(x,y,z)了。
而IPHONE X使用了3萬個點的投射器,然后通過一百四十萬像素的紅外攝像頭,將這些投射點的信息全部都采集回來,這中間一個復(fù)雜的問題,就是要將這3萬個點每一個點匹配。這里面難的就是要找到打在臉上的點的ID,也就是得知道打出點的投射角,基線距離。這個匹配算法是需要非常大量的計算的。而且為了降低計算量,這3萬個點的排布在我們看來是隨機的,實際是符合某種數(shù)學(xué)幾何規(guī)律的。
可以看到這個計算公式里面包含了各項幾何參數(shù),所以對組裝工藝要求很高,而且后期客戶將shou機摔倒了或者震動,都可能會影響3D測量精度。
另外這塊由于專li的保護,別人很難進入。所以業(yè)內(nèi)對于蘋果能推出這個方案,還是很佩服的,蘋果還是具備相當(dāng)強大的工程能力。因為IPHONE X的利潤率不錯,蘋果可以做這塊的事情。而別的廠商做這個就挺痛苦的,受限于成本和技術(shù)難度。
來源:光電微課堂