麻省理工發明張量全息術,瞬間生成全息圖,為AR/VR顯示提供新可能
經歷過80年代的人都應該記得商場和街機店中的各種全息游戲。我們大多數人都認為未來會充滿類似的全息游戲和電影。盡管這個未來尚成為現實,但麻省理工學院開發了一種利用人工智能來實時生成全息圖的全新方法。所述方法名為張量全息術(Tensor Holograpy),并且可由智能手機或筆記本運行。
研究人員一直在努力實現計算機生成全息圖,但所述過程需要一臺超級計算機來運行大量的物理模擬。這不僅耗時,而且結果不夠逼真。麻省理工學院的全新方法則幾乎可以瞬間產生全息圖。它采用了一種基于深度學習的方法,而且能效足以允許筆記本或智能手機快速運行。
名為《Towards real-time photorealistic 3D holography with deep neural networks(通過深度神經網絡實現實時的照片真實感級3D全息圖)》的論文已經發表在《自然》期刊。
值得一提的是,這項研究獲得了索尼的資助。
團隊表示:“人們以前認為,在現有的消費級硬件條件下不可能進行實時3D全息計算。人們常說,商用全息顯示器將在10年內問世,但這種說法已經存在了幾十年。”
他們認為,名為張量全息術(Tensor Holograpy)的全新方法最終能夠實現這個10年目標,并推動全息技術在虛擬現實和3D打印等領域的應用。
一般的照片會對每個光波的亮度進行編碼,并且能夠忠實地再現場景的顏色,但它最終只能產生一個平面圖像。
相反,全息圖對每個光波的亮度和相位進行編碼。這種結合提供了關于場景視差和景深的更真實描繪。不過,全息圖的繪制和分享是一個挑戰。
早期的全息圖是用光學方法記錄。這需要分裂一束激光,其中一半用來照亮被攝體,另一半用作光波相位的參考。這個參考產生了全息圖獨特的深度感,而生成的圖像為靜態,無法捕捉運動。而且它們只是硬拷貝,難以復制和分享。
計算機生成全息圖則通過模擬光學設備來避開所述挑戰,但計算耗能非常巨大。因為場景中的每個點都有不同的深度,所以不能對所有的點都應用相同的操作。這大大增加了復雜性。操作群集式超級計算機來運行這種基于物理的模擬可能需要數分鐘才能獲得一張全息圖像。另外,現有的算法不能以真實感的精度對遮擋進行建模。
所以,麻省理工大學的團隊采取了不同的方法:讓計算機自學物理。
他們利用深度學習來加速計算機生成全息圖,從而實現實時全息圖的生成。研究小組設計了一種卷積神經網絡,使用一系列可訓練的張量來大致模擬人類處理視覺信息的方式。
研究小組建立了一個由4000對計算機生成圖像組成的自定義數據庫。每對匹配一張圖片和相應的全息圖,包括每個像素的顏色和深度信息。為了在新數據庫中創建全息圖,研究人員使用了形狀和顏色復雜多變的場景,像素的深度從背景到前景均勻分布。另外,使用一組基于物理的全新計算來處理遮擋。這種方法產生了逼真的訓練數據。
論文主要介紹了一個基于深度學習的CGH管道,它能夠根據一個RGB深度圖像實時合成一個具有真實感的彩色三維全息圖。團隊的卷積神經網絡(CNN)具有極高的內存效率(低于620千字節),能夠以60赫茲的頻率在一個消費級圖形處理單元運行,分辨率則達到1920×1080像素。利用低功耗機載人工智能加速芯片,CNN同時可以在移動設備(1.1赫茲的iPhone 11 Pro)和邊緣(2.0赫茲的Google edge TPU)交互運行。
團隊通過引入一個大規模的CGH數據集(MIT-CGH-4K)來實現這條管道,所述數據集包含4000對RGB深度圖像和相應的3D全息圖。CNN使用基于可微波的Loss函數進行訓練,并在物理上近似菲涅耳衍射。采用抗混疊純相位編碼方法,研究人員實現了無散斑、外觀自然、高分辨率的三維全息圖。
通過從每個圖像對中學習,張量網絡調整了自己計算的參數,并不斷增強創建全息圖的能力。完全優化的網絡運行速度比基于物理的計算快數個數量級。這一效率讓團隊自己感到驚訝。
研究人員指出:“我們對它的表現感到驚訝。張量全息術只需幾毫秒就可以從帶有深度信息的圖像中制作出全息圖。另外,這些信息是由典型的計算機生成圖像提供,并且可以從多攝像頭設置或激光雷達傳感器中計算出來(這對新款高端智能手機而言已經是標配)。這一進展為實時三維全息術鋪平了道路。更重要的是,緊湊的張量網絡需要不到1 MB的內存。考慮到最新款智能手機擁有幾十到幾百千兆字節的可用容量,這可以忽略不計。”
盡管未參與研究,但閱覽過論文的微軟首席光學架構師約爾·科林(Joel Kollin)表示,這項研究“表明只需適度的計算需求都能實現真正的3D全息顯示。”他同時指出,與以前的研究相比,圖像質量有了顯著的改善,而這將能夠“增加真實感和舒適感”。另外,像這樣的全息顯示甚至可以根據用戶的視力參數進行定制,“由于全息顯示可以糾正眼睛的像差,所以顯示圖像可能比用戶通過眼鏡看到的畫面更清晰,而眼鏡只能校正像焦距和散光這樣的低階像差。”
團隊表示,新系統可以幫助VR用戶沉浸在更真實的場景中,同時消除長期使用VR帶來的眼睛疲勞和其他副作用。這項技術可以輕松應用在調節光波相位顯示器。目前,大多數價格合理的消費級顯示器只調節亮度,但如果廣泛采用,相位調制顯示器的成本會下降。
研究人員指出:“這是一個相當大的飛躍,可以徹底改變人們對全息術的態度。我們覺得神經網絡就是為這個任務而生。”
原文來自映維網:https://news.nweon.com/83772