Facebook分享:如何利用AI技術將2D圖片轉換成3D圖片
Facebook于2018年推出了3D Photos功能,并將其作為一種與朋友和家人分享圖片的全新沉浸式格式。但這項功能依賴于高端智能手機的雙頭攝像頭“人像模式”。所以,只有一個后置攝像頭的典型移動設備無法予以使用。為了將這種視覺格式帶給更多用戶,Facebook采用了最先進的機器學習技術,允許幾乎任何的標準2D圖片生成3D圖片。
團隊指出,無論是使用標準單攝像頭的Android或iOS設備所拍攝的照片,還是上傳到智能手機或筆記本電腦的數十年前的老照片,這一系統可以推斷任何圖片的3D結構。
利用這項先進的技術,數百萬搭載單攝像頭的智能手機或平板電腦將能夠首次輕松地利用3D照片技術。轉換為3D同時可以令你以全新的方式體驗數十年前的家庭照片和其他珍貴圖像。擁有先進雙攝像頭設備的用戶同樣可以從中受益,因為你現在可以利用單個前置攝像頭進行3D自拍?,F在,所有iPhone 7或更高版本,或最新的中高端Android設備用戶都可以在Facebook應用程序中進行嘗試。
這個動畫說明了系統是如何為創建3D圖像而估算2D圖片不同區域的深度。
構建這種增強的3D照片技術需要克服各種技術挑戰,如訓練可正確推斷出多個主體的3D位置的模型,以及優化系統,令其能夠支持常規的移動處理器快速完成處理。為了克服相關挑戰,Facebook AI團隊通過數百萬對公共3D圖像及其隨附的深度圖來訓練卷積神經網絡,并利用FBNet和ChamNet等先前開發的各種移動優化技術。
現在這項功能已經向所有Facebook用戶開放,而團隊日前通過博文介紹了相關的開發細節。
原圖是用單透鏡相機拍攝,不包含任何深度圖數據。Facebook的系統將其轉換下圖所示的3D圖像。
1. 為移動設備帶來高效的性能
給定標準RGB圖像,3D Photos CNN可以為每個像素估計距攝像頭的距離。團隊通過以下四種方式來實現所述目標:
使用一組可參數化,針對移動設備優化的神經構建模塊所構建的網絡架構。
自動化架構搜索,為其尋找有效配置,從而令系統能夠支持任何設備在少于一秒內執行任務。
量化感知訓練,從而在移動設備利用高性能的INT8量化,同時最大程度地減少量化過程中潛在的質量下降。
來自公共3D照片的大量訓練數據。
2. 神經構建模塊
團隊開發的架構使用了受FBNet啟發的構建模塊。FBNet是用于為移動設備和其他資源受限設備優化ConvNet架構的框架。構造模塊由點式卷積,可選的上采樣,K x K深度式卷積,以及附加的點式卷積組成。研究人員實現了一個U-net樣式的架構,并修改為沿著skip connection放置FBNet構建模塊。U-net編碼器和解碼器包含五個階段,每個階段對應于不同的空間分辨率。
網絡架構概述:所述的網絡架構是一個U-net,并且包含沿skip connection放置的額外宏級別構建模塊。
3. 自動化架構搜索
為了找到有效的架構配置,團隊使用了由Facebook AI開發的算法ChamNet來自動化搜索過程。ChamNet算法迭代地從搜索空間中采樣點并用以訓練精度預測器。所述精度預測器用于加速genetic search,從而定位一個在滿足指定資源限制的同時最大化預測準確性的模型。在這種設置下,研究成員使用了一個會改變通道擴展因子和每個模塊輸出通道數的搜索空間,從而產生3.4×1022的可能架構。然后,他們使用800個Tesla V100 GPU在大約三天內完成搜索,設置及調整模型架構的FLOP約束以實現不同的運算點。
4. 量化感知訓練
默認情況下,模型使用單精度浮點權重和激活進行訓練,但團隊發現了將權重和激活量化為8位的顯著優勢。特別地,int8權重僅需要float32權重所需存儲量的四分之一,從而減少了首次使用時必須傳輸到設備的字節數。
圖像一開始都是常規2D圖像,并通過Facebook AI的深度估計神經網絡轉換為3D。
與基于float32的運算符相比,基于Int8的運算符同時具有更高的吞吐量,這要歸功于QNNPACK等經過精細調整的庫(已集成到PyTorch中)。團隊使用量化意識訓練(Quantization-aware training;QAT)來避免由于量化而導致的質量下降。QAT(現已作為PyTorch的一部分)在訓練過程中模擬量化并支持反向傳播,從而消除了訓練和實際性能之間的差距。
這個神經網絡可處理多種內容,包括復雜場景的繪畫和圖像。
5. 尋找創建3D體驗的新方法
除了完善和改進深度估算算法外,團隊同時致力于為移動設備拍攝的視頻提供高質量的深度估算。視頻帶來了一個值得關注的挑戰,因為每個幀的深度必須與下一幀的深度一致。但這同時是提高性能的機會,因為對同一對象的多次觀察可為高精度的深度估計提供額外的信號。視頻長度深度估計將為用戶帶來各種創新的內容創建工具。隨著團隊繼續改善神經網絡的性能,他們將探索在諸如增強現實之類的實時應用中利用深度估計,表面法線估計和空間推理。
Facebook指出:“除了這些潛在的新體驗之外,這項研究還將幫助我們更全面地理解2D圖像的內容。更好地理解3D場景同時可以幫助機器人導航并與現實世界交互。我們希望通過共享有關3D Photos系統的詳細信息,我們可以幫助AI社區在這些領域取得進展,并創造利用先進3D理解的新體驗?!?/span>
原文來自:https://yivian.com/news/72515.html