全新 Meta-AI 可將 2D 圖像轉(zhuǎn)換為 3D 模型
Meta 研究人員提出了 MCC,這是一種可以從單個(gè)圖像重建 3D 模型的方法。該公司從中看到了 VR/AR 和機(jī)器人技術(shù)的應(yīng)用前景。
基于 Transformer 等架構(gòu)和大量訓(xùn)練數(shù)據(jù)的 AI 模型已經(jīng)產(chǎn)生了令人印象深刻的語(yǔ)言模型,例如 OpenAI 的 GPT-3 或最近的 ChatGPT。
自然語(yǔ)言處理的突破帶來(lái)了一個(gè)核心見(jiàn)解:擴(kuò)展使基本模型能夠拋棄以前的方法。先決條件是獨(dú)立于領(lǐng)域的架構(gòu),例如轉(zhuǎn)換器,它可以處理不同模式,以及來(lái)自非結(jié)構(gòu)化和部分未標(biāo)記數(shù)據(jù)的自我監(jiān)控訓(xùn)練。
結(jié)合大規(guī)模的、獨(dú)立于類(lèi)別的學(xué)習(xí),這種架構(gòu)近年來(lái)越來(lái)越多地用于語(yǔ)言處理以外的領(lǐng)域,如圖像合成或圖像分析。
Meta MCC 為 3D 重建帶來(lái)規(guī)模化處理
Meta FAIR Lab 展示了多視圖壓縮編碼(MCC),這是一種基于變壓器的編碼器-解碼器模型,可以從單個(gè) RGB-D 圖像重建 3D 對(duì)象。
研究人員認(rèn)為 MCC 是邁向用于 3D 重建的通用 AI 模型的重要一步,可用于機(jī)器人或 AR/VR 應(yīng)用,為更好地了解 3D 空間和對(duì)象或視覺(jué)重建開(kāi)辟了許多可能性。
雖然其他方法,如 NERF 需要多幅圖像,或者它們的模型需要與 3D CAD 模型或其他難以獲取并因此無(wú)法擴(kuò)展的數(shù)據(jù)進(jìn)行訓(xùn)練,但 Meta 數(shù)據(jù)依賴(lài)于從 RGB D 圖像中重建 3D 點(diǎn)。
這些具有深度信息的圖像現(xiàn)在已經(jīng)很容易獲得了,這是由于帶有深度傳感器的 iPhone 和簡(jiǎn)單 AI 網(wǎng)絡(luò)的普及,后者從 RGB 圖像中獲取深度信息。根據(jù) Meta 的說(shuō)法,這種方法具有很好的可伸縮性,而且將來(lái)很容易產(chǎn)生大數(shù)據(jù)集。
為了證明這種方法的優(yōu)點(diǎn),研究人員使用大量圖像和視頻來(lái)訓(xùn)練 MCC,這些圖像和錄像包含來(lái)自不同數(shù)據(jù)集的深度信息,從多個(gè)角度顯示物體或整個(gè)場(chǎng)景。
在 AI 培訓(xùn)期間,模型將被剝奪每個(gè)場(chǎng)景或?qū)ο蟮囊恍┛捎靡晥D,它們作為 AI 重建的學(xué)習(xí)信號(hào)。該方法類(lèi)似于語(yǔ)言或圖像模型的培訓(xùn),其中部分?jǐn)?shù)據(jù)也經(jīng)常被屏蔽。
Metas 3D 重建顯示了強(qiáng)大的通用性
Metas AI 模型在測(cè)試中顯示了有效且優(yōu)于其他方案的優(yōu)勢(shì)。該團(tuán)隊(duì)還表示,MCC 還可以處理以前沒(méi)見(jiàn)過(guò)的對(duì)象類(lèi)別或整個(gè)場(chǎng)景。
此外,MCC 顯示了預(yù)期的擴(kuò)展特性:隨著更多的訓(xùn)練數(shù)據(jù)和更多樣化的對(duì)象類(lèi)別,性能顯著提升。ImageNet 和 DALL-E 2 圖像也可以在 3D 點(diǎn)云中重建,并提供相應(yīng)的深度信息。
原文來(lái)自http://vr.sina.com.cn/news/hot/2023-02-01/doc-imyeekun8713710.shtml