暢想未來AR交互愿景,F(xiàn)acebook要創(chuàng)造“新鼠標”革命
想象一下,一副輕巧時尚的眼鏡可以取代你對PC或智能手機的需求。無論朋友和家人身在世界何方,你將能獲得一種如同現(xiàn)實般物理臨在對方身邊的能力。另外,情境感知人工智能將幫助你導(dǎo)航周遭的世界,豐富的三維虛擬信息觸手可及。最重要的是,你不再需要低頭查看屏幕,你可以一直把注意力留在面前的世界。這是一種不會強迫你在現(xiàn)實世界和數(shù)字世界之間做出選擇的設(shè)備。
它聽起來像是科幻作品的描述,但這是Facebook正在實驗室里打造的未來。日前,團隊通過一篇博文分享了我們?nèi)祟悓⑷绾闻c這樣一個未來交互的愿景。下面是映維網(wǎng)的具體整理:
1. AR交互挑戰(zhàn)
Fcebook Reality Labs(FRL)首席科學(xué)家邁克爾·亞伯拉什(Michael Abrash)曾將AR交互描述為“最困難、最有趣的多學(xué)科問題之一”,因為這是人類與計算機交互方式的一次徹底轉(zhuǎn)變。上一次重大轉(zhuǎn)變始于20世紀60年代,當時道格拉斯·恩格爾巴特(Douglas Engelbart)的團隊發(fā)明了鼠標,從而幫助主導(dǎo)當今世界的圖形用戶界面(GUI)鋪平了道路。GUI的發(fā)明從根本上改變了HCI,使之變得更好。這是一個持續(xù)了數(shù)十年的巨大轉(zhuǎn)變。
但為了在用戶一天里遇到的任何情況下都能發(fā)揮作用,全天候可穿戴的AR眼鏡需要一個全新的范例。它們需要能夠做你想讓它們做的事情,并在你想知道的時候告訴你需要的信息。就像是你的大腦一樣,無縫地向你分享信息,在你想知道的時候采取行動,而且不以其他方式妨礙你。
亞伯拉什指出:“要讓AR真正無處不在,你需要低摩擦、隨時可用的技術(shù)。這種技術(shù)使用起來需要足夠直觀,可以成為你身體的延伸。這與HCI今天的狀況相去甚遠。所以,就如同恩格爾巴特一樣,我們需要發(fā)明一種全新的界面,一種將我們置于計算體驗中心的界面。”
這個AR界面需要是主動式而不是被動式。它將是一個能夠?qū)⒁鈭D無縫地轉(zhuǎn)化為行動的界面,讓我們對自己的生活擁有更多的代理權(quán),并且允許我們臨在重要之人的身邊。
重要的是,它需要在各個方面都為社會所接受:安全、私密、低調(diào)、易學(xué)、易用、舒適/全天可穿戴、使用輕松、可靠。
當我們構(gòu)建下一個以人為中心的計算平臺時,我們致力于以負責(zé)任的、以隱私為中心的方式推動這一創(chuàng)新。所以我們精心制定了一套負責(zé)任的創(chuàng)新原則來指導(dǎo)我們在實驗室里的所有工作,幫助確保我們的產(chǎn)品在隱私、安全和防護方面都站在最前沿。
簡言之,AR界面需要我們對人機交互方式進行徹底的反思,而且它將像GUI一樣徹底改變我們與數(shù)字世界的關(guān)系。
2. 已探索的問題空間
假設(shè)你決定走到附近的咖啡館,并在那里完成什么工作。你穿戴一副AR眼鏡和一個柔性腕帶。當你出門的時候,你的AI助理將詢問是否要播放你最喜歡的播客的最新一集。只需輕輕揮動手指,你就可以點擊“播放”。
當你走進咖啡館時,你的AI助手會詢問:“需要我下單一杯12盎司的美式咖啡嗎?”由于心情不像往常,你又揮動手指點擊“不”。
你走向一張桌子,但不是拿出一臺筆記本電腦,而是拿出一雙柔軟、輕便的觸覺手套。當你打開它們的時候,一個虛擬屏幕和一個虛擬鍵盤將出現(xiàn)在你面前,然后你開始編輯文檔。文本鍵入就如同操作物理鍵盤一樣直觀。你感到非常興奮,但咖啡館的噪音讓你很難集中注意力。
通過識別你正在做的事情,以及根據(jù)對環(huán)境噪音的檢測,AI助手將利用特殊的入耳式監(jiān)聽器(IEM)和主動降噪來減少背景噪音。現(xiàn)在你很容易集中注意力。接下來,一位服務(wù)員經(jīng)過你的桌子,詢問你是否需要續(xù)杯。AR眼鏡檢測到這一點,并允許服務(wù)員的聲音進入你的耳朵,但繼續(xù)隔絕周遭的噪音,只是通過波束成形主動增強服務(wù)員的聲音。在服務(wù)員為你續(xù)杯的時候,你們兩人依然可以進行正常的交談。這一切都是自動發(fā)生。
然后,一個朋友打電話給你,AI助手會自動將其發(fā)送到語音信箱,以免打斷你當前的對話。根據(jù)你的日程安排,比如說你需要接孩子放學(xué)的時候,你的視場會出現(xiàn)一個溫和的視覺提醒,這樣你就不會因為當前的交通狀況而遲到。
3. 打造所述的AR界面
FRL Research匯集了一支由研究科學(xué)家、工程師、神經(jīng)科學(xué)家等組成的高度跨學(xué)科團隊,并致力于解決AR交互問題,從而實現(xiàn)計算的下一個重大范式轉(zhuǎn)變。
FRL Research的負責(zé)人是研究科學(xué)總監(jiān)肖恩·凱勒(Sean Keller),而他則是在短短六年的時間里將最初的5人小組發(fā)展為一個由數(shù)百名世界級專家組成的團隊。凱勒表示:“我們通常從計算機的角度來考慮輸入和輸出,但AR交互是一種特殊的情況,我們正在構(gòu)建一種能夠感知、學(xué)習(xí),并在日常生活中與用戶協(xié)調(diào)行動的新型可穿戴計算機。我們希望賦能人們,使得每個人都能做得更多、臨在更多人身邊。我們的AR交互模型是以人為中心。”
亞伯拉什曾在2020年的Facebook Connect大會解釋說,一個隨時可用的超低摩擦AR界面將建立在兩根技術(shù)支柱之上:
第一種是超低摩擦的輸入:當你需要行動時,從構(gòu)思到行動的路徑將盡可能短而直觀。
你可以執(zhí)行手勢,發(fā)出語音命令,或者通過注視菜單來選擇項目。所述操作都是根據(jù)手部追蹤攝像頭、麥克風(fēng)陣列和眼動追蹤技術(shù)實現(xiàn)。但最終,你需要一個更為自然,非干擾性的方式來控制AR眼鏡。我們已經(jīng)探索了一系列的神經(jīng)輸入選項,包括肌電圖(EMG)。盡管有幾個方向具備潛力,但我們認為基于手腕的EMG最有前景。這種方法利用從脊髓傳輸?shù)绞植康碾娦盘枺⒏鶕?jù)手腕位置的信號解碼來控制設(shè)備的功能。經(jīng)過手腕的信號非常清晰,肌電圖可以檢測到手指僅一毫米的運動。這意味著輸入可以不費吹灰之力,就像點擊一個虛擬的、隨時可用的按鈕一樣輕松,而且最終甚至可以感覺到大腦移動手指的意圖。
第二根支柱是使用人工智能、情景和個性化來確定輸入操作在任何給定時刻對用戶需求的影響范圍。這需要構(gòu)建一個能夠適配用戶的界面,一個強大的人工智能模型,能夠根據(jù)對你和你周圍環(huán)境的理解、以及對你可能需要的信息或你可能想在各種環(huán)境下做的事情進行深入的推斷,并且為你提供正確的選擇。理想情況下,你只需點擊一次就可以實現(xiàn)你想要的操作,或者更好的是,未來你甚至不需要做任何事情系統(tǒng)就可以執(zhí)行正確的操作。我們的目標是允許你控制體驗,即便事情是自動發(fā)生。
盡管情境感知型人工智能與超低摩擦輸入的融合具有巨大的潛力,但挑戰(zhàn)依然存在。例如,如何將技術(shù)打包成舒適的全天候可穿戴形狀,以及如何提供操縱虛擬對象所需的豐富觸覺反饋。觸覺反饋同時可以允許系統(tǒng)與用戶通信(比如說智能手機的振動)。
為了應(yīng)對所述挑戰(zhàn),我們需要一種全天可穿戴的柔性系統(tǒng)。除了在超低摩擦輸入和情境化人工智能方面的深入研究,凱勒的團隊正在利用可穿戴的柔性電子設(shè)備(佩戴在皮膚表面或靠近皮膚表面以檢測和傳輸數(shù)據(jù)的設(shè)備)來開發(fā)一系列可以舒適地佩戴在手部和手腕的技術(shù),包括肌電傳感器和腕帶。這將有助于為我們提供更豐富的雙向溝通途徑。
AR眼鏡交互最終將受益于多種全新技術(shù)和/或改進技術(shù)的集成,包括神經(jīng)輸入、手部追蹤和手勢識別、語音識別、計算機視覺,以及全新的輸入技術(shù),如IMU手指點擊和自觸檢測。從場景理解到視覺搜索,它需要廣泛的情景型人工智能功能。所有這一切的目標都是允許更輕松、更快速地執(zhí)行你提供給設(shè)備的指令。
要在這種全新的交互范式中真正做到以人為本,我們需要從一開始就負責(zé)任地構(gòu)建它們,時刻關(guān)注用戶對隱私和安全的需求。這種設(shè)備將改變我們與世界及彼此的交互方式,所以我們需要讓用戶完全掌握這種交互。
打造AR界面是一項艱巨的、長期的任務(wù),尚需多年的研究。但通過現(xiàn)在的播種,我們相信我們可以達到AR的恩格爾巴特時刻,并在未來10年內(nèi)讓這個界面出現(xiàn)在人們的手中。
4. 更多的情景信息
對比未來的AR界面和之前的所有界面,最大的區(qū)別在于我們的AR設(shè)備將擁有更多的情景信息。眼鏡將從你的角度看世界,聽世界,就像你所做的那樣,所以它們將擁有比以往任何一個界面都多得多的個性化情景。外加強大的人工智能推理模型,這將允許它們以個性化的方式來為你提供幫助。
想象一下,一副AR眼鏡可以在商務(wù)會議中為你提供關(guān)鍵的數(shù)據(jù),引導(dǎo)你到達目的地,告訴你車鑰匙的位置。這個界面的潛能就如同1967年的GUI。可能性非常巨大,而且是盡你所想。
另一個區(qū)別是,大多數(shù)的現(xiàn)有界面都是模態(tài)。你通過運行一個應(yīng)用程序來選擇一個模式,然后你的一組選擇將改變以匹配這個模式。當你從一個應(yīng)用程序切換到另一個應(yīng)用程序時,當你轉(zhuǎn)到下一個任務(wù)時,你在任何給定時刻做的事情的情景信息都會丟失。但AR眼鏡并不是這樣。它們能夠在你一天中遇到的所有環(huán)境下都能無縫地工作。這些環(huán)境會不斷變化,而且常常會重疊。這意味著界面將把每個交互都視為一個意圖推理問題,然后它就可以利用預(yù)測向你展示一組簡單的選項,而不是今天的界面那樣,需要你一個接一個地瀏覽選項菜單以尋找目標信息。
關(guān)鍵的是,未來的接口將被一個關(guān)鍵的反饋回路放大。人工智能不僅可以向你學(xué)習(xí),而且因為輸入是超低摩擦(而且只需要“智能點擊”),人工智能會提出問題,以更快地提高對你和你的需求的理解。實時指導(dǎo)系統(tǒng)的能力將是非常有價值的,并將超越依賴傳統(tǒng)數(shù)據(jù)收集和培訓(xùn)的系統(tǒng)。
最終的目標是建立一個能夠準確地適配你和滿足你,而且在不確定時只需提出一個簡單問題即可消除歧義的界面。但這樣一個系統(tǒng)需要多年的發(fā)展。部分原因是訓(xùn)練人工智能推理模型所需的感知技術(shù)和自我中心數(shù)據(jù)根本不存在。通過收集第一人稱視角的數(shù)據(jù),我們最近啟動的Project Aria將使我們離這個目標更近一步。
在不久的將來,我們將看到可用但有限的情景型人工智能與預(yù)測功能,比如說能夠主動建議播放列表。請繼續(xù)關(guān)注我們的博客,屆時我們將回顧我們在HCI方面的研究:自適應(yīng)界面。
5. 以人為中心
今天的設(shè)備允許我們與相隔兩地的人建立聯(lián)系,不受時間和空間的限制,但這種聯(lián)系往往以臨在感作為代價。我們告訴自己,只要意志力足夠強大,我們就能夠把智能手機放到一邊,并專注于眼前的對話。那是個錯誤的選擇。我們的世界既是數(shù)字的又是物質(zhì)的,我們不應(yīng)該為了擁抱一個而犧牲另一個。
我們正在打造的設(shè)備不會強迫我們在人和設(shè)備之間做出選擇。這種未來派的設(shè)備將允許我們直視前方,并把注意力放到周遭的世界,這樣我們就可以做更多我們作為人類所要做的事情:聯(lián)結(jié)和協(xié)作。
但是,下一次計算浪潮要取得成果,我們就需要一種真正將人類放在中心的范式轉(zhuǎn)變。這意味著我們的設(shè)備需要適配我們,而不是反過來我們向設(shè)備妥協(xié)。這意味著AR需要自己的恩格爾巴特時刻。
原文轉(zhuǎn)載自映維網(wǎng):https://news.nweon.com/83706