目前的 MR 顯示裝置往往面臨兩大挑戰:其一是體積龐大、外型笨重,不適合長時間使用;其二是顯示內容多半缺乏足夠的 3D 深度資訊,難以提供接近現實的立體感。這不僅限制了沉浸式體驗的真實性,也容易造成長時間使用的視覺不適。Meta 與史丹佛的研究則提供了一條突破路徑,他們設計出一種僅有數毫米厚度的超薄光學波導,結合 MEMS 掃描鏡與特殊的消色差全像透鏡,能在極小的體積下實現更寬廣的視域與清晰穩定的 3D 顯示效果。
這項技術的核心概念是「合成孔徑」。簡單來說,它利用多個小型光學孔徑的光線掃描,將其在數位上整合成一個「大型的合成光學孔徑」。這種設計能有效擴大瞳距範圍(eyebox),讓不同使用者、甚至在佩戴裝置時有些微偏移的情況下,依然能獲得完整、清晰的 3D 畫面。對於日常使用來說,這解決了過去 MR 裝置「必須固定在準確位置」才能觀看的問題,讓佩戴體驗更加自然。
除了光學架構,AI 演算法在這項技術中也扮演了關鍵角色。傳統的全像顯示需要高度精準的光波模擬,但波導結構內的光線傳播極為複雜,單純依靠傳統計算方式不僅耗時,準確度也不足。研究團隊引入了一種基於「部分相干理論」的 AI 模型,能有效學習光在波導內的傳播行為,並在減少資料需求與計算成本的情況下,生成高品質的全像影像。這讓顯示的 3D 影像不僅畫質更清晰,也能自然呈現視差與遮擋等關鍵的深度線索,讓使用者能像觀看現實世界一樣自由移動視線。
在實驗結果中,這項系統能在僅 3 毫米厚的光學堆疊下,實現 38° 對角視場的全彩 3D 顯示,並提供比傳統波導更大的有效瞳距範圍,讓影像在不同觀看角度下依然保持穩定。透過 AI 演算法與光場導向的電腦生成全像(CGH)框架,系統能即時渲染對應不同眼位的畫面,提供自然的立體視覺體驗。
隨著人工智慧與穿戴裝置技術的成熟,Meta 透過與音樂及音訊平台的合作,將 Ray-Ban Meta 智慧眼鏡(未來也將支援 Oakley Meta 眼鏡)打造為更自由、無縫的個人音訊中心。無需再糾結耳機線,也不必手忙腳亂地拿出手機,只需一句「Hey Meta」,即可啟動播放、搜尋、辨識或操作喜愛的音樂與內容。
目前支援的音樂與音訊平台包含 Amazon Music、Apple Music(限 iOS)、Spotify、Shazam 與 Music Info 等,在美國地區則額外支援 Audible 有聲書與 iHeartRadio 廣播服務。使用者可透過語音指令操作,例如:「Hey Meta,播放我的運動歌單」或「Hey Meta,播放 chill 音樂」,無需雙手即可完成。
硬體設計上,Ray-Ban Meta 採用開放式耳機設計,讓使用者在享受高品質音樂與語音內容的同時,仍能聽到周遭環境聲,適合戶外活動或通勤過程使用。未來登場的 Oakley Meta 眼鏡也預計延續相同架構,並優化於運動場景的配戴體驗。
用戶可依個人偏好快速設定與連接支援的應用程式,只需在 Meta AI app 中前往「眼鏡設定」>「已連接的應用程式」,選擇對應服務並同意相關條款後,即可啟用各項功能,並指定預設的音樂、Podcast 與廣播平台。除 Apple Music 僅限 iOS 外,其餘功能皆支援 Android 與 iOS 裝置。
透過語音搜尋、免手操作與直覺式觸控指令(長按推薦、單擊暫停播放、雙擊跳過),Ray-Ban Meta 智慧眼鏡正在重塑使用者的音樂互動體驗。不需耳機、沒有電線束縛,也無須手動操作,AI 眼鏡正將日常片段轉化為專屬的聲音氛圍。
Meta 於今年初正式發表了 Aria Gen 2 研究眼鏡,作為 Project Aria 計畫的延續,這款裝置旨在為研究社群提供更高效的資料收集工具與更強大的感知能力。Aria Gen 2 被定位為一款專為研究用途設計的穿戴式設備,整合了最新的電腦視覺、機器學習、感測器與即時 AI 運算技術,並透過開放式平台的方式,協助推進機器感知、空間理解、情境式人工智慧與機器人領域的研究。相較於 2020 年發表的 Aria Gen 1,Aria Gen 2 在設計與功能層面上皆有顯著提升,其硬體、演算法與感知模組的更新,意味著穿戴式研究裝置進入了新的階段。該裝置不僅改善了配戴舒適度,也擴展了感測能力與數據精準度,對從事人因工程、視覺認知、自然互動、機器人訓練與智慧城市研究的開發者而言,具備相當的實驗潛力。
Aria Gen 2 延續穿戴裝置的眼鏡形式設計,主打輕量、可攜、長時間配戴的特性,整體重量僅約 74 至 76 公克,並提供八種尺寸版本,考量到不同頭型、臉型與鼻樑結構,以提升適配度與配戴穩定性。此外,鏡腳可折疊的結構設計則進一步提升了日常操作與戶外研究的便利性。這些變化不僅僅是硬體上的調整,更反映出裝置作為研究載具在不同場域使用時的實用考量。透過更多尺寸選擇與輕巧設計,Aria Gen 2 有助於降低穿戴式研究裝置在長時間配戴下造成的身體負擔,使其更適用於實地研究、動態測試與移動應用場景。
在感測元件方面,Aria Gen 2 搭載的視覺模組經過全面升級。該裝置使用四顆電腦視覺鏡頭,數量較 Gen 1 加倍,能提供更寬廣的視角與更高解析度的圖像資料。這些鏡頭配備全球快門與高動態範圍感測器,其 HDR 表現達 120 分貝,相較前代的 70 分貝有明顯進步,有助於裝置在光源強烈變化的場景中穩定執行電腦視覺任務。同時,立體視覺重疊角度也由 Gen 1 的 35 度提升至 80 度,使其更適合進行基於立體影像的深度估測與 3D 重建。這些升級對需要高精度追蹤、姿態識別或空間場景重建的研究來說,可能提升影像數據的可用性與演算法的準確性。
除視覺感知外,Aria Gen 2 也整合了多種新型感測器,進一步擴展其應用潛力。環境光感測器(ALS)具備紫外線識別模式,能夠協助裝置分辨室內與室外環境,有助於優化相機曝光設定與低幀率拍攝條件下的資料表現。嵌入式接觸麥克風設置於鼻墊區域,能在高噪音環境中排除背景干擾,提升語音資料的準確性與可用性。此外,Aria Gen 2 亦內建 PPG 心率感測器,可用於生理狀態估測,這項設計對結合生理反應與環境行為分析的研究具有潛在價值。
CV 攝影機能夠捕捉高度動態的場景,並能分辨 LED 燈絲以及場景中的其他細節。(Video Form Meta)
環境光感測器 (ALS) (Video Form Meta)
模擬有風的場景,當聲學麥克風無法拾取佩戴者的耳語時,接觸式麥克風可以拾取佩戴者的耳語。(Video Form Meta)
針對裝置間資料協同與同步問題,Aria Gen 2 採用了 SubGHz 無線技術進行時間對齊。這項硬體式解決方案取代前代軟體式方法,具備亞毫秒級的時間同步精度,對於多台裝置進行協同紀錄、分散式場景重建與資料對比分析而言,可能帶來更高的資料一致性與時間準確性,進一步支援多視角研究或團隊合作實驗設計。
影片展示了 Aria Gen 2 如何使用裝置時間對齊來執行諸如從兩個 Aria Gen 2 裝置進行分散式擷取寫入等任務。(Video Form Meta)
為了滿足裝置端即時資料處理的需求,Aria Gen 2 配備 Meta 自家開發的低功耗協同處理器,支援機器感知演算法的即時執行。包括視覺慣性定位(Visual Inertial Odometry, VIO)在內的空間追蹤能力,讓裝置可在六自由度下執行位置與方向感知;眼動追蹤模組則提供瞳孔移動、眨眼、聚焦點、雙眼角度等多種視覺參數,有助於視覺注意力與人機互動研究;手部追蹤功能則能擷取三維空間中的關節位置與手勢資訊,應用於手眼協同、機器手臂模擬與手部數據集建立等用途。這些資料處理與感知模組結合後,構築了一套完整的環境理解架構,使 Aria Gen 2 能即時回應使用者動作與周圍變化。
演示 Aria Gen 2 的傳感器和機器感知能力,以及基於它們構建的設備外算法。
目前 Aria Gen 2 尚未全面開放申請,Meta 預計於年內啟動研究合作計畫,而針對前一代 Aria Gen 1 的研究套件仍持續接受申請,有興趣的研究人員可透過官方平台申請進入合作流程。Meta 亦預告將於 2025 年 6 月的 CVPR 年會現場展示 Aria Gen 2 的互動體驗,屆時將提供與會者第一手的裝置試用機會與技術解說。
Aria Gen 2 延續了 Project Aria 開放研究平台的精神,在硬體規格、感測模組、資料處理與同步能力上進行多方面升級。儘管仍以研究與開發為主要目標而非商用消費市場,但其設計與功能已逐步靠近空間運算核心技術的實際應用需求。對於學術界、產業研究團隊與創新開發者來說,這樣一款具備擴充性與即時感知能力的研究眼鏡,有可能成為觀察人類行為、訓練機器學習系統與打造新一代智慧環境的實驗平台。
Meta Aria Gen 2 重點整理|研究人員的理想穿戴式感知工具登場
Project Aria 計畫延續 Meta 推出 Aria Gen 2 研究眼鏡,專為機器感知、空間理解、AI 與機器人等前沿研究設計。
Accenture:為國際組織開發基於 Llama 3.1 的 AI 聊天機器人,該應用在 AWS 運行,具備可擴展性與高效處理能力。
Spotify:透過 Llama 強化個性化推薦系統,讓 AI 提供更具針對性的音樂推薦與背景介紹。
LinkedIn:使用 Llama 進行 AI 訓練,開發更適合社交平台需求的 LLM,並優化運行成本與效能。
除了企業應用,政府機構對 Llama 的興趣也在提升:
美國政府:開始探索 Llama 在數據處理與公共服務領域的應用。
印度技能發展與創業部(MSDE):計畫利用 Llama 提升學習系統與學生支援。
阿根廷政府:已將 Llama 應用於 WhatsApp AI 聊天機器人,提升政府公共服務的自動化與回應速度。
Meta AI 助理擴展應用,進入社交與穿戴設備
Llama 模型的發展也推動了 Meta AI 助理 的廣泛應用。該 AI 助理目前在 WhatsApp、Instagram、Facebook、Messenger 等平台運行,每月活躍用戶數已接近 6 億,預計將成為全球使用量最高的 AI 助理。Meta 預計在 2024 年底前,將 Meta AI 擴展至 43 個國家與 12 種語言,進一步提升全球影響力。
此外,Meta 也在探索 AI 技術與穿戴設備的整合:
Ray-Ban Meta 智能眼鏡:內建 Llama 模型,讓使用者可透過語音與 AI 互動,而無需使用手機。目前該功能已開放至法國、義大利、愛爾蘭、西班牙等地。
AI Studio:自 2024 年 7 月推出後,已成為創作者開發 AI 角色的主要平台,至今已有超過 數十萬個 AI 角色 被創建。2025 年,Meta 計畫將 AI Studio 打造成全球領先的 AI 角色創建平台。
進入 2025 年,Meta 計畫加速推動 Llama 模型的發展,Llama 4 將推出多個版本,進一步提升 AI 在 語音、推理 等領域的能力。Meta 預測,AI 互動將逐漸從文本轉向語音,並計畫在 2025 年上半年 強化 AI 語音技術,使其更具對話性與實用性。
Meta Movie Gen:已開發 AI 影片生成技術,未來可能會整合至 Meta 旗下應用,提供更強大的 AI 影片創作與編輯能力。
Agentic AI(智能代理 AI):Meta 正在測試企業 AI 助理,可處理顧客服務、商業交易等任務,未來可能發展出更多自主處理工作的 AI 助理。
AI 廣告與商業應用:Llama 目前已被應用於 Advantage+ Creative 廣告生成工具,協助企業自動產生文本、圖像與影片廣告,提升行銷效率。
Meta 推出的 LlamaCon 2025 將成為開發者與企業探索 Llama 模型技術的全新平台,隨著 AI 模型的持續演進,Llama 已成為開源 AI 生態系統中的重要組成部分。未來,Meta 計畫透過不斷創新與開放合作,使 Llama 成為 AI 技術的標準,並加速 AI 技術在語音、影像、商業應用等領域的發展。