分類彙整: 人工智慧AI

Genie 3:Google DeepMind 打造可即時互動的世界模型,推進模擬智能邊界

廣告

Google DeepMind 正式公開 Genie 3,一項在世界模型領域邁出關鍵步伐的技術成果。作為前兩代 Genie 系統的進化版本,Genie 3 能根據自然語言提示生成動態虛擬世界,支援玩家以 24FPS 的速度在 720p 畫質下進行即時互動。其最大的突破在於:Genie 3 不僅提供更長時間的環境一致性,還可觸發可提示的世界事件,使模擬體驗不再只是被動觀看,而能主動參與與操控。

根據 DeepMind 團隊說明,Genie 3 在「交互時間視野(Interaction Horizon)」方面可維持數分鐘的連續邏輯一致性,並透過即時反應使用者行為改變世界狀態,這與以往僅能預覽短暫片段的模擬模型相比,展現了質的飛躍。從穿越風暴的海岸到在幻想森林中奔跑,Genie 3 能生成極具敘事感與物理真實感的沉浸式體驗。

在控制方式上,Genie 3 支援使用者以第一人稱視角進行導航,並可透過文字提示改變世界設定,例如切換天氣、加入新角色,甚至觸發世界規模的劇情變化。這一點讓 Genie 3 成為目前少數能將「可控敘事」與「世界生成」有效結合的模型。與需要 3D 建模或預先訓練資料的 NeRF、Gaussian Splatting 不同,Genie 3 可根據使用者輸入即時逐幀建構場景,動態靈活且豐富。

根據公開資訊,Genie 3 的應用涵蓋面廣泛,從物理模擬、虛擬生態系統、歷史建築重建,到幻想動畫敘事與角色導向互動。展示影片中出現的畫面包括:火山地形下的輪型機器人探索、海邊強風來襲前的疾行、深海水母生態系、魔法傳送門、手繪教室場景記憶測試,以及可提示世界事件導致場景變化的案例。這些場景展現出 Genie 3 不僅理解結構與空間關係,更能維持視覺連貫性與動態生成物理效果。

根據官方提供的對比資料,相比前代系統,Genie 3 在解析度、控制方式與交互延遲等多項指標上都有顯著提升。從僅限於靜態輸出的 Veo,到支援部分鍵盤滑鼠操作的 Genie 2,如今 Genie 3 已實現一般領域、即時互動、可引導世界事件與長時段一致性的完整世界模型能力。

儘管 Genie 3 尚未開放公開測試,但其展現出的技術特性與應用潛力,已引起開發者與學術界的高度關注。對於正在尋求 AI 訓練環境、自適應學習空間,甚至構建虛擬社會與敘事平台的研究者而言,這套系統可能預示著通用人工智慧(AGI)所需模擬能力的早期實現方式。

Meta 與史丹佛提出「合成孔徑波導全像顯示」:AI 驅動的超薄 MR 顯示技術,實現大視域與高擬真 3D 體驗

廣告

Meta Reality Labs Research史丹佛大學的研究團隊 近日發表了一項結合先進光學與 AI 演算法的新技術——「合成孔徑波導全像顯示」(Synthetic Aperture Waveguide Holography)。這項技術的目標,是解決目前混合實境(MR)顯示器在外型、影像品質與視域等方面的限制,並為未來真正輕量化、全天候可穿戴的 MR 顯示設備奠定基礎。

目前的 MR 顯示裝置往往面臨兩大挑戰:其一是體積龐大、外型笨重,不適合長時間使用;其二是顯示內容多半缺乏足夠的 3D 深度資訊,難以提供接近現實的立體感。這不僅限制了沉浸式體驗的真實性,也容易造成長時間使用的視覺不適。Meta 與史丹佛的研究則提供了一條突破路徑,他們設計出一種僅有數毫米厚度的超薄光學波導,結合 MEMS 掃描鏡與特殊的消色差全像透鏡,能在極小的體積下實現更寬廣的視域與清晰穩定的 3D 顯示效果。

這項技術的核心概念是「合成孔徑」。簡單來說,它利用多個小型光學孔徑的光線掃描,將其在數位上整合成一個「大型的合成光學孔徑」。這種設計能有效擴大瞳距範圍(eyebox),讓不同使用者、甚至在佩戴裝置時有些微偏移的情況下,依然能獲得完整、清晰的 3D 畫面。對於日常使用來說,這解決了過去 MR 裝置「必須固定在準確位置」才能觀看的問題,讓佩戴體驗更加自然。

除了光學架構,AI 演算法在這項技術中也扮演了關鍵角色。傳統的全像顯示需要高度精準的光波模擬,但波導結構內的光線傳播極為複雜,單純依靠傳統計算方式不僅耗時,準確度也不足。研究團隊引入了一種基於「部分相干理論」的 AI 模型,能有效學習光在波導內的傳播行為,並在減少資料需求與計算成本的情況下,生成高品質的全像影像。這讓顯示的 3D 影像不僅畫質更清晰,也能自然呈現視差與遮擋等關鍵的深度線索,讓使用者能像觀看現實世界一樣自由移動視線。

在實驗結果中,這項系統能在僅 3 毫米厚的光學堆疊下,實現 38° 對角視場的全彩 3D 顯示,並提供比傳統波導更大的有效瞳距範圍,讓影像在不同觀看角度下依然保持穩定。透過 AI 演算法與光場導向的電腦生成全像(CGH)框架,系統能即時渲染對應不同眼位的畫面,提供自然的立體視覺體驗。

這項技術的潛力不僅限於顯示效果。由於波導結構輕薄且高度整合,未來的 MR 眼鏡有望縮小至接近一般眼鏡的尺寸,同時維持高效能與全天候的可穿戴性。這不僅能改變 MR 裝置的設計,也將擴展其應用場景,例如教育、培訓、設計、醫療模擬,甚至娛樂與社交。

Meta 表示,這項「合成孔徑波導全像顯示」展示了 AI 與光學設計結合的巨大潛力。隨著研究持續推進,未來的 MR 顯示不僅將變得更小、更輕,還能提供與現實世界幾乎無縫銜接的沉浸式體驗,為下一代混合實境設備鋪平道路。這可能是 MR 從實驗室原型走向日常生活的關鍵轉捩點。

Meta Avatar 夏季更新:新增身體類型、AI 造型工具、服裝與表情,全面強化自訂功能

廣告

Meta 宣布為 Meta Avatars 帶來全新更新,讓用戶能以更細緻的方式展現個人風格,並進一步強化跨平台的沉浸式社交體驗。這次的更新不僅增加了多樣的身體類型,還引入更多服裝、表情、動作以及 AI 輔助造型工具,為使用者提供更完整的自訂化功能。

針對身形部分,Meta 推出了十多種預設身體類型,並允許使用者微調臀部、肩膀、手臂等部位,以更貼近個人需求。新增的「身體預覽模式」則可在換裝前快速切換服裝顯示,確保外觀與身形搭配自然。這種靈活的調整方式,讓虛擬化身更能呈現使用者的真實比例與偏好。

除了外觀,Meta 也擴展了動作與互動的表現力。新的「姿勢」選項提供 18 種可自訂的站姿,用戶能在 Horizon 個人檔案中展現獨特的肢體語言。同時新增 50 多種全新表情動作與可解鎖的貼圖,讓互動不再只停留於文字與語音,還能透過肢體語言更自然地傳遞情緒。此外,服裝內容也進一步擴展,數十套全新服裝能更貼合不同身形,提供更多元的搭配可能。

另一個值得關注的功能是 AI 造型輔助工具。這項功能現已於 Horizon 行動應用中上線,使用者可透過簡單的文字提示快速生成新造型,甚至能隨機嘗試不同風格。若偏好自行設計,也能隨時切換回傳統手動編輯模式。AI 造型工具目前僅在美國與加拿大開放,並將持續擴展至更多地區,同時提供更多樣的風格選項。

此外,Meta 也優化了面部自訂的參數控制,使用者可微調下顎、臉頰、面部深度等特徵,並搭配髮型、鬍鬚、妝容、雀斑、面紋及各類裝飾,創造數十億種組合,讓化身不再侷限於單一模板,而是真正反映個人特色。

透過這次更新,Meta Avatars 進一步成為跨平台社交的重要工具,無論是在 Facebook、Instagram、Messenger、WhatsApp,或是 Horizon 的 VR 與行動版本,使用者都能以更貼近真實的虛擬化身與朋友互動。這次的改進不僅豐富了外觀調整功能,更強化了化身在沉浸式社交場景中的表達力,為未來的虛擬社交體驗鋪平了道路。

Reality Labs 發表突破性 sEMG 手腕神經介面研究,登上《Nature》期刊:一種直覺、無須校準的人機互動未來

廣告

Meta 旗下的 Reality Labs 團隊近日在國際權威期刊《Nature》發表了一項具指標性的 研究成果,展示一種基於手腕表面肌電圖(surface electromyography, sEMG)的非侵入式神經介面技術,為人機互動領域開闢了新的可能性。這項研究的核心,是透過配戴於手腕的可穿戴設備擷取微弱的神經肌肉訊號,並運用深度學習模型將這些訊號即時轉譯為用戶的操作意圖,讓人們僅以手腕與手指的輕微肌肉活動,即可完成輸入、滑動、點選、手寫等日常數位操作。與以往仰賴鍵盤、滑鼠、觸控或語音控制的方式相比,sEMG 所提供的是一種更自然、更安靜、更即時的人機互動體驗,特別適合於行動中或不便發聲的使用情境。

這款研究中開發的 sEMG 手環裝置由 48 個乾電極組成,環繞使用者手腕至前臂部位,並透過藍牙即時串流高密度肌電數據至外部運算系統。為了解碼這些複雜且個體差異極大的生理訊號,團隊設計了一套以 Conformer 架構為基礎的深度神經網路,這種網路原本用於語音辨識,能有效處理時間序列資料並保留訊號中的語意順序。在此系統中,它被改造為能即時處理手勢與手寫的肌電資料,進而轉化為精確的輸入指令。此外,為克服使用者間的差異性,研究團隊特別強化模型的泛化能力,使其能「即插即用」,不需每位使用者額外進行校準,就能立即使用。

根據實驗結果,該系統能以平均每秒 0.88 次的速率辨識手勢指令,並達成超過 92% 的準確率,在手寫任務中也能以每分鐘 20.9 字的速度輸入文字,而不須任何鍵盤或螢幕輔助。更令人關注的是,即便僅加入極少量的個人化資料(例如使用者自行書寫幾分鐘樣本),其輸入精度仍可提升約 10% 至 16%。這意味著該技術不僅具備廣泛適用性,也能隨著使用時間逐漸適應與優化每位使用者的個別操作習慣。

這項 sEMG 技術的實用性不僅體現在效率上,更在於其對不同身體條件使用者的包容能力。由於該介面不需明顯的手部移動即可感知神經訊號,即使是肢體活動能力受限者,也能透過細微肌肉意圖操作設備。研究團隊也在多位不同性別、年齡與前臂尺寸的參與者身上進行測試,證實系統對不同生理特徵具備穩定解碼效果,這使它具備成為通用輸入方式的潛力。

控制轉移:新現實實驗室關於表面肌電圖的研究發表在《Nature》

這項技術已在 Reality Labs 的 AR 原型裝置「Orion」眼鏡上實測搭配使用,並配合先進機器學習模型將肌肉訊號準確解碼為輸入指令。根據實驗,系統不僅能即時辨識標準手勢,還能支援手寫辨識——用戶可直接在桌面、腿部或其他硬表面快速書寫訊息。

  • 它完全是非侵入性的,開闢了使用肌肉訊號與電腦互動的新方法,同時解決了其他形式的 HCI 面臨的許多問題。
  • 它使用起來方便、簡單、自然,並且在語音互動等替代方案可能不切實際或不受歡迎的情況下(例如在公共場合發送私人訊息)也能發揮作用。
  • 它始終可用,並且無需笨重的配件,讓您脫離當下並分散您對最重要的人事物的注意力。

Reality Labs 亦公開了完整的資料集與訓練流程,包含超過 300 名參與者所產出的三種任務數據(連續控制、手勢與手寫),累計超過 100 小時的高密度肌電資料。研究團隊希望透過此舉加速學術界與開發者在神經介面領域的創新進展,並鼓勵社群針對硬體設計、訊號處理與機器學習模型進行更深入的探索與應用。

Reality Labs 發表的這項研究不只是工程技術的進步,更是一種對人與科技互動關係的重新思考。相較於人類過去不斷適應各種輸入工具,如打字、滑鼠點擊、觸控滑動,sEMG 所提供的是一種由人出發、機器主動理解的控制方式。當科技真正理解「意圖」本身,並能將其自然轉化為互動回饋,人機介面便不再只是效率問題,而將成為一種更加人性化的存在形式。這不僅將提升主流使用者的操作體驗,更為行動能力受限者與語言障礙者開啟嶄新溝通途徑,也可能成為未來 XR 與 AR 裝置最關鍵的核心輸入方案之一。

隨著這類非侵入式神經輸入技術日漸成熟,一種更安靜、更無感、更貼近人類本能的數位互動模式正悄然成形。Reality Labs 所提出的 sEMG 手環研究,不僅為這個可能性提供了堅實技術基礎,也讓外界對人機介面的下一個演化階段,有了更加具體的想像。

*如果想要更深入了解研究,建議一定要看nature期刊上的 文章PDF *

阿聯酋新創 XPANCEO 完成 2.5 億美元融資,估值達 13.5 億美元,打造智慧隱形眼鏡

廣告

總部位於杜拜的智慧隱形眼鏡公司 XPANCEO 近日宣布完成 2.5 億美元 A 輪融資,使公司估值攀升至 13.5 億美元,正式成為擴增實境(XR)領域的新獨角獸。此次融資由 Opportunity Venture(亞洲)領投,該機構亦曾於 2023 年領投 XPANCEO 的 4,000 萬美元種子輪投資。根據 Crunchbase 數據,XPANCEO 累計總融資金額已達 2.9 億美元。

XPANCEO 表示,此筆資金將加速其開發「全球首款全功能智慧隱形眼鏡」的步伐,目標是在 2026 年前正式推出。該產品目前仍處於原型階段,預計將整合擴增實境(AR/XR)功能、即時健康監測、夜視以及變焦等能力,將各類裝置功能濃縮於佩戴者的眼中,實現「無形界面」的願景。

公司創辦人兼管理合夥人 Roman Axelrod 表示:「在短短 24 個月內,我們已完成 15 款具備不同功能的原型,這證明我們正走在正確的道路上。我們的終極目標,是讓所有裝置都整合進你的眼睛中。」

根據官方資訊,XPANCEO 已開發多款原型鏡片,包括支援 AR 視覺顯示的隱形眼鏡、可量測眼內壓的智慧鏡片(用於青光眼監控)、能從淚液中讀取血糖等生化指標的鏡片,以及支援無線即時充電與數據傳輸的鏡片。

此外,XPANCEO 亦研發出使用奈米粒子技術的夜視鏡片與色彩校正鏡片,另有專為 3D 成像所設計的鏡片,顯示其技術研發覆蓋範圍廣泛。

XPANCEO 成立於 2021 年,由連續創業家 Roman Axelrod 與物理學家 Dr. Valentyn S. Volkov 領軍。短短幾年間,公司人數從 50 人增至 100 人,並大幅擴建實驗室以因應技術開發規模。公司並指出,其已與多間國際研究機構合作,包括曼徹斯特大學、新加坡國立大學、西班牙 Donostia 國際物理中心與杜拜大學。

XPANCEO 的成功亦讓外界聯想到過去幾個 XR 領域的指標性新創案,例如 Magic Leap 曾於 2014 年獲 Google 領投的 5.42 億美元 B 輪融資,一度在 2018 年創下 64 億美元的最高估值。如今 XPANCEO 的崛起,象徵 XR 技術正邁入微型化與穿戴化的新階段,智慧隱形眼鏡的應用潛力也持續獲得資本市場關注。

Ray-Ban Meta 眼鏡音訊功能全面升級:支援多平台語音控制,打造無耳機的聽覺體驗

廣告

隨著人工智慧與穿戴裝置技術的成熟,Meta 透過與音樂及音訊平台的合作,將 Ray-Ban Meta 智慧眼鏡(未來也將支援 Oakley Meta 眼鏡)打造為更自由、無縫的個人音訊中心。無需再糾結耳機線,也不必手忙腳亂地拿出手機,只需一句「Hey Meta」,即可啟動播放、搜尋、辨識或操作喜愛的音樂與內容。

目前支援的音樂與音訊平台包含 Amazon Music、Apple Music(限 iOS)、Spotify、Shazam 與 Music Info 等,在美國地區則額外支援 Audible 有聲書與 iHeartRadio 廣播服務。使用者可透過語音指令操作,例如:「Hey Meta,播放我的運動歌單」或「Hey Meta,播放 chill 音樂」,無需雙手即可完成。

透過 Spotify,還能語音播放特定 podcast 節目,例如:「Hey Meta,播放《The Comment Section with Drew Afualo》」,進一步拓展智慧眼鏡的應用範圍。而內建的 Shazam 功能則可在街頭或聚會中辨識周遭音樂,使用者只需說出「Hey Meta,用 Shazam 辨識這首歌」即可辨識背景音樂。

Music Info 功能進一步延伸了音樂互動的可能性,讓使用者不只知道「這是什麼歌」,還能追問:「這張專輯是什麼?」、「什麼時候發行的?」等進階資訊,為音樂愛好者提供豐富的背景知識。

在美國地區,使用者還能透過 iHeartRadio 語音搜尋本地與全國電台、音樂節目、新聞、體育與 podcast 等內容。而 Audible 的整合則讓用戶能以語音控制播放、暫停、跳章、重播,甚至為段落加入書籤。

硬體設計上,Ray-Ban Meta 採用開放式耳機設計,讓使用者在享受高品質音樂與語音內容的同時,仍能聽到周遭環境聲,適合戶外活動或通勤過程使用。未來登場的 Oakley Meta 眼鏡也預計延續相同架構,並優化於運動場景的配戴體驗。

用戶可依個人偏好快速設定與連接支援的應用程式,只需在 Meta AI app 中前往「眼鏡設定」>「已連接的應用程式」,選擇對應服務並同意相關條款後,即可啟用各項功能,並指定預設的音樂、Podcast 與廣播平台。除 Apple Music 僅限 iOS 外,其餘功能皆支援 Android 與 iOS 裝置。

透過語音搜尋、免手操作與直覺式觸控指令(長按推薦、單擊暫停播放、雙擊跳過),Ray-Ban Meta 智慧眼鏡正在重塑使用者的音樂互動體驗。不需耳機、沒有電線束縛,也無須手動操作,AI 眼鏡正將日常片段轉化為專屬的聲音氛圍。

Apple 穿戴式裝置產品藍圖曝光 智慧眼鏡有望成為未來新趨勢

廣告

蘋果在虛擬實境與穿戴式裝置市場的佈局日趨清晰。根據分析師 Ming-Chi Kuo 於 2025 年 6 月 30 日公開的研究指出,Apple 將在 2025 至 2028 年間陸續推出多款 XR 頭戴裝置與智慧眼鏡,總計至少七項開發中產品,涵蓋三款 Vision 系列 XR 裝置與四款智慧眼鏡類型。當中已有五項確定進入量產時程,其餘兩項尚待公布。

在 XR 裝置方面,蘋果預計於 2025 年第三季推出 Vision Pro M5 版本,主要升級處理器為 M5,其他規格維持不變,並定位為小眾市場產品,用以鞏固開發者與專業用戶基礎。2027 年第三季將問世的 Vision Air 則採用全新輕量設計,重量較 Vision Pro 減輕逾四成,搭載 iPhone 等級處理器並調整感測器數量,以降低售價、提升親民性。另一款 Vision Pro 第二代裝置則預定於 2028 年下半年量產,整體設計與定位皆重新調整,訴求更高效能與更低價格。

智慧眼鏡部分,類似 Ray-Ban 的非顯示型智慧眼鏡預計於 2027 年第二季推出,支援語音與手勢操作,功能聚焦於音樂播放、相機錄影與 AI 感測,具備多樣化鏡架材質選擇,並預估成為蘋果首款進入高銷量的智慧眼鏡產品,單年出貨量可能達 300–500 萬台,帶動市場總體需求突破千萬台。顯示型 XR Glasses 則預計於 2028 年下半年登場,採用 LCoS 加 waveguide 顯示技術,支援彩色畫面與 AI 功能。

此外,蘋果原訂於 2026 年推出的「Display accessory」產品,目前已自 2024 年第四季起暫停開發,正在重新評估市場定位與競爭力。該產品原先設計為需連接 iPhone 的顯示配件,具備鳥浴光學鏡組與變色鏡片功能,但因重量與技術優勢不足而暫緩上市。

整體來看,蘋果預計於 2026 年暫無新 XR 或智慧眼鏡裝置推出,產品高峰將集中於 2027 年與 2028 年,屆時將有多款新型穿戴式產品同時進入市場。蘋果在硬體整合與生態系發展上具備優勢,但軟體與 AI 系統仍是挑戰關鍵。未來兩年內,顯示型智慧眼鏡仍屬利基市場,但非顯示型產品將有望開啟新一波消費熱潮。

Meta 公布 Aria Gen 2 研究眼鏡:結合 AI 感知與穿戴技術的次世代研究裝置

廣告

Meta 於今年初正式發表了 Aria Gen 2 研究眼鏡,作為 Project Aria 計畫的延續,這款裝置旨在為研究社群提供更高效的資料收集工具與更強大的感知能力。Aria Gen 2 被定位為一款專為研究用途設計的穿戴式設備,整合了最新的電腦視覺、機器學習、感測器與即時 AI 運算技術,並透過開放式平台的方式,協助推進機器感知、空間理解、情境式人工智慧與機器人領域的研究。相較於 2020 年發表的 Aria Gen 1,Aria Gen 2 在設計與功能層面上皆有顯著提升,其硬體、演算法與感知模組的更新,意味著穿戴式研究裝置進入了新的階段。該裝置不僅改善了配戴舒適度,也擴展了感測能力與數據精準度,對從事人因工程、視覺認知、自然互動、機器人訓練與智慧城市研究的開發者而言,具備相當的實驗潛力。

Aria Gen 2 延續穿戴裝置的眼鏡形式設計,主打輕量、可攜、長時間配戴的特性,整體重量僅約 74 至 76 公克,並提供八種尺寸版本,考量到不同頭型、臉型與鼻樑結構,以提升適配度與配戴穩定性。此外,鏡腳可折疊的結構設計則進一步提升了日常操作與戶外研究的便利性。這些變化不僅僅是硬體上的調整,更反映出裝置作為研究載具在不同場域使用時的實用考量。透過更多尺寸選擇與輕巧設計,Aria Gen 2 有助於降低穿戴式研究裝置在長時間配戴下造成的身體負擔,使其更適用於實地研究、動態測試與移動應用場景。

在感測元件方面,Aria Gen 2 搭載的視覺模組經過全面升級。該裝置使用四顆電腦視覺鏡頭,數量較 Gen 1 加倍,能提供更寬廣的視角與更高解析度的圖像資料。這些鏡頭配備全球快門與高動態範圍感測器,其 HDR 表現達 120 分貝,相較前代的 70 分貝有明顯進步,有助於裝置在光源強烈變化的場景中穩定執行電腦視覺任務。同時,立體視覺重疊角度也由 Gen 1 的 35 度提升至 80 度,使其更適合進行基於立體影像的深度估測與 3D 重建。這些升級對需要高精度追蹤、姿態識別或空間場景重建的研究來說,可能提升影像數據的可用性與演算法的準確性。

除視覺感知外,Aria Gen 2 也整合了多種新型感測器,進一步擴展其應用潛力。環境光感測器(ALS)具備紫外線識別模式,能夠協助裝置分辨室內與室外環境,有助於優化相機曝光設定與低幀率拍攝條件下的資料表現。嵌入式接觸麥克風設置於鼻墊區域,能在高噪音環境中排除背景干擾,提升語音資料的準確性與可用性。此外,Aria Gen 2 亦內建 PPG 心率感測器,可用於生理狀態估測,這項設計對結合生理反應與環境行為分析的研究具有潛在價值。

CV 攝影機能夠捕捉高度動態的場景,並能分辨 LED 燈絲以及場景中的其他細節。(Video Form Meta)
環境光感測器 (ALS) (Video Form Meta)
模擬有風的場景,當聲學麥克風無法拾取佩戴者的耳語時,接觸式麥克風可以拾取佩戴者的耳語。(Video Form Meta)

針對裝置間資料協同與同步問題,Aria Gen 2 採用了 SubGHz 無線技術進行時間對齊。這項硬體式解決方案取代前代軟體式方法,具備亞毫秒級的時間同步精度,對於多台裝置進行協同紀錄、分散式場景重建與資料對比分析而言,可能帶來更高的資料一致性與時間準確性,進一步支援多視角研究或團隊合作實驗設計。

影片展示了 Aria Gen 2 如何使用裝置時間對齊來執行諸如從兩個 Aria Gen 2 裝置進行分散式擷取寫入等任務。(Video Form Meta)

為了滿足裝置端即時資料處理的需求,Aria Gen 2 配備 Meta 自家開發的低功耗協同處理器,支援機器感知演算法的即時執行。包括視覺慣性定位(Visual Inertial Odometry, VIO)在內的空間追蹤能力,讓裝置可在六自由度下執行位置與方向感知;眼動追蹤模組則提供瞳孔移動、眨眼、聚焦點、雙眼角度等多種視覺參數,有助於視覺注意力與人機互動研究;手部追蹤功能則能擷取三維空間中的關節位置與手勢資訊,應用於手眼協同、機器手臂模擬與手部數據集建立等用途。這些資料處理與感知模組結合後,構築了一套完整的環境理解架構,使 Aria Gen 2 能即時回應使用者動作與周圍變化。

演示 Aria Gen 2 的傳感器和機器感知能力,以及基於它們構建的設備外算法。

目前 Aria Gen 2 尚未全面開放申請,Meta 預計於年內啟動研究合作計畫,而針對前一代 Aria Gen 1 的研究套件仍持續接受申請,有興趣的研究人員可透過官方平台申請進入合作流程。Meta 亦預告將於 2025 年 6 月的 CVPR 年會現場展示 Aria Gen 2 的互動體驗,屆時將提供與會者第一手的裝置試用機會與技術解說。

Aria Gen 2 延續了 Project Aria 開放研究平台的精神,在硬體規格、感測模組、資料處理與同步能力上進行多方面升級。儘管仍以研究與開發為主要目標而非商用消費市場,但其設計與功能已逐步靠近空間運算核心技術的實際應用需求。對於學術界、產業研究團隊與創新開發者來說,這樣一款具備擴充性與即時感知能力的研究眼鏡,有可能成為觀察人類行為、訓練機器學習系統與打造新一代智慧環境的實驗平台。


Meta Aria Gen 2 重點整理|研究人員的理想穿戴式感知工具登場

  1. Project Aria 計畫延續
    Meta 推出 Aria Gen 2 研究眼鏡,專為機器感知、空間理解、AI 與機器人等前沿研究設計。
  2. 更輕更合身的設計
    整體重量約 74 至 76 克,支援長時間配戴。提供 8 種尺寸、可折疊鏡腳,提升適配度與戶外操作便利性。
  3. 升級的視覺模組
    搭載 4 顆電腦視覺鏡頭(前代為 2 顆),HDR 提升至 120dB(前代為 70dB),立體視角由 35 度提升至 80 度,大幅提升影像精準度與深度估測能力。
  4. 多元感測整合
    內建紫外線環境光感測器、高靈敏鼻墊麥克風與 PPG 心率感測器,有助於室內外辨識、語音準確性與生理數據收集。
  5. 超高精度時間同步
    使用 SubGHz 無線技術達成亞毫秒級資料同步,提升多裝置協同記錄與空間重建的資料一致性。
  6. 即時 AI 處理與空間感知
    搭載 Meta 自家低功耗處理器,支援 VIO 空間追蹤、眼動追蹤、手部追蹤等功能,能即時感知使用者動作與環境變化。
  7. 合作計畫與公開展示
    Meta 預計於 2025 年 6 月 CVPR 年會展示 Aria Gen 2 並提供現場試用,現階段 Gen 1 合作申請仍開放,Gen 2 將於年內逐步展開合作計畫。
  8. 高潛力研究應用
    適用於人因工程、智慧城市、視覺認知、機器學習訓練等場景,是一款具備擴充性與即時感知能力的研究平台。

Android XR 與 Gemini 結合:Google 展示 XR 裝置新應用方向

廣告

在 2025 年的 Google I/O 開發者大會上,Google 正式介紹了旗下 Android XR 平台的最新進展,並說明如何與 Gemini 人工智慧助手整合,進一步推動頭戴式與穿戴式 XR 裝置的應用實例。此次發表聚焦於讓 AI 輔助功能從手機、手錶等平面設備延伸到視角共享的 XR 裝置上,提供更自然的互動方式。

Android XR 是 Google 專為虛擬實境(VR)與擴增實境(AR)設備所打造的作業系統架構,強調在 AI 時代背景下提供一致的平台支援。Google 表示,Android XR 裝置將能夠利用 Gemini 的語言理解與感知能力,根據使用者當下的視野與語音指令,在免持的情況下提供實用建議與操作。這項能力被應用於多項示範情境中,包括導航指引、即時翻譯、拍照與行程管理等。

在硬體合作部分,Google 與 Samsung 合作的 Project Moohan 頭戴式顯示器已確認將於 2025 年內推出,這款裝置預計支援 Android XR 並結合 Gemini,以提供沉浸式的視覺體驗與語意互動。除 Samsung 外,Google 也與晶片廠商 Qualcomm 協力,確保系統在效能與電力表現上的穩定性。

智慧眼鏡則是本次發表的另一項重點。Google 展示了一款基於 Android XR 平台運作的原型眼鏡,具備鏡頭、麥克風與揚聲器,並可透過手機提供應用支援。眼鏡亦可選配鏡片顯示模組,用於在不干擾他人的情況下即時顯示訊息與建議。現場展示的功能包含與朋友傳訊、查詢行程、啟用語音翻譯與快速拍照等。透過與 Gemini 整合,眼鏡能夠理解使用者所處環境,並根據語音或手勢操作提供回應。

針對穿戴式裝置的實用性,Google 強調產品的外型設計與配戴舒適度同樣重要,因此已與 Gentle Monster Warby Parker 等時尚眼鏡品牌合作,共同開發具備 Android XR 功能的智慧眼鏡。未來還將與 Kering Eyewear 等品牌擴大合作,期望提升智慧眼鏡在日常穿戴中的接受度與普及率。

在開發者生態方面,Google 表示 Android XR 的開發工具將於 2025 年下半年開放,提供軟硬體參考架構,以協助第三方開發者為該平台開發應用程式與內容。這些工具將支援手部追蹤、空間錨定、語音輸入與視線追蹤等核心 XR 功能,進一步擴展 Android 在空間運算領域的應用場景。

Android XR 結合 Gemini AI 的設計,延伸了 AI 與使用者互動的邊界,從原本的螢幕輸入轉為視角共享與語音導向。透過與硬體品牌與眼鏡廠商的合作,Google 將平台功能擴展至頭戴式顯示器與智慧眼鏡之中,試圖建構一套統一且具擴展性的 XR 生態系統。

【Meta 推出 AssetGen 2.0】重新定義 3D 資產生成的 AI 基礎模型

廣告

Meta 宣布推出最新一代的 3D 基礎模型——AssetGen 2.0,旨在透過文字或圖像提示,自動生成具備高幾何細節與優質紋理的 3D 資產。這項技術延續了 AssetGen 1.0 的核心理念,並進一步提升在幾何生成與紋理品質上的表現,為虛擬世界的構建帶來新的技術基礎。

AssetGen 2.0 結合了 Meta 內部開發的兩個模型:一個專注於生成 3D 網格,另一個則負責處理紋理。這次的更新重點在於引入單階段 3D 擴散方法,使得產出的網格不僅具備幾何一致性,還能呈現更為精細的結構細節。這項改進讓模型在處理角色或場景時,能更準確還原使用者輸入的概念或設計草圖。

在紋理處理方面,AssetGen 2.0 新增了多項技術,包括視圖一致性優化、紋理修復與高解析度生成等。這些功能的加入不僅提升了紋理的自然性,也改善了在不同角度觀看下的表現,使最終產出的 3D 模型更適合實際應用,例如動畫、虛擬角色設計或遊戲開發。

目前,AssetGen 2.0 已在 Meta 內部使用,並被應用於 Horizon 與 Avatar 平台上的創作流程。Meta 表示未來幾個月內,這項技術將開放給更多創作者,幫助他們更快速地建立 3D 世界。藉由簡單的文字或圖像輸入,創作者可依序生成單一物件、結構,甚至整體場景,實現自動化且具備一致風格的空間設計。

Meta 表示,AssetGen 2.0 的開發目標之一,是讓 3D 資產創作能夠像 2D 繪圖一樣普及與直覺,並進一步推動創作者生態系的成長。該模型將作為未來全自動 3D 場景生成的核心構件,為產業界提供更高效率的解決方案。

使用 AssetGen v2 產生的紋理網格

使用 AssetGen v2 產生的可動畫角色

使用 AssetGen v2 產生的場景

Meta 推出 LlamaCon 2025 開發者大會,Llama 模型持續擴展應用與影響力

廣告

Meta 宣布將於 2025 年 4 月 29 日舉辦 LlamaCon 開發者大會,旨在分享 Llama 開源 AI 模型的最新進展,並提供開發者更多技術支援與應用機會。Llama 系列模型近年來在全球範圍內快速成長,下載量已突破 6.5 億次,並且在過去三個月內翻倍。隨著 AI 模型的持續優化與擴展,Meta 計劃透過 LlamaCon 與開發者進行更緊密的交流,推動 AI 技術的發展與應用。

Llama 作為 Meta 推出的開源大語言模型(LLM),在 2024 年經歷了數次重大升級,包含 Llama 3、Llama 3.1(推出 405B 模型)、Llama 3.2(首款多模態模型),以及 Llama 3.3 70B 版本,該版本在提供與 405B 模型相近性能的同時降低了運行成本。Llama 的開放特性使其迅速成為全球採用率最高的 AI 模型之一,目前全球下載量已超過 6.5 億次,並且在美洲、歐洲、亞太及新興市場的採用率持續增長。

為滿足不斷增長的需求,Meta 與多家科技公司展開合作,包括 Amazon Web Services(AWS)、AMD、Microsoft Azure、Databricks、Dell、Google Cloud、NVIDIA、IBM watsonx、Oracle Cloud、ScaleAI 等,確保 Llama 可在各種運行環境下發揮最佳效能。根據 Meta 公布的數據,Llama 在主要雲端合作夥伴的月度運行 token 數量在 2024 年 9 月達到了 50% 的月增長率,顯示企業對於開源 AI 模型的需求正在大幅提升。

除了開發者社群,越來越多企業與政府機構也開始將 Llama 模型應用於實際業務。Meta 近期推出 Llama Stack,為企業提供標準化工具鏈,使其能夠更輕鬆地定制 Llama 模型,並開發基於 AI 的應用系統。

  • IBM:將 Llama 整合至 watsonx.AI 平台,為全球 AI 企業開發者提供訓練、驗證、調整與部署能力。此合作讓 Llama 被應用於地方政府、電信公司,甚至是職業足球俱樂部的人才招募。
  • Block(Cash App 開發商):將 Llama 用於客服系統,透過開源架構靈活調整模型,提高客戶支持的自動化程度,同時確保數據隱私。
  • Accenture:為國際組織開發基於 Llama 3.1 的 AI 聊天機器人,該應用在 AWS 運行,具備可擴展性與高效處理能力。
  • Spotify:透過 Llama 強化個性化推薦系統,讓 AI 提供更具針對性的音樂推薦與背景介紹。
  • LinkedIn:使用 Llama 進行 AI 訓練,開發更適合社交平台需求的 LLM,並優化運行成本與效能。

除了企業應用,政府機構對 Llama 的興趣也在提升:

  • 美國政府:開始探索 Llama 在數據處理與公共服務領域的應用。
  • 印度技能發展與創業部(MSDE):計畫利用 Llama 提升學習系統與學生支援。
  • 阿根廷政府:已將 Llama 應用於 WhatsApp AI 聊天機器人,提升政府公共服務的自動化與回應速度。

Meta AI 助理擴展應用,進入社交與穿戴設備

Llama 模型的發展也推動了 Meta AI 助理 的廣泛應用。該 AI 助理目前在 WhatsApp、Instagram、Facebook、Messenger 等平台運行,每月活躍用戶數已接近 6 億,預計將成為全球使用量最高的 AI 助理。Meta 預計在 2024 年底前,將 Meta AI 擴展至 43 個國家與 12 種語言,進一步提升全球影響力。

此外,Meta 也在探索 AI 技術與穿戴設備的整合:

  • Ray-Ban Meta 智能眼鏡:內建 Llama 模型,讓使用者可透過語音與 AI 互動,而無需使用手機。目前該功能已開放至法國、義大利、愛爾蘭、西班牙等地。
  • AI Studio:自 2024 年 7 月推出後,已成為創作者開發 AI 角色的主要平台,至今已有超過 數十萬個 AI 角色 被創建。2025 年,Meta 計畫將 AI Studio 打造成全球領先的 AI 角色創建平台。

進入 2025 年,Meta 計畫加速推動 Llama 模型的發展,Llama 4 將推出多個版本,進一步提升 AI 在 語音、推理 等領域的能力。Meta 預測,AI 互動將逐漸從文本轉向語音,並計畫在 2025 年上半年 強化 AI 語音技術,使其更具對話性與實用性。

  • Meta Movie Gen:已開發 AI 影片生成技術,未來可能會整合至 Meta 旗下應用,提供更強大的 AI 影片創作與編輯能力。
  • Agentic AI(智能代理 AI):Meta 正在測試企業 AI 助理,可處理顧客服務、商業交易等任務,未來可能發展出更多自主處理工作的 AI 助理。
  • AI 廣告與商業應用:Llama 目前已被應用於 Advantage+ Creative 廣告生成工具,協助企業自動產生文本、圖像與影片廣告,提升行銷效率。

Meta 推出的 LlamaCon 2025 將成為開發者與企業探索 Llama 模型技術的全新平台,隨著 AI 模型的持續演進,Llama 已成為開源 AI 生態系統中的重要組成部分。未來,Meta 計畫透過不斷創新與開放合作,使 Llama 成為 AI 技術的標準,並加速 AI 技術在語音、影像、商業應用等領域的發展。

Meta 穿戴裝置新佈局:AI與智慧科技的未來之路

廣告

Meta近年來在穿戴裝置領域不斷深耕,目標是將人工智慧技術融入更多日常硬體產品中,從而重新定義人們的使用習慣與科技互動方式。從智慧眼鏡到智能手錶,再到嶄新的AI耳機,Meta的計畫涵蓋多個方向,顯示出其對穿戴裝置市場的長遠佈局與深厚的研發實力。

目前,Meta已推出的 Ray-Ban 智慧眼鏡具備拍照、音樂播放及簡易環境分析功能,成為智慧型手機的輔助設備之一。然而,這款產品仍未實現完整的擴增實境功能。為此,Meta計畫將Ray-Ban眼鏡推廣至更多市場,同時與 Luxottica 集團旗下品牌合作,開發專為運動員設計的 Oakley 版本智慧眼鏡。該版本將鏡框中的攝像頭位置調整至中央,更加適合運動需求。

Meta也正積極準備推出代號為“Hypernova”的高端智慧眼鏡,計畫於2025年上市。這款眼鏡內建小型顯示螢幕,能在鏡片上投射通知、簡易應用程式和照片,售價約為1,000美元,定位高端消費者市場。為了增強使用體驗,Meta還開發了一款腕帶式控制器,讓用戶可以更直觀地操控智慧眼鏡,並有望與Hypernova同步上市。

在實現真實擴增實境方面,Meta的計畫可分為多個階段。2026年,Meta將針對開發者推出代號為“Orion”的AR眼鏡原型,協助應用程式的開發與測試。隨後,真正面向消費者的“Artemis”AR眼鏡預計於2027年上市,這款產品將在重量、顯示技術及製造成本等方面有顯著突破,成為科技市場中重要的里程碑。

除了智慧眼鏡,Meta也重新啟動了智能手錶的研發計畫,並計畫於今年推出新產品。這款手錶除了具備傳統功能外,還將與智慧眼鏡無縫整合,例如顯示眼鏡拍攝的照片等。若能成功上市,Meta的智能手錶將進一步加強其穿戴裝置生態系統,成為與Apple Watch競爭的重要產品。

在耳機領域,Meta正研發一款名為“Camera Buds”的AI耳機。這款產品內建攝像頭與人工智慧技術,用戶可通過耳機分析環境中的物件並進行互動。儘管開發尚處早期階段,Meta對這款產品寄予厚望,希望能憑藉創新功能進入耳機市場。然而,該耳機目前面臨設計與實用性方面的挑戰,能否成功上市仍取決於後續的技術突破。

Meta的穿戴裝置計畫展現出其對硬體創新與AI結合的長期願景,試圖打造一個無需手機即可全面互聯的未來生態系統。從Ray-Ban智慧眼鏡的市場擴展,到即將推出的高端Hypernova眼鏡,再到針對AR的Orion與Artemis計畫,Meta正以穩健的步伐推進,致力於將AI科技深度融入每個人的日常生活。