標籤彙整: 人工智慧

Horizon Worlds 編輯器重磅更新:七大 AI 功能與創作助手正式上線,支援全球創作者

廣告

Meta 今日宣布,Horizon Worlds 桌面編輯器已正式整合多項 AI 功能,透過生成式人工智慧(GenAI)全面提升創作者在 VR 與行動平台世界構建上的效率與品質。這波更新不僅涵蓋創作流程的各個面向,也標誌著 Horizon 平台進入智慧創作新時代。

本次推出的核心工具包含「Creator Assistant」與「Style Reference」,分別對應創作流程的協作與視覺一致性。

Creator Assistant 是 Horizon 編輯器中的 AI 助手,能與創作者協作規劃世界架構、自動設定工具、並透過自然語言互動設計遊戲規則與核心迴圈。它可產出互動腳本、指導操作介面、協助快速完成功能原型,讓整個世界構建流程更加流暢。無論你是獨立創作者還是團隊成員,這位助手都能大幅縮短從概念到實作的時間,幫助你更快將作品發佈至 VR 與手機端平台。

Style Reference 則為視覺美術設計提供強大支援,讓創作者能快速生成、保存並套用特定風格。無論是場景色調、建築樣式、角色風格還是音效氛圍,只需建立一次風格範本,就能反覆應用於整個專案或多個作品中。這不僅大幅節省設定時間,也確保整體創作在視覺與風格上的一致性。

除了上述兩大工具外,Meta 同步公布更多 GenAI 功能,涵蓋 3D 模型、音效、環境構建與程式碼自動生成等面向:

  • Mesh Generation:AI 輔助 3D 網格物件生成,快速建構建築、場景或道具的基礎模型。
  • Texture Generation:可為現有模型重繪貼圖或創造全新表面材質,節省手動繪製時間。
  • SFX Audio Generation:自動生成擬真音效,適用於動作觸發、互動回饋等用途。
  • Ambient Audio Generation:一鍵建立環境氛圍聲,強化沉浸感,如風聲、水滴聲、森林背景音等。
  • Typescript Generation:透過自然語言指令生成完整 TypeScript 程式碼,適用於物件互動邏輯、遊戲規則等腳本開發。
  • Sky Generation:讓 AI 為你的世界生成獨特的天空場景,涵蓋光照、雲層與時間變化等參數,迅速塑造環境氛圍。

這些工具皆整合於 Horizon Worlds 桌面編輯器中,無須外掛額外軟體,創作者即可在一站式環境中操作、測試並發佈作品。更重要的是,這套 GenAI 工具組現已向更多地區開放,包括印度、新加坡、越南、巴西、阿根廷、墨西哥與歐盟大多數國家。Meta 表示未來將持續擴展支援範圍,讓更多創作者受益於這套完整的 AI 創作解決方案。

隨著 Horizon 生態系的逐步完善,Meta 鼓勵全球創作者立即加入 Horizon Creator Program,不僅能解鎖完整創作功能,還能進一步參與內容變現計畫,讓創作轉化為實際收益。

這波更新不只是技術層面的升級,更是創作體驗的根本改變。從視覺一致性、素材生成到互動邏輯的編寫,AI 工具已成為 Horizon 創作流程中的重要夥伴,幫助更多人突破創意與技術的瓶頸,快速實現他們心中的虛擬世界。

Genie 3:Google DeepMind 打造可即時互動的世界模型,推進模擬智能邊界

廣告

Google DeepMind 正式公開 Genie 3,一項在世界模型領域邁出關鍵步伐的技術成果。作為前兩代 Genie 系統的進化版本,Genie 3 能根據自然語言提示生成動態虛擬世界,支援玩家以 24FPS 的速度在 720p 畫質下進行即時互動。其最大的突破在於:Genie 3 不僅提供更長時間的環境一致性,還可觸發可提示的世界事件,使模擬體驗不再只是被動觀看,而能主動參與與操控。

根據 DeepMind 團隊說明,Genie 3 在「交互時間視野(Interaction Horizon)」方面可維持數分鐘的連續邏輯一致性,並透過即時反應使用者行為改變世界狀態,這與以往僅能預覽短暫片段的模擬模型相比,展現了質的飛躍。從穿越風暴的海岸到在幻想森林中奔跑,Genie 3 能生成極具敘事感與物理真實感的沉浸式體驗。

在控制方式上,Genie 3 支援使用者以第一人稱視角進行導航,並可透過文字提示改變世界設定,例如切換天氣、加入新角色,甚至觸發世界規模的劇情變化。這一點讓 Genie 3 成為目前少數能將「可控敘事」與「世界生成」有效結合的模型。與需要 3D 建模或預先訓練資料的 NeRF、Gaussian Splatting 不同,Genie 3 可根據使用者輸入即時逐幀建構場景,動態靈活且豐富。

根據公開資訊,Genie 3 的應用涵蓋面廣泛,從物理模擬、虛擬生態系統、歷史建築重建,到幻想動畫敘事與角色導向互動。展示影片中出現的畫面包括:火山地形下的輪型機器人探索、海邊強風來襲前的疾行、深海水母生態系、魔法傳送門、手繪教室場景記憶測試,以及可提示世界事件導致場景變化的案例。這些場景展現出 Genie 3 不僅理解結構與空間關係,更能維持視覺連貫性與動態生成物理效果。

根據官方提供的對比資料,相比前代系統,Genie 3 在解析度、控制方式與交互延遲等多項指標上都有顯著提升。從僅限於靜態輸出的 Veo,到支援部分鍵盤滑鼠操作的 Genie 2,如今 Genie 3 已實現一般領域、即時互動、可引導世界事件與長時段一致性的完整世界模型能力。

儘管 Genie 3 尚未開放公開測試,但其展現出的技術特性與應用潛力,已引起開發者與學術界的高度關注。對於正在尋求 AI 訓練環境、自適應學習空間,甚至構建虛擬社會與敘事平台的研究者而言,這套系統可能預示著通用人工智慧(AGI)所需模擬能力的早期實現方式。

Meta 與史丹佛提出「合成孔徑波導全像顯示」:AI 驅動的超薄 MR 顯示技術,實現大視域與高擬真 3D 體驗

廣告

Meta Reality Labs Research史丹佛大學的研究團隊 近日發表了一項結合先進光學與 AI 演算法的新技術——「合成孔徑波導全像顯示」(Synthetic Aperture Waveguide Holography)。這項技術的目標,是解決目前混合實境(MR)顯示器在外型、影像品質與視域等方面的限制,並為未來真正輕量化、全天候可穿戴的 MR 顯示設備奠定基礎。

目前的 MR 顯示裝置往往面臨兩大挑戰:其一是體積龐大、外型笨重,不適合長時間使用;其二是顯示內容多半缺乏足夠的 3D 深度資訊,難以提供接近現實的立體感。這不僅限制了沉浸式體驗的真實性,也容易造成長時間使用的視覺不適。Meta 與史丹佛的研究則提供了一條突破路徑,他們設計出一種僅有數毫米厚度的超薄光學波導,結合 MEMS 掃描鏡與特殊的消色差全像透鏡,能在極小的體積下實現更寬廣的視域與清晰穩定的 3D 顯示效果。

這項技術的核心概念是「合成孔徑」。簡單來說,它利用多個小型光學孔徑的光線掃描,將其在數位上整合成一個「大型的合成光學孔徑」。這種設計能有效擴大瞳距範圍(eyebox),讓不同使用者、甚至在佩戴裝置時有些微偏移的情況下,依然能獲得完整、清晰的 3D 畫面。對於日常使用來說,這解決了過去 MR 裝置「必須固定在準確位置」才能觀看的問題,讓佩戴體驗更加自然。

除了光學架構,AI 演算法在這項技術中也扮演了關鍵角色。傳統的全像顯示需要高度精準的光波模擬,但波導結構內的光線傳播極為複雜,單純依靠傳統計算方式不僅耗時,準確度也不足。研究團隊引入了一種基於「部分相干理論」的 AI 模型,能有效學習光在波導內的傳播行為,並在減少資料需求與計算成本的情況下,生成高品質的全像影像。這讓顯示的 3D 影像不僅畫質更清晰,也能自然呈現視差與遮擋等關鍵的深度線索,讓使用者能像觀看現實世界一樣自由移動視線。

在實驗結果中,這項系統能在僅 3 毫米厚的光學堆疊下,實現 38° 對角視場的全彩 3D 顯示,並提供比傳統波導更大的有效瞳距範圍,讓影像在不同觀看角度下依然保持穩定。透過 AI 演算法與光場導向的電腦生成全像(CGH)框架,系統能即時渲染對應不同眼位的畫面,提供自然的立體視覺體驗。

這項技術的潛力不僅限於顯示效果。由於波導結構輕薄且高度整合,未來的 MR 眼鏡有望縮小至接近一般眼鏡的尺寸,同時維持高效能與全天候的可穿戴性。這不僅能改變 MR 裝置的設計,也將擴展其應用場景,例如教育、培訓、設計、醫療模擬,甚至娛樂與社交。

Meta 表示,這項「合成孔徑波導全像顯示」展示了 AI 與光學設計結合的巨大潛力。隨著研究持續推進,未來的 MR 顯示不僅將變得更小、更輕,還能提供與現實世界幾乎無縫銜接的沉浸式體驗,為下一代混合實境設備鋪平道路。這可能是 MR 從實驗室原型走向日常生活的關鍵轉捩點。

Meta Avatar 夏季更新:新增身體類型、AI 造型工具、服裝與表情,全面強化自訂功能

廣告

Meta 宣布為 Meta Avatars 帶來全新更新,讓用戶能以更細緻的方式展現個人風格,並進一步強化跨平台的沉浸式社交體驗。這次的更新不僅增加了多樣的身體類型,還引入更多服裝、表情、動作以及 AI 輔助造型工具,為使用者提供更完整的自訂化功能。

針對身形部分,Meta 推出了十多種預設身體類型,並允許使用者微調臀部、肩膀、手臂等部位,以更貼近個人需求。新增的「身體預覽模式」則可在換裝前快速切換服裝顯示,確保外觀與身形搭配自然。這種靈活的調整方式,讓虛擬化身更能呈現使用者的真實比例與偏好。

除了外觀,Meta 也擴展了動作與互動的表現力。新的「姿勢」選項提供 18 種可自訂的站姿,用戶能在 Horizon 個人檔案中展現獨特的肢體語言。同時新增 50 多種全新表情動作與可解鎖的貼圖,讓互動不再只停留於文字與語音,還能透過肢體語言更自然地傳遞情緒。此外,服裝內容也進一步擴展,數十套全新服裝能更貼合不同身形,提供更多元的搭配可能。

另一個值得關注的功能是 AI 造型輔助工具。這項功能現已於 Horizon 行動應用中上線,使用者可透過簡單的文字提示快速生成新造型,甚至能隨機嘗試不同風格。若偏好自行設計,也能隨時切換回傳統手動編輯模式。AI 造型工具目前僅在美國與加拿大開放,並將持續擴展至更多地區,同時提供更多樣的風格選項。

此外,Meta 也優化了面部自訂的參數控制,使用者可微調下顎、臉頰、面部深度等特徵,並搭配髮型、鬍鬚、妝容、雀斑、面紋及各類裝飾,創造數十億種組合,讓化身不再侷限於單一模板,而是真正反映個人特色。

透過這次更新,Meta Avatars 進一步成為跨平台社交的重要工具,無論是在 Facebook、Instagram、Messenger、WhatsApp,或是 Horizon 的 VR 與行動版本,使用者都能以更貼近真實的虛擬化身與朋友互動。這次的改進不僅豐富了外觀調整功能,更強化了化身在沉浸式社交場景中的表達力,為未來的虛擬社交體驗鋪平了道路。

Reality Labs 發表突破性 sEMG 手腕神經介面研究,登上《Nature》期刊:一種直覺、無須校準的人機互動未來

廣告

Meta 旗下的 Reality Labs 團隊近日在國際權威期刊《Nature》發表了一項具指標性的 研究成果,展示一種基於手腕表面肌電圖(surface electromyography, sEMG)的非侵入式神經介面技術,為人機互動領域開闢了新的可能性。這項研究的核心,是透過配戴於手腕的可穿戴設備擷取微弱的神經肌肉訊號,並運用深度學習模型將這些訊號即時轉譯為用戶的操作意圖,讓人們僅以手腕與手指的輕微肌肉活動,即可完成輸入、滑動、點選、手寫等日常數位操作。與以往仰賴鍵盤、滑鼠、觸控或語音控制的方式相比,sEMG 所提供的是一種更自然、更安靜、更即時的人機互動體驗,特別適合於行動中或不便發聲的使用情境。

這款研究中開發的 sEMG 手環裝置由 48 個乾電極組成,環繞使用者手腕至前臂部位,並透過藍牙即時串流高密度肌電數據至外部運算系統。為了解碼這些複雜且個體差異極大的生理訊號,團隊設計了一套以 Conformer 架構為基礎的深度神經網路,這種網路原本用於語音辨識,能有效處理時間序列資料並保留訊號中的語意順序。在此系統中,它被改造為能即時處理手勢與手寫的肌電資料,進而轉化為精確的輸入指令。此外,為克服使用者間的差異性,研究團隊特別強化模型的泛化能力,使其能「即插即用」,不需每位使用者額外進行校準,就能立即使用。

根據實驗結果,該系統能以平均每秒 0.88 次的速率辨識手勢指令,並達成超過 92% 的準確率,在手寫任務中也能以每分鐘 20.9 字的速度輸入文字,而不須任何鍵盤或螢幕輔助。更令人關注的是,即便僅加入極少量的個人化資料(例如使用者自行書寫幾分鐘樣本),其輸入精度仍可提升約 10% 至 16%。這意味著該技術不僅具備廣泛適用性,也能隨著使用時間逐漸適應與優化每位使用者的個別操作習慣。

這項 sEMG 技術的實用性不僅體現在效率上,更在於其對不同身體條件使用者的包容能力。由於該介面不需明顯的手部移動即可感知神經訊號,即使是肢體活動能力受限者,也能透過細微肌肉意圖操作設備。研究團隊也在多位不同性別、年齡與前臂尺寸的參與者身上進行測試,證實系統對不同生理特徵具備穩定解碼效果,這使它具備成為通用輸入方式的潛力。

控制轉移:新現實實驗室關於表面肌電圖的研究發表在《Nature》

這項技術已在 Reality Labs 的 AR 原型裝置「Orion」眼鏡上實測搭配使用,並配合先進機器學習模型將肌肉訊號準確解碼為輸入指令。根據實驗,系統不僅能即時辨識標準手勢,還能支援手寫辨識——用戶可直接在桌面、腿部或其他硬表面快速書寫訊息。

  • 它完全是非侵入性的,開闢了使用肌肉訊號與電腦互動的新方法,同時解決了其他形式的 HCI 面臨的許多問題。
  • 它使用起來方便、簡單、自然,並且在語音互動等替代方案可能不切實際或不受歡迎的情況下(例如在公共場合發送私人訊息)也能發揮作用。
  • 它始終可用,並且無需笨重的配件,讓您脫離當下並分散您對最重要的人事物的注意力。

Reality Labs 亦公開了完整的資料集與訓練流程,包含超過 300 名參與者所產出的三種任務數據(連續控制、手勢與手寫),累計超過 100 小時的高密度肌電資料。研究團隊希望透過此舉加速學術界與開發者在神經介面領域的創新進展,並鼓勵社群針對硬體設計、訊號處理與機器學習模型進行更深入的探索與應用。

Reality Labs 發表的這項研究不只是工程技術的進步,更是一種對人與科技互動關係的重新思考。相較於人類過去不斷適應各種輸入工具,如打字、滑鼠點擊、觸控滑動,sEMG 所提供的是一種由人出發、機器主動理解的控制方式。當科技真正理解「意圖」本身,並能將其自然轉化為互動回饋,人機介面便不再只是效率問題,而將成為一種更加人性化的存在形式。這不僅將提升主流使用者的操作體驗,更為行動能力受限者與語言障礙者開啟嶄新溝通途徑,也可能成為未來 XR 與 AR 裝置最關鍵的核心輸入方案之一。

隨著這類非侵入式神經輸入技術日漸成熟,一種更安靜、更無感、更貼近人類本能的數位互動模式正悄然成形。Reality Labs 所提出的 sEMG 手環研究,不僅為這個可能性提供了堅實技術基礎,也讓外界對人機介面的下一個演化階段,有了更加具體的想像。

*如果想要更深入了解研究,建議一定要看nature期刊上的 文章PDF *

Ray-Ban Meta 眼鏡音訊功能全面升級:支援多平台語音控制,打造無耳機的聽覺體驗

廣告

隨著人工智慧與穿戴裝置技術的成熟,Meta 透過與音樂及音訊平台的合作,將 Ray-Ban Meta 智慧眼鏡(未來也將支援 Oakley Meta 眼鏡)打造為更自由、無縫的個人音訊中心。無需再糾結耳機線,也不必手忙腳亂地拿出手機,只需一句「Hey Meta」,即可啟動播放、搜尋、辨識或操作喜愛的音樂與內容。

目前支援的音樂與音訊平台包含 Amazon Music、Apple Music(限 iOS)、Spotify、Shazam 與 Music Info 等,在美國地區則額外支援 Audible 有聲書與 iHeartRadio 廣播服務。使用者可透過語音指令操作,例如:「Hey Meta,播放我的運動歌單」或「Hey Meta,播放 chill 音樂」,無需雙手即可完成。

透過 Spotify,還能語音播放特定 podcast 節目,例如:「Hey Meta,播放《The Comment Section with Drew Afualo》」,進一步拓展智慧眼鏡的應用範圍。而內建的 Shazam 功能則可在街頭或聚會中辨識周遭音樂,使用者只需說出「Hey Meta,用 Shazam 辨識這首歌」即可辨識背景音樂。

Music Info 功能進一步延伸了音樂互動的可能性,讓使用者不只知道「這是什麼歌」,還能追問:「這張專輯是什麼?」、「什麼時候發行的?」等進階資訊,為音樂愛好者提供豐富的背景知識。

在美國地區,使用者還能透過 iHeartRadio 語音搜尋本地與全國電台、音樂節目、新聞、體育與 podcast 等內容。而 Audible 的整合則讓用戶能以語音控制播放、暫停、跳章、重播,甚至為段落加入書籤。

硬體設計上,Ray-Ban Meta 採用開放式耳機設計,讓使用者在享受高品質音樂與語音內容的同時,仍能聽到周遭環境聲,適合戶外活動或通勤過程使用。未來登場的 Oakley Meta 眼鏡也預計延續相同架構,並優化於運動場景的配戴體驗。

用戶可依個人偏好快速設定與連接支援的應用程式,只需在 Meta AI app 中前往「眼鏡設定」>「已連接的應用程式」,選擇對應服務並同意相關條款後,即可啟用各項功能,並指定預設的音樂、Podcast 與廣播平台。除 Apple Music 僅限 iOS 外,其餘功能皆支援 Android 與 iOS 裝置。

透過語音搜尋、免手操作與直覺式觸控指令(長按推薦、單擊暫停播放、雙擊跳過),Ray-Ban Meta 智慧眼鏡正在重塑使用者的音樂互動體驗。不需耳機、沒有電線束縛,也無須手動操作,AI 眼鏡正將日常片段轉化為專屬的聲音氛圍。

Meta 公布 Aria Gen 2 研究眼鏡:結合 AI 感知與穿戴技術的次世代研究裝置

廣告

Meta 於今年初正式發表了 Aria Gen 2 研究眼鏡,作為 Project Aria 計畫的延續,這款裝置旨在為研究社群提供更高效的資料收集工具與更強大的感知能力。Aria Gen 2 被定位為一款專為研究用途設計的穿戴式設備,整合了最新的電腦視覺、機器學習、感測器與即時 AI 運算技術,並透過開放式平台的方式,協助推進機器感知、空間理解、情境式人工智慧與機器人領域的研究。相較於 2020 年發表的 Aria Gen 1,Aria Gen 2 在設計與功能層面上皆有顯著提升,其硬體、演算法與感知模組的更新,意味著穿戴式研究裝置進入了新的階段。該裝置不僅改善了配戴舒適度,也擴展了感測能力與數據精準度,對從事人因工程、視覺認知、自然互動、機器人訓練與智慧城市研究的開發者而言,具備相當的實驗潛力。

Aria Gen 2 延續穿戴裝置的眼鏡形式設計,主打輕量、可攜、長時間配戴的特性,整體重量僅約 74 至 76 公克,並提供八種尺寸版本,考量到不同頭型、臉型與鼻樑結構,以提升適配度與配戴穩定性。此外,鏡腳可折疊的結構設計則進一步提升了日常操作與戶外研究的便利性。這些變化不僅僅是硬體上的調整,更反映出裝置作為研究載具在不同場域使用時的實用考量。透過更多尺寸選擇與輕巧設計,Aria Gen 2 有助於降低穿戴式研究裝置在長時間配戴下造成的身體負擔,使其更適用於實地研究、動態測試與移動應用場景。

在感測元件方面,Aria Gen 2 搭載的視覺模組經過全面升級。該裝置使用四顆電腦視覺鏡頭,數量較 Gen 1 加倍,能提供更寬廣的視角與更高解析度的圖像資料。這些鏡頭配備全球快門與高動態範圍感測器,其 HDR 表現達 120 分貝,相較前代的 70 分貝有明顯進步,有助於裝置在光源強烈變化的場景中穩定執行電腦視覺任務。同時,立體視覺重疊角度也由 Gen 1 的 35 度提升至 80 度,使其更適合進行基於立體影像的深度估測與 3D 重建。這些升級對需要高精度追蹤、姿態識別或空間場景重建的研究來說,可能提升影像數據的可用性與演算法的準確性。

除視覺感知外,Aria Gen 2 也整合了多種新型感測器,進一步擴展其應用潛力。環境光感測器(ALS)具備紫外線識別模式,能夠協助裝置分辨室內與室外環境,有助於優化相機曝光設定與低幀率拍攝條件下的資料表現。嵌入式接觸麥克風設置於鼻墊區域,能在高噪音環境中排除背景干擾,提升語音資料的準確性與可用性。此外,Aria Gen 2 亦內建 PPG 心率感測器,可用於生理狀態估測,這項設計對結合生理反應與環境行為分析的研究具有潛在價值。

CV 攝影機能夠捕捉高度動態的場景,並能分辨 LED 燈絲以及場景中的其他細節。(Video Form Meta)
環境光感測器 (ALS) (Video Form Meta)
模擬有風的場景,當聲學麥克風無法拾取佩戴者的耳語時,接觸式麥克風可以拾取佩戴者的耳語。(Video Form Meta)

針對裝置間資料協同與同步問題,Aria Gen 2 採用了 SubGHz 無線技術進行時間對齊。這項硬體式解決方案取代前代軟體式方法,具備亞毫秒級的時間同步精度,對於多台裝置進行協同紀錄、分散式場景重建與資料對比分析而言,可能帶來更高的資料一致性與時間準確性,進一步支援多視角研究或團隊合作實驗設計。

影片展示了 Aria Gen 2 如何使用裝置時間對齊來執行諸如從兩個 Aria Gen 2 裝置進行分散式擷取寫入等任務。(Video Form Meta)

為了滿足裝置端即時資料處理的需求,Aria Gen 2 配備 Meta 自家開發的低功耗協同處理器,支援機器感知演算法的即時執行。包括視覺慣性定位(Visual Inertial Odometry, VIO)在內的空間追蹤能力,讓裝置可在六自由度下執行位置與方向感知;眼動追蹤模組則提供瞳孔移動、眨眼、聚焦點、雙眼角度等多種視覺參數,有助於視覺注意力與人機互動研究;手部追蹤功能則能擷取三維空間中的關節位置與手勢資訊,應用於手眼協同、機器手臂模擬與手部數據集建立等用途。這些資料處理與感知模組結合後,構築了一套完整的環境理解架構,使 Aria Gen 2 能即時回應使用者動作與周圍變化。

演示 Aria Gen 2 的傳感器和機器感知能力,以及基於它們構建的設備外算法。

目前 Aria Gen 2 尚未全面開放申請,Meta 預計於年內啟動研究合作計畫,而針對前一代 Aria Gen 1 的研究套件仍持續接受申請,有興趣的研究人員可透過官方平台申請進入合作流程。Meta 亦預告將於 2025 年 6 月的 CVPR 年會現場展示 Aria Gen 2 的互動體驗,屆時將提供與會者第一手的裝置試用機會與技術解說。

Aria Gen 2 延續了 Project Aria 開放研究平台的精神,在硬體規格、感測模組、資料處理與同步能力上進行多方面升級。儘管仍以研究與開發為主要目標而非商用消費市場,但其設計與功能已逐步靠近空間運算核心技術的實際應用需求。對於學術界、產業研究團隊與創新開發者來說,這樣一款具備擴充性與即時感知能力的研究眼鏡,有可能成為觀察人類行為、訓練機器學習系統與打造新一代智慧環境的實驗平台。


Meta Aria Gen 2 重點整理|研究人員的理想穿戴式感知工具登場

  1. Project Aria 計畫延續
    Meta 推出 Aria Gen 2 研究眼鏡,專為機器感知、空間理解、AI 與機器人等前沿研究設計。
  2. 更輕更合身的設計
    整體重量約 74 至 76 克,支援長時間配戴。提供 8 種尺寸、可折疊鏡腳,提升適配度與戶外操作便利性。
  3. 升級的視覺模組
    搭載 4 顆電腦視覺鏡頭(前代為 2 顆),HDR 提升至 120dB(前代為 70dB),立體視角由 35 度提升至 80 度,大幅提升影像精準度與深度估測能力。
  4. 多元感測整合
    內建紫外線環境光感測器、高靈敏鼻墊麥克風與 PPG 心率感測器,有助於室內外辨識、語音準確性與生理數據收集。
  5. 超高精度時間同步
    使用 SubGHz 無線技術達成亞毫秒級資料同步,提升多裝置協同記錄與空間重建的資料一致性。
  6. 即時 AI 處理與空間感知
    搭載 Meta 自家低功耗處理器,支援 VIO 空間追蹤、眼動追蹤、手部追蹤等功能,能即時感知使用者動作與環境變化。
  7. 合作計畫與公開展示
    Meta 預計於 2025 年 6 月 CVPR 年會展示 Aria Gen 2 並提供現場試用,現階段 Gen 1 合作申請仍開放,Gen 2 將於年內逐步展開合作計畫。
  8. 高潛力研究應用
    適用於人因工程、智慧城市、視覺認知、機器學習訓練等場景,是一款具備擴充性與即時感知能力的研究平台。

Meta 推出 LlamaCon 2025 開發者大會,Llama 模型持續擴展應用與影響力

廣告

Meta 宣布將於 2025 年 4 月 29 日舉辦 LlamaCon 開發者大會,旨在分享 Llama 開源 AI 模型的最新進展,並提供開發者更多技術支援與應用機會。Llama 系列模型近年來在全球範圍內快速成長,下載量已突破 6.5 億次,並且在過去三個月內翻倍。隨著 AI 模型的持續優化與擴展,Meta 計劃透過 LlamaCon 與開發者進行更緊密的交流,推動 AI 技術的發展與應用。

Llama 作為 Meta 推出的開源大語言模型(LLM),在 2024 年經歷了數次重大升級,包含 Llama 3、Llama 3.1(推出 405B 模型)、Llama 3.2(首款多模態模型),以及 Llama 3.3 70B 版本,該版本在提供與 405B 模型相近性能的同時降低了運行成本。Llama 的開放特性使其迅速成為全球採用率最高的 AI 模型之一,目前全球下載量已超過 6.5 億次,並且在美洲、歐洲、亞太及新興市場的採用率持續增長。

為滿足不斷增長的需求,Meta 與多家科技公司展開合作,包括 Amazon Web Services(AWS)、AMD、Microsoft Azure、Databricks、Dell、Google Cloud、NVIDIA、IBM watsonx、Oracle Cloud、ScaleAI 等,確保 Llama 可在各種運行環境下發揮最佳效能。根據 Meta 公布的數據,Llama 在主要雲端合作夥伴的月度運行 token 數量在 2024 年 9 月達到了 50% 的月增長率,顯示企業對於開源 AI 模型的需求正在大幅提升。

除了開發者社群,越來越多企業與政府機構也開始將 Llama 模型應用於實際業務。Meta 近期推出 Llama Stack,為企業提供標準化工具鏈,使其能夠更輕鬆地定制 Llama 模型,並開發基於 AI 的應用系統。

  • IBM:將 Llama 整合至 watsonx.AI 平台,為全球 AI 企業開發者提供訓練、驗證、調整與部署能力。此合作讓 Llama 被應用於地方政府、電信公司,甚至是職業足球俱樂部的人才招募。
  • Block(Cash App 開發商):將 Llama 用於客服系統,透過開源架構靈活調整模型,提高客戶支持的自動化程度,同時確保數據隱私。
  • Accenture:為國際組織開發基於 Llama 3.1 的 AI 聊天機器人,該應用在 AWS 運行,具備可擴展性與高效處理能力。
  • Spotify:透過 Llama 強化個性化推薦系統,讓 AI 提供更具針對性的音樂推薦與背景介紹。
  • LinkedIn:使用 Llama 進行 AI 訓練,開發更適合社交平台需求的 LLM,並優化運行成本與效能。

除了企業應用,政府機構對 Llama 的興趣也在提升:

  • 美國政府:開始探索 Llama 在數據處理與公共服務領域的應用。
  • 印度技能發展與創業部(MSDE):計畫利用 Llama 提升學習系統與學生支援。
  • 阿根廷政府:已將 Llama 應用於 WhatsApp AI 聊天機器人,提升政府公共服務的自動化與回應速度。

Meta AI 助理擴展應用,進入社交與穿戴設備

Llama 模型的發展也推動了 Meta AI 助理 的廣泛應用。該 AI 助理目前在 WhatsApp、Instagram、Facebook、Messenger 等平台運行,每月活躍用戶數已接近 6 億,預計將成為全球使用量最高的 AI 助理。Meta 預計在 2024 年底前,將 Meta AI 擴展至 43 個國家與 12 種語言,進一步提升全球影響力。

此外,Meta 也在探索 AI 技術與穿戴設備的整合:

  • Ray-Ban Meta 智能眼鏡:內建 Llama 模型,讓使用者可透過語音與 AI 互動,而無需使用手機。目前該功能已開放至法國、義大利、愛爾蘭、西班牙等地。
  • AI Studio:自 2024 年 7 月推出後,已成為創作者開發 AI 角色的主要平台,至今已有超過 數十萬個 AI 角色 被創建。2025 年,Meta 計畫將 AI Studio 打造成全球領先的 AI 角色創建平台。

進入 2025 年,Meta 計畫加速推動 Llama 模型的發展,Llama 4 將推出多個版本,進一步提升 AI 在 語音、推理 等領域的能力。Meta 預測,AI 互動將逐漸從文本轉向語音,並計畫在 2025 年上半年 強化 AI 語音技術,使其更具對話性與實用性。

  • Meta Movie Gen:已開發 AI 影片生成技術,未來可能會整合至 Meta 旗下應用,提供更強大的 AI 影片創作與編輯能力。
  • Agentic AI(智能代理 AI):Meta 正在測試企業 AI 助理,可處理顧客服務、商業交易等任務,未來可能發展出更多自主處理工作的 AI 助理。
  • AI 廣告與商業應用:Llama 目前已被應用於 Advantage+ Creative 廣告生成工具,協助企業自動產生文本、圖像與影片廣告,提升行銷效率。

Meta 推出的 LlamaCon 2025 將成為開發者與企業探索 Llama 模型技術的全新平台,隨著 AI 模型的持續演進,Llama 已成為開源 AI 生態系統中的重要組成部分。未來,Meta 計畫透過不斷創新與開放合作,使 Llama 成為 AI 技術的標準,並加速 AI 技術在語音、影像、商業應用等領域的發展。

Snap 推出全新一代 Spectacles:擴增實境眼鏡的未來體驗與技術規格

廣告

Snap合作夥伴峰會上,Snap正式推出了新一代擴增實境(AR)眼鏡——Spectacles,為用戶帶來了更高端、更沉浸的擴增實境體驗。這款眼鏡採用SnapOS系統,並配備了兩顆Snapdragon處理器,讓操作流暢且性能強大。解析度達到每度37像素,搭載迷你LCOS投影機,為用戶提供清晰的視覺效果。透視波導技術支持直觀的AR交互,視野達到46度,提升了虛實融合的體驗。

除了強大的性能外,Spectacles還具備與Snapchat的深度整合,讓用戶可以在擴增實境中與朋友一起分享互動,無論是玩遊戲、探索新場景,還是生成3D資產。這款眼鏡支持多模態生成AI,提供全手部追蹤和語音識別功能,讓用戶能夠以更自然的方式與眼鏡互動。雖然電池續航僅有45分鐘,但其功能強大,仍然成為市場上備受矚目的產品。

在設計上,Spectacles不僅輕便,還具備靈活的摺疊鏡腿設計,便於日常攜帶。其硬體配置包括立體聲喇叭和六個麥克風陣列,支援空間音效和背景噪音抑制,為用戶提供更好的音頻體驗。眼鏡內部搭載的兩顆彩色相機和兩顆紅外線相機,以及6軸慣性測量單元(IMU),讓眼鏡能夠更精確地捕捉周圍環境,進而提供更具沉浸感的AR體驗。

這款產品的亮點不僅在於其先進的硬體配置,還包括了用戶能透過AI進行的多種創造性操作。透過全手部追蹤與語音輸入功能,用戶可以隨時生成3D物件,甚至在AR環境中觀看立體排列的影片,將數位世界與現實世界無縫結合。

Snap推出的新一代Spectacles不僅是一款功能強大的擴增實境眼鏡,更是通往未來AR生活的一個全新入口。Spectacles透過其先進的技術規格和強大的功能,將虛擬與現實完美融合,為用戶帶來前所未有的擴增實境體驗。

GPTBot: OpenAI 發布新的網絡爬蟲改進AI模型的安全性

廣告

OPenAI推出了GPTBot,用來推動GPT-4和即將問世的GPT-5,主要是從互聯網上獲取公開網站的數據,增強的人工智慧AI的模型,人工智慧有了很大的成長。

OpenAI 表示:「使用 GPTBot 爬取網路資料是為了改進 AI 模型的準確性、功能性和安全性。」

雖然允許或禁止GPTBot網絡爬蟲會提升網站數據隱私,但仍然有法律上的問題,而網路上有一群人掀起了筆戰。

有人質疑 GPTBot 的網站上授權圖片、影片、音樂和其他媒體;也有人說可以做到共享利潤。

只是站在原創者角度,又有誰願意共享利潤呢? 這絕對是一個需要解決的問題。

以下是OPenAI提供的字串: 

GPT機器人

Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

禁止 GPTBot

User-agent: GPTBot

Disallow: /

自定義 GPTBot 訪問

要允許 GPTBot 僅訪問您網站的部分內容,您可以將 GPTBot 令牌添加到您網站的 robots.txt,如下所示:

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

OpenAI OpCo, LLC 已向美國專利商標局 (USPTO) 提交了“GPT-5”商標申請。該申請於 2023 年 7 月 18 日提交,目前正在處理中。

OpenAI 首席執行官 Sam Altman 討論了 GPT-5 的開發。

“We have a lot of work to do before GPT 5. It takes a lot of time for it. We are not certainly close to it. There needs to be more safety audits. I wish I could tell you about the timeline of the next GPT”

“在 GPT 5 之前我們還有很多工作要做,需要花費很多時間。我們肯定還沒有接近它。需要進行更多的安全審核。我希望我能告訴你下一個 GPT 的時間表”