蜜臀色欲AV无码人妻,欧美性猛交xxxx免费看蜜桃,西西444WWW无码视频软件,中文字幕无码精品亚洲35,51国精产品自偷自偷综合

LeCun在Meta的最后論文?還是共同一作,LeJEPA:JEPAs理論拼圖補完

機器之心報道

編輯:+0

這可能是 LeCun 在 Meta 發表的最后幾篇論文之一。這次,LeCun 為 JEPA 架構補上了關鍵的理論拼圖。

學習世界及其動態的可操控表征是人工智能的核心。聯合嵌入預測架構(JEPAs)是實現這一目標的有前景的藍圖。其核心思想是:通過最大化語義相關視圖(例如圖像的不同變換或裁剪)的嵌入之間的一致性,來學習一個有組織且可操作的高維嵌入空間。

然而,當前的 JEPA 訓練方法缺乏堅實的理論指導,導致研發過程臨時且脆弱。它們面臨一個共同的難題:表征崩潰(即所有輸入都映射到相似的嵌入)。

為了緩解這種「捷徑解」,當今的先進方法嚴重依賴各種復雜的「啟發式方法」,例如:停止梯度、教師-學生網絡(及精心調整的 EMA 調度)、非對稱的視圖生成、顯式的歸一化和白化層。

這些機制不僅使訓練過程復雜、脆弱,而且對超參數、架構和數據分布非常敏感,并且缺乏堅實的理論保證。

LeCun 團隊提出了一個關于 JEPAs 的全面理論,并將其具體化為 LeJEPA,這是一個精簡、可擴展且有理論基礎的訓練目標。

LeCun在Meta的最后論文?還是共同一作,LeJEPA:JEPAs理論拼圖補完-有駕
  • 論文標題:LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics

  • 論文地址://arxiv.org/abs/2511.08544

團隊首先提出了一個關鍵問題:JEPAs 的嵌入應遵循什么樣的最優分布?

首先,團隊證明了各向同性高斯分布是基礎模型的最佳嵌入分布。在廣泛的下游任務族中(無論使用線性還是非線性探針),該分布都能唯一地最小化下游預測風險。這一理論結果將 JEPA 的設計從依賴「啟發式」的探索,轉向了有目標的、基于理論的最優化。

基于這一理論,研究團隊引入了一種新穎的分布匹配目標:概略各向同性高斯正則化(SIGReg)。

SIGReg 是一種新穎的目標,它通過隨機投影和特征函數匹配來高效地強制嵌入服從理想的各向同性高斯分布。

它獨特地結合了可證明的正確性與大規模計算效率:

  • 理論上合理: 提供了統計保證和有界梯度。

  • 計算上高效: 實現了線性(而非二次方)的時間和內存復雜度,并克服了高維嵌入中的「維度災難」。

最終,通過將 JEPA 的預測目標與 SIGReg 相結合,LeJEPA 成為了一個通過構造就能消除表征崩潰的、具有統計最優性的 JEPA 解決方案。

這種有原則的理論設計直接帶來了實踐中的簡潔性、魯棒性和高性能。

  • 告別啟發式: 無需停止梯度、教師-學生網絡、EMA 調度器或顯式白化層。

  • 極致簡潔: 整個設計只有一個權衡超參數。

  • 高效穩定: 具有線性的時間和內存復雜度,在不同超參數、架構(ResNets、ViTs、ConvNets 等)和領域中均保持高度穩定性。

  • 易于實現: 其分布式訓練友好型實現僅需約 50 行代碼。

實驗涵蓋 10 多個數據集和 60 多種架構(規模接近 10 億參數),LeJEPA 達到或超過了最先進的方法。例如,在 ImageNet-1K 上預訓練并進行線性評估,LeJEPA(ViT-H/14)達到了 79% 的準確率。

更重要的是,LeJEPA 在特定領域的數據集(如 Galaxy10、Food101)上,直接進行領域內預訓練的效果優于基于 DINOv2 的遷移學習。這表明,有原則的 SSL 可以解鎖以往被認為在小型數據集上不切實際的領域內預訓練。

從名字 LeJEPA 也能看出來,這篇論文對 LeCun 來說似乎有特別的意義,評論區的反響也很好。

LeCun在Meta的最后論文?還是共同一作,LeJEPA:JEPAs理論拼圖補完-有駕
LeCun在Meta的最后論文?還是共同一作,LeJEPA:JEPAs理論拼圖補完-有駕
LeCun在Meta的最后論文?還是共同一作,LeJEPA:JEPAs理論拼圖補完-有駕

所以,LeCun 的創業公司會叫 LeAGI 嗎?

LeJEPA: 穩定且可擴展的實現

在確定了各向同性高斯分布是基礎模型的理想嵌入分布,并引入了 SIGReg 之后,團隊提出了完整的 LeJEPA 框架。

LeJEPA:SIGReg + 預測損失

SIGReg 損失。研究者選擇(Epps–Pulley)檢驗,因為它具有可證明的有界性(定理 4)和可擴展性。其實現基本遵循方程,只是積分部分使用了求積近似(一種數值估算方法)來進行估計。

研究發現,即使節點數少至 17,簡單的梯形求積法則也足夠了(如圖 20 所示)。另外,研究者利用被積函數的對稱性來免費將節點數加倍(詳見官方代碼)。

LeCun在Meta的最后論文?還是共同一作,LeJEPA:JEPAs理論拼圖補完-有駕
LeCun在Meta的最后論文?還是共同一作,LeJEPA:JEPAs理論拼圖補完-有駕
LeCun在Meta的最后論文?還是共同一作,LeJEPA:JEPAs理論拼圖補完-有駕

與先前工作的關系

在展示實驗之前,研究者最后討論了 LeJEPA 和 SIGReg 目標與文獻中現有框架的關系。

雖然目前沒有在 JEPA 中使用這種切片和分布匹配的解決方案,但在生成模型和最優傳輸領域存在類似的流程,例如切片分數匹配和切片 Wasserstein 距離。

此外,當(Epps–Pulley)檢驗的積分被精確計算時,每個切片損失值在數學上接近于核 MMD 方法。

最后,研究指出,通過在 LeJEPA 中使用特定的檢驗(而非首選的 Epps–Pulley),可以在極限情況下恢復某些現有的 SSL 框架(如 VICReg)。然而,基于定理 3,研究者強烈反對這種設置,因為它會導致捷徑解,這一現象在 VICReg 中已被觀察到。

LeJEPA:實證驗證

實驗表明 LeJEPA:(i)在不同架構和數據集上都能可靠訓練,(ii)為模型選擇提供了信息豐富的訓練損失,(iii)在小規模域內預訓練上優于前沿視覺模型,(iv)在 ImageNet-1k 上成功擴展到近 10 億參數,以及(v)無需顯式監督即可學習豐富的語義分割特征。

LeJEPA 在不同超參數和架構上的穩定性

LeCun在Meta的最后論文?還是共同一作,LeJEPA:JEPAs理論拼圖補完-有駕
  • Epps-Pulley 超參數的穩定性

接下來研究檢查了 LeJEPA 特有的超參數:SIGReg 的切片數量、(Epps–Pulley)檢驗的積分設置等。

結果顯示,積分的具體設置(如積分域和求積點數)對性能影響極小。切片數量有適度影響——雖然更多的切片會略微提高性能,但即使 512 個切片也能產生有競爭力的結果。因此,研究者推薦了 17 個積分點、[-5, 5]的積分域和 1024 個切片作為起始點。

  • 架構的穩定性

LeJEPA 相較于最近的方法(例如 IJEPA、DINOv2)的一個關鍵優勢是其架構無關的設計。

為了驗證這一點,研究者在 ImageNet-10 上預訓練了來自 8 個不同族的約 50 種架構。所有模型都能夠學習到高質量的表示,通過凍結主干進行線性探測,top 1 準確率達到了 91.5% 到 95%。

  • 移除流行的啟發式方法

LeJEPA 的可證明構造使其能夠移除許多傳統上用于防止坍塌的啟發式方法。先前的工作表明,預測器和教師-學生架構主要用于防止坍塌。得益于 LeJEPA 的 SIGReg 損失,該框架可以同時移除預測器和教師-學生架構,而不會遭受坍塌(如表 4 所示)。

LeCun在Meta的最后論文?還是共同一作,LeJEPA:JEPAs理論拼圖補完-有駕

其次,最近的工作表明需要使用寄存器令牌來防止訓練不穩定。表 1 的結果表明,這種不穩定性可能源于條件不良的訓練目標。相反,LeJEPA 不需要寄存器令牌,無論有無它們都能實現穩定性能。

LeCun在Meta的最后論文?還是共同一作,LeJEPA:JEPAs理論拼圖補完-有駕

LeJEPA 的訓練損失對下游性能具有信息指示性

SSL 預訓練中的一個主要挑戰是訓練損失與下游性能的相關性很低。

相比之下,研究發現 LeJEPA 的訓練損失為模型質量提供了有意義的信號。如圖 10 所示,SIGReg 損失和預測損失與下游任務準確率之間存在清晰趨勢。

LeCun在Meta的最后論文?還是共同一作,LeJEPA:JEPAs理論拼圖補完-有駕

域內 LeJEPA 優于前沿模型的遷移學習

自監督學習的一個關鍵承諾是學習通用表示。然而,目前的前沿模型(如 DINOv2/v3、IJEPA)是在自然圖像上預訓練的,這迫使特定領域的從業者使用大量標簽進行監督微調。

為了展示 LeJEPA 的多功能性,研究者建議直接在專業領域上進行預訓練,而無需更改流程。研究者選擇了 Galaxy10 數據集(一個星系形態分類任務)。該研究與最新的 DINOv2、DINOv3 和 IJEPA 進行了比較。

圖 12 報告了線性探測和全量微調的 top 1 準確率。結果觀察到,使用 LeJEPA 進行域內預訓練,在這兩項評估中均顯著優于頂尖的前沿模型。

LeCun在Meta的最后論文?還是共同一作,LeJEPA:JEPAs理論拼圖補完-有駕

表 5 中的額外結果展示了 LeJEPA 即使在小至 1000 個樣本的數據集上也能有效訓練。

LeCun在Meta的最后論文?還是共同一作,LeJEPA:JEPAs理論拼圖補完-有駕

LeJEPA 在數據和模型上均具有可擴展性

研究者接著將 LeJEPA 應用于更大的預訓練數據集(ImageNet-1k)和更大的主干網絡,例如 ViT/Large(3 億參數)和 ConvNextV2-Huge(6 億參數),分別達到了 77.1% 和 78.5% 的在線線性探測準確率。

在遷移學習方面(表 2),該研究的基線是 IJEPA(ViT-Huge,6 億參數)及其改進版 IJEPA + STOP。結果觀察到,LeJEPA 盡管使用了更小的模型和更短的訓練計劃,其性能仍持續優于 IJEPA。

LeCun在Meta的最后論文?還是共同一作,LeJEPA:JEPAs理論拼圖補完-有駕

此外,該模型在 ViT-gigantic(18 億參數)上的訓練曲線(圖 1)也顯示出非常穩定和平滑,表明其優化景觀穩定,無需仔細的超參數調整。

LeCun在Meta的最后論文?還是共同一作,LeJEPA:JEPAs理論拼圖補完-有駕

LeJEPA 表示中涌現的語義結構

成功的自監督學習的一個標志是,在沒有顯式監督的情況下涌現出具有語義意義的注意力模式。為了評估 LeJEPA 是否學習了這種結構,研究者將其學習到的表示的注意力圖進行了可視化。繼 DINO 之后,該研究對嵌入應用 PCA(主成分分析)并可視化第一個主成分,其顯示出與物體邊界和顯著區域的清晰對應關系(圖 14)。

此外,研究者們探索了這些注意力模式是否能夠實現無監督視頻分割。通過對 [CLS] 令牌的自注意力圖進行閾值處理,獲得了可以在沒有訓練標簽的情況下跨幀跟蹤物體的二值掩碼。

如圖 13 所示,LeJEPA 的注意力以卓越的時間一致性自然地將前景物體與背景分割開來,這表明學習到的表示同時捕捉了空間語義和時間結構。這種涌現的能力表明,LeJEPA 注重穩定性的目標并沒有犧牲所學特征的語義豐富性。

LeCun在Meta的最后論文?還是共同一作,LeJEPA:JEPAs理論拼圖補完-有駕

更多技術細節請參見原論文。

0

全部評論 (0)

暫無評論