蜜臀色欲AV无码人妻,欧美性猛交xxxx免费看蜜桃,西西444WWW无码视频软件,中文字幕无码精品亚洲35,51国精产品自偷自偷综合

謝賽寧、李飛飛、LeCun聯手提出多模態LLM新范式,「空間超感知」登場

機器之心報道

編輯:杜偉、+0

紐約大學助理教授謝賽寧新作又來了,合著者還有李飛飛、Yann LeCun。

這次的成果名為「Cambrian-S」,根據謝賽寧的說法,它既是一種觀點,也是一個數據集、一個基準或者一個模型,代表其邁出了探索視頻空間超感知的第一步。

從名稱上來看,Cambrian-S 是謝賽寧團隊去年研究成果「Cambrian-1」的延續。Cambrian-1 是一個關于圖像 MLLM 的開放項目,旨在讓 AI 獲得強大的視覺表征學習能力。具體詳見:寒武紀 1 號誕生:謝賽寧、Yann LeCun 團隊發布最強開源多模態 LLM

謝賽寧、李飛飛、LeCun聯手提出多模態LLM新范式,「空間超感知」登場-有駕

在構建 Cambrian-1 之后,團隊并沒有立即擴展到 Cambrian-2 或 3,而是停下來思考以下三個問題:1)什么才是真正的多模態智能?2)LLM 范式對感知建模是否真的合適?3)為什么人類的感知如此輕松、直覺,卻又如此強大?

在思考這些問題下,他們意識到某種根本性的東西缺失了,因此認為在構建「超級智能」之前,必須先構建「超感知」(supersensing)

那么,如何定義超感知呢?在他們的語境中,超感知不是指更先進的傳感器或更好的攝像頭,而是指一個數字生命體如何真正體驗世界 —— 它能夠吸收無盡的輸入流,并從中不斷學習。超感知是智能的一部分,就像眼睛是大腦感知外部世界的那部分。你不需要感知就能解決代碼或數學問題,但是如果 AI 要在現實世界中成為智能體,它就必須具備感知建模能力。

更具體地講,謝賽寧團隊劃分了多模態智能從現代到未來的發展路徑:

  • 0 僅語言理解(linguistic-only understanding):沒有感知能力,推理局限于文本和符號。當前的多模態大模型雖然已超越此階段,但仍保留其偏向。

  • 1 語義感知(semantic perception):將像素解析為對象、屬性與關系,對應于當前多模態模型強大的「看圖說話」能力。

  • 2 流式事件認知(streaming event cognition):處理實時無邊界的輸入流,主動理解并響應持續發生的事件,這與當前讓多模態模型成為實時助手的努力相契合。

  • 3 隱式 3D 空間認知(implicit 3D spatial cognition):將視頻理解為 3D 世界的投影。智能體必須知道有哪些東西、它們在何處、如何相互關聯以及這些關系如何隨時間變化。目前的多模態模型在這方面仍然極其有限。

  • 4 預測性世界建模(predictive world modeling):大腦通過「無意識推理」來預測潛在的世界狀態,基于先驗期望進行判斷。不過,當前的多模態系統還缺乏這種能夠預測未來狀態、保持持續記憶、進行推理與規劃的內部模型。

要研究這一切,視頻是終極媒介。視頻是人類體驗世界的方式,也是人們真實生活經驗的直接投影。

謝賽寧、李飛飛、LeCun聯手提出多模態LLM新范式,「空間超感知」登場-有駕

圖 1

團隊嘗試了一種全新的原型 —— 預測感知(predictive sensing),在 Cambrian-S 上訓練了一個潛變量幀預測(LFP)頭。在推理過程中對「驚訝度」(surprise)進行估計,并以兩種方式加以利用:1)surprise-driven 的記憶管理 —— 壓縮或跳過不令人驚訝的幀,將算力集中在令人驚訝的幀上;surprise-driven 的事件分割 —— 利用驚訝值的峰值來檢測事件邊界或場景變化。

通過利用這種內部預測模型產生的信號,團隊在空間認知任務上看到了令人鼓舞的提升。這雖然只是一個玩具級的預測世界模型,但借助這種機制,團隊的中小型模型在新提出的 VSI-Super(Visual-Spatial Intelligence)基準上超越了 Gemini。

謝賽寧表示,這是一篇很長的論文,但其中有許多非常有趣的細節。如果你正在研究視頻多模態模型,這篇論文或許值得一讀。雖然并不確定團隊的方向是否正確,但他確信當下的范式還遠遠不夠。

謝賽寧、李飛飛、LeCun聯手提出多模態LLM新范式,「空間超感知」登場-有駕
  • 論文標題:Cambrian-S: Towards Spatial Supersensing in Video

  • 論文地址://arxiv.org/pdf/2511.04670

  • 項目主頁://cambrian-mllm.github.io/

  • 代碼地址://github.com/cambrian-mllm/cambrian-s

接下來看論文細節。

基準測試空間超感知

為追求「空間超感知」奠定基礎,首先需要確定如何衡量該能力。研究者對這一能力的基準測試進行了兩部分研究。

研究者首先審計了一套流行的視頻 MLLM 基準。其分析(圖 3)顯示,現有基準絕大多數側重于語言理解和語義感知,而忽視了「超感知」所需的更高級空間和時間推理。

謝賽寧、李飛飛、LeCun聯手提出多模態LLM新范式,「空間超感知」登場-有駕

圖 3

為解決這一關鍵差距,該研究接著引入了 VSI-Super。這是一個新的基準,專門用于在任意長的流式場景中探測空間智能的這些更困難、更連續的方面。

本文的其余部分將使用此基準來測試當前 MLLM 范式的極限。

解構現有的視頻基準

近年來 MLLM 的進步導致了視頻問答(Video-QA)基準的激增。然而,一個關鍵問題隨之產生:現有基準在多大程度上真正檢驗視覺感知能力,而不僅僅是測試語言先驗?

該研究的診斷測試通過改變視覺輸入的豐富性和文本提示的信息量,試圖解開模型對視覺感知與語言先驗的依賴關系。那些僅靠純文本輸入(如字幕或「盲」MLLM)就能解決的基準,更偏向于檢驗語言理解;而需要多幀輸入才能回答的問題,則要求真正的視覺感知。

研究者使用一個基于圖像的 MLLM Cambrian-1 進行評估,此舉旨在探測潛在的任務需求,而不將其與特定視頻架構和后訓練方法的能力相混淆。

研究者為向 Cambrian-1 模型輸入視頻設立了幾種實驗條件:

  • Multiple Frames (多幀): 模型處理從視頻片段中均勻采樣的 32 幀。這是文獻中表示視頻輸入的標準方法。

  • Single Frame (單幀): 模型僅處理給定視頻片段的中間幀。此條件測試對最少的、上下文核心的視覺信息的依賴程度。

  • Frame Captions (幀字幕): 模型不接收視頻幀,而是接收對應于相同 32 幀均勻采樣圖像的字幕。此條件旨在揭示在沒有低層感知基礎的情況下,任務的可解決程度。使用 Gemini-2.0-Flash API 來為視頻幀重新生成字幕。

為了在這些條件下對性能進行情境化分析,該研究還引入了兩個基線:

  • Blind Test (盲測): 模型僅使用任務的問題來嘗試解答。所有視覺輸入都被忽略,也不使用視覺字幕。該基線測量模型基于其預先存在的知識、語言先驗以及基準問題中任何潛在偏見的性能。

  • Chance Acc (隨機準確率): 這代表了特定任務格式(例如,多項選擇題)通過隨機猜測可實現的準確率,作為性能的下限。

圖 2 (a-c) 的結果表明,Cambrian-1 作為一個未經任何視頻后訓練的、基于圖像的 MLLM,可以在許多基準上達到合理的性能。這表明,這些基準所針對的大部分知識,都可以通過標準的單圖像指令調優管線來獲取。然而,在 VSI-Bench 和 Tomato 這兩個數據集上,該模型的性能低于隨機水平,因為它們分別需要真正的視頻感知和對高幀率視頻的細粒度理解。

使用文本字幕代替視覺輸入也產生了顯著的性能提升,在 EgoSchema、VideoMME、LongVideoBench、VideoMMMU、Perception Test 和 MVBench 等基準上,其準確率超過隨機水平 20% 以上(圖 2 i)。在將基準性能與「盲測」結果進行比較時,也可以得出類似的結論(圖 2 d, f)。這種性能表現意味著,這些基準主要探測的是可從視頻內容的文本摘要中推斷出的能力。

謝賽寧、李飛飛、LeCun聯手提出多模態LLM新范式,「空間超感知」登場-有駕

圖 2

解讀使用「多幀」和「幀字幕」之間的性能差異(圖 2 j),一個顯著的正差值(偏向于多幀輸入)標志著該基準對精細視覺感知的需求。相反,一個很小或負的差值(更偏向于「幀字幕」)則表明其具有更強的以語言為中心的性質。研究者的分析將 VideoMMMU、EgoSchema、VideoMME、Perception Test 和 LongVideoBench 歸于后一類,表明它們可能更依賴于語言理解而非視覺提示。一個顯著的例外是 VSC,它對當前的 MLLM 來說是如此具有挑戰性,以至于所有三種輸入條件都產生接近于零的性能,從而排除了它們之間任何有意義的比較。

現有的基準絕大多數側重于語言理解和語義感知,而忽視了「超感知」所需的更高級的空間和時間推理。

研究者希望強調基準測試中固有的挑戰,以及創建一個單一的、包羅萬象的基準來評估每一種能力是不切實際的。例如,對語言先驗的依賴不應僅僅被視為一個缺點,因為獲取豐富的世界知識并對其進行有效檢索在許多場景中無疑是有益的。研究者認為,視頻基準不應被視為衡量一個單一、統一的「視頻理解」概念。相反,它們的設計和評估應基于它們旨在評估的特定能力。因此,上述分析旨在指導開發能更有效推動「空間超感知」發展的任務,這也將是本文余下部分的中心焦點。

VSI-SUPER:邁向多模態大型語言模型中空間超感知的基準測試

參照圖 1,空間超感知要求 MLLM 具備四種關鍵能力:語義感知、流式事件認知、隱式 3D 空間認知和預測性世界建模

然而,正如研究者在圖 2 中的分析所概述的,大多數現有的視頻問答(QA)基準主要評估語言理解和語義感知方面,這些方面更具反應性,并由特定任務驅動。雖然近期的研究已開始通過持續感知、記憶架構和主動回答來解決流式事件認知問題,但這種能力通常是在測試時「工程實現」的,而非原生的模型技能。

此外,盡管空間推理偶爾會作為現有基準中的一個類別出現,但這些任務很少達到真正空間認知的水平,并且遠未探測定義「超感知」的世界建模能力(圖 3)。盡管 VSI-Bench 向著檢驗空間認知邁出了第一步,但其視頻仍然是短片和單場景的,并且它既沒有對問題進行形式化定義,也沒有評估世界預測建模這一基本能力。

為了闡明當前 MLLM 與空間超感知之間的差距,研究者引入了 VSI-SUPER,這是一個由兩部分組成的、用于連續空間感知的基準。這些任務對人類來說是直觀的,通常很容易,即只需觀看并持續追蹤發生的事情,但它們對機器來說仍然具有驚人的挑戰性。它們要求跨越無界的空間視頻,選擇性地過濾和結構化地積累視覺信息,以保持連貫的理解并回答問題。重要的是,它們能夠抵御「暴力」的上下文擴展,暴露了對真正空間推理的需求。下面將詳細介紹這兩個組成部分。

  • VSI-SUPER Recall (VSR):長時程空間觀察與回憶

VSR 基準要求 MLLM 觀察長時程的時空視頻,并按順序回憶出一個異常物體的位置。如圖 4 所示,為了構建這個基準,人類標注者使用圖像編輯模型(即 Gemini)將令人驚訝或不合時宜的物體(例如,一只泰迪熊)插入到一個室內環境的 walkthrough 視頻的四個不同幀(和空間位置)中。

謝賽寧、李飛飛、LeCun聯手提出多模態LLM新范式,「空間超感知」登場-有駕

圖 4

然后將這個編輯過的視頻與其他類似的房間游覽視頻拼接起來,創建一個任意長的連續視覺流。這項任務類似于語言領域中常用于壓力測試 LLM 長上下文能力的「大海撈針」(NIAH)測試。類似的 NIAH 設置也已被提議用于長視頻評估。

然而,與那些插入不相關文本片段或幀的基準不同,VSR 通過幀內編輯保持了「針」的真實感。它通過要求順序回憶(這實際上是一個多跳推理任務)進一步擴展了挑戰,并且在視頻長度上保持了任意的可擴展性。為了全面評估模型在不同時間尺度上的性能,該基準提供了五種時長:10、30、60、120 和 240 分鐘。

  • VSI-SUPER Count (VSC): 變化視角和場景下的持續計數。

測試 MLLM 在長篇空間視頻中持續積累信息的能力。為了構建 VSC,研究者拼接了來自 VSI-Bench 的多個房間游覽視頻剪輯,并要求模型計算所有房間中目標物體的總數(見圖 5)。

謝賽寧、李飛飛、LeCun聯手提出多模態LLM新范式,「空間超感知」登場-有駕

圖 5

這種設置具有挑戰性,因為模型必須處理視角變化、重復目擊和場景轉換,同時還要保持一個一致的累積計數。對人類來說,計數是一個直觀且可泛化的過程。一旦理解了「一」的概念,將其擴展到更大的數量是很自然的。相比之下,正如研究者稍后將展示的,當前的 MLLM 缺乏真正的空間認知,并且過度依賴于學到的 statistical patterns(統計模式)。

除了標準評估(即在視頻結束時提問),研究者還在多個時間戳查詢模型,以評估其在流式設置中的性能,其中 VSC 的正確答案會隨時間動態演變。為了檢驗長期一致性,VSC 包括四種視頻時長:10、30、60 和 120 分鐘。對于這項定量任務,研究者使用平均相對準確率(MRA)指標來報告結果,這與 VSI-Bench 的評估協議一致。

最先進的模型在 VSI-SUPER 上表現不佳。 為了測試 VSI-SUPER 是否對前沿 MLLM 構成了真正的挑戰,研究者評估了最新的 Gemini-2.5-Flash。

如表 1 所示,盡管上下文長度達到了 1048576 個 token,該模型在處理兩小時視頻時仍達到了其上下文限制。這凸顯了視頻理解的開放式(open-ended)特性,即連續的流實際上需要一個「無限輸入,無限輸出」的上下文,并且可以任意增長,這表明僅僅擴大 token 數量、上下文長度或模型大小可能還不夠。

謝賽寧、李飛飛、LeCun聯手提出多模態LLM新范式,「空間超感知」登場-有駕

盡管研究者的基準是合成的,但它反映了空間超感知中的一個真正挑戰:人類能毫不費力地整合和保留來自持續數小時或數年的感官體驗中的信息,但當前模型缺乏用于持續感知和記憶的相應機制。Gemini-2.5-Flash 在以語義感知和語言理解為重點的視頻基準(如 VideoMME 和 VideoMMMU)上表現出強勁性能,實現了約 80% 的準確率。

然而,即使是在其上下文窗口之內的 60 分鐘 VSI-SUPER 視頻上,VSR 和 VSC 的性能仍然有限 —— 分別只有 41.5 和 10.9。如圖 6 所示,模型預測的物體計數未能隨視頻長度或物體的真實數量而擴展,而是飽和在一個很小的恒定值,這表明其在計數能力上缺乏泛化性,并依賴于訓練分布的先驗。

謝賽寧、李飛飛、LeCun聯手提出多模態LLM新范式,「空間超感知」登場-有駕

VSI-SUPER 如何挑戰當前范式。 盡管任務設置很簡單,但 VSI-SUPER 帶來的挑戰超越了空間推理本身,揭示了當前 MLLM 范式的根本局限性。

VSI-SUPER 任務挑戰了那種認為「僅靠規模擴張就能保證進步」的信念。

通過允許模擬流式認知動態的任意長度的視頻輸入,VSI-SUPER 被有意構建為超越任何固定的上下文窗口。這種設計表明,逐幀的 tokenization 和處理不太可能成為一個計算上可行的長期解決方案。人類通過選擇性地關注并(通常是無意識地)僅保留一小部分感官輸入,來高效地、自適應地解決此類問題。這種預測性和選擇性機制是人類認知的核心,在當前的 MLLM 中仍然缺失,但它對于一個預測性世界模型至關重要。

VSI-SUPER 任務要求在測試時泛化到新的時間和空間尺度。

例如,VSC 要求在任意長的視頻中進行計數,這類似于理解了計數概念的人類,可以將其擴展到任何數量。關鍵不在于維持一個極長的上下文窗口 —— 人類并不會保留擴展視覺體驗中的每一個視覺細節 —— 而在于學習計數這一過程本身。預測性感知通過將連續的視覺流分割成連貫的事件,并利用「驚訝度」的時刻來施加時間結構,從而促進了這一點。這種分割充當了一種「分而治之」的機制,允許模型在動態變化的場景中決定何時開始、繼續或重置行為。

總之,這些挑戰跨越了計算效率、泛化能力以及諸如無意識推理和預測性感知等認知機制,呼喚著一場范式轉變。未來的模型不應僅僅依賴于擴展數據、參數或上下文長度,而應學習能夠在一個跨越時空、無限展開的視覺世界中進行感知和預測的內部世界模型。

為了進一步推動這一范式轉變,下一節將探討在當前范式內,通過改進工程設計和有針對性的數據篩選,還能取得多大進展。研究者將評估現有的 MLLM 框架是否能被改造以應對 VSI-SUPER 帶來的挑戰。這些努力雖然在現行框架的限制內運作,但對于為下一代空間超感知模型構建數據和實證基礎而言,是必不可少的。

預測性感知:一種新范式

Gemini-2.5-Flash (表 1) 和 Cambrian-S (表 7) 在 VSI-SUPER 上的性能都急劇下降,這揭示了一個根本性的范式差距:僅靠擴展數據和上下文不足以實現超感知。

研究者提出將預測性感知作為一種前進的路徑,即模型學習預測其感知輸入,并構建內部世界模型來處理無界的視覺流。這一設計受到了人類認知理論的啟發。與當前標記化并處理整個數據流的視頻多模態模型不同,人類的感知(和記憶)具有高度選擇性,只保留一小部分感知輸入。大腦不斷更新內部模型以預測傳入的刺激,壓縮或丟棄那些不貢獻新信息的、可預測的輸入。相反,違背預測的意外感知信息會產生「驚訝度」,并驅動注意力和記憶編碼的增強。

研究者通過一種自監督的下一潛在幀預測方法來構建這一概念的原型。由此產生的預測誤差可作為兩個關鍵能力的控制信號:用于選擇性保留重要信息的內存管理,以及用于將無界流分割成有意義的塊的事件分割。研究者通過在 VSI-SUPER 上的兩個案例研究證明,該方法顯著優于強大的長上下文和流式視頻模型基線。

通過潛在幀預測實現預測性感知

研究者通過一個輕量級的、稱為潛在幀預測 (LFP) 頭的自監督模塊來實現研究者的預測性感知范式,該模塊與主要的指令微調目標聯合訓練。這是通過修改第 4 階段的訓練方案來實現的:

  • 潛在幀預測頭。 研究者引入一個 LFP 頭,這是一個與語言頭并行運行的兩層 MLP,用于預測后續視頻幀的潛在表征。該架構如圖 9 左上角所示。

謝賽寧、李飛飛、LeCun聯手提出多模態LLM新范式,「空間超感知」登場-有駕

圖 9

  • 學習目標。為了優化 LFP 頭,研究者引入了兩個輔助損失:均方誤差 (MSE) 和余弦距離,用于衡量預測的潛在特征與下一幀的真實特征之間的差異。一個權重系數用于平衡 LFP 損失與主要的指令微調下一令牌預測目標。

  • LFP 訓練數據。研究者使用來自 VSI-590K 的一個 290K 視頻子集來擴充第 4 階段的數據,該子集專用于 LFP 目標。與指令微調不同,這些視頻以 1 FPS (每秒幀數) 的恒定速率采樣,以確保潛在幀預測具有均勻的時間間隔。

在修改后的第 4 階段微調期間,研究者以端到端的方式聯合訓練連接器、語言模型以及語言頭和 LFP 頭,同時保持 SigLIP 視覺編碼器凍結。所有其他訓練設置與原始的第 4 階段配置保持一致。為簡潔起見,在后續實驗中,使用 LFP 目標聯合優化的模型仍被稱為 Cambrian-S。

推理:通過預測誤差估計「驚訝度」。 在推理過程中,研究者利用訓練好的 LFP 頭來評估每個傳入視覺感知輸入的「驚訝度」程度。在心理學中,該框架通常被稱為違反預期 (VoE) 范式。具體來說,視頻幀以恒定的采樣率(除非另有說明,否則為 1 FPS)輸入到 Cambrian-S 中。模型不斷預測下一幀的潛在特征,隨后研究者測量模型的預測與該傳入幀的實際真實特征之間的余弦距離。

該距離可作為驚訝度的定量測量:值越大,表示偏離模型習得預期的程度越大。這種驚訝度分數可作為后續下游任務的強大、自監督的指導信號。

案例研究 I:用于 VSI-SUPER 計數的驚訝度驅動的連續視頻分割

超感知的更嚴峻測試不止于召回能力,還涉及模型解釋感知輸入、在不同環境中導航以及執行累積的多跳推理的能力。

驚訝度驅動的事件分割。一個事件可以被理解為一個時空上連貫的經驗片段。在空間超感知的背景下,一個事件對應于置身于特定空間并感知其環境的連續體驗。該定義強調,真實的感知體驗通常被組織成局部連貫的片段 —— 即感知、空間和時間特征保持相對穩定或一致的情節。因此,事件分割是基于這種連貫性的變化,將連續的感知輸入流解析為離散的、有意義的單元的過程。這種分割對于推理和行為至關重要:它允許智能體(生物的或人工智能的)形成經驗的結構化表征,檢測發生重大變化的邊界,并相應地更新對環境的預測。最近的研究強調,預測誤差和工作記憶 / 上下文的變化是驅動分割的兩種可能機制。

在 VSI-SUPER 計數 (VSC) 基準中,研究者研究了一個簡單的設置,其中使用驚訝度來分割連續的視覺輸入,將場景變化識別為自然斷點,從而將視頻流劃分為空間上連貫的片段。這種方法也類似于人類解決問題的方式:當在廣大區域內計算物體時,人們通常一次只關注一個部分,然后再合并結果。這種行為也與「門口效應」有關,即穿過門口或進入一個新房間會在記憶中創建一個自然邊界。如圖 12 所示,模型在事件緩沖區中不斷累積幀特征。當檢測到高驚訝度幀時,緩沖的特征被匯總以產生一個片段級別的答案,然后清除緩沖區以開始新的片段。這個循環一直重復直到視頻結束,之后所有片段的答案被聚合適形成最終輸出。

謝賽寧、李飛飛、LeCun聯手提出多模態LLM新范式,「空間超感知」登場-有駕

圖 12

結果。Gemini-1.5-Flash 在 VSC 上的表現接近零(圖 13a),顯示了該任務的難度。盡管 Gemini-2.5-Flash 在 10 分鐘視頻上取得了更好的結果,但其性能在更長的視頻上迅速下降。相比之下,Cambrian-S (帶驚訝度分割) 使用的驚訝度驅動的事件分割方法在所有視頻長度上都取得了更高、更穩定的性能。當使用真實的場景切換來分割視頻時(即 Cambrian-S 帶 GT 分割),性能進一步提高,這代表了一個近似的上界。

謝賽寧、李飛飛、LeCun聯手提出多模態LLM新范式,「空間超感知」登場-有駕

圖 13

圖 14 的更深入分析顯示,Gemini-2.5-Flash 的預測被限制在一個有限的范圍內,并且不會隨著視頻中出現更多物體而擴展。相比之下,Cambrian-S (帶驚訝度分割) 產生的計數雖然尚未完全準確,但與真實物體數量表現出更強的相關性,表明其具有更好的泛化能力。

謝賽寧、李飛飛、LeCun聯手提出多模態LLM新范式,「空間超感知」登場-有駕

圖 14

驚訝度測量的消融實驗。研究者將研究者的驚訝度驅動方法與使用相鄰幀特征相似度的基線進行了比較(圖 13b)。對于這兩種方法,研究者都報告了經過超參數調優后的最佳結果。與研究者在 VSR 中的觀察一致,在所有視頻時長上,使用預測誤差作為驚訝度的測量標準,其性能始終明顯優于外觀相似度。

0

全部評論 (0)

暫無評論