11月11日,百度正式對外推出文心多模態思考模型ERNIE-4.5-VL-28B-A3B-Thinking,新模型全面開源。公開評測數據顯示,該模型在多項多模態理解與推理任務中表現優異,僅需3B激活參數,性能表現接近業界領先的GPT-5-High與Gemini-2.5-Pro。
作為文心大模型開源家族的最新成員,ERNIE-4.5-VL-28B-A3B-Thinking基于ERNIE-4.5-VL-28B-A3B訓練而來,專注于提升多模態理解和跨模態推理能力。與傳統“越大越強”的范式不同,該模型通過高效的模型結構設計和強化學習策略,在較小參數規模下實現了高精度的視覺理解與復雜推理。
從評測數據來看,該模型在STEM學科計算、文檔圖表解析、視覺問答及視頻理解等多個維度表現穩定,大部分指標達Gemini-2.5-Pro與GPT-5-High兩款海外頂級模型95%百分位水平,部分指標表現如ChartQA和DocVQAval等文檔/圖表理解任務超過Gemini-2.5-Pro及GPT-5-High。
ERNIE-4.5-VL-28B-A3B-Thinking在多項多模態理解與推理任務中表現優異
值得關注的是,ERNIE-4.5-VL-28B-A3B-Thinking引入了“圖像思考”(Thinking with Images)功能,使其具備更接近人類的認知方式——能夠主動放大、縮小圖像,聚焦細節,并結合上下文進行多步推理。同時,該模型進一步加強了模型定位能力,擁有更強的指令遵循能力,在用戶需要時,能夠便捷的觸發視覺定位功能,適用于需要精確空間感知的應用場景。
當前ERNIE-4.5-VL-28B-A3B-Thinking模型以 Apache License 2.0 協議開源,允許商業使用。該模型的預訓練權重、推理代碼和項目均已在 Hugging Face、Modelscope、飛槳星河社區發布,FastDeploy、 vLLM、Transformers 等開源工具已經實現了對該模型的支持,可以直接加載模型并使用。
文心4.5系列開源模型
公開資料顯示,百度在模型開源方面持續發力,自6月30日開源10款文心大模型4.5系列模型以來,不斷豐富其開源模型矩陣。9月9日開源的ERNIE-4.5-21B-A3B-Thinking模型在發布三天后登上HuggingFace全球模型總趨勢榜和文本模型趨勢榜第一。
近期百度在大模型領域的進展也在加速。11月8日,LMArena最新排名顯示,百度文心最新模型ERNIE-5.0-Preview-1022在文本能力榜單中位列全球并列第二、國內第一。此外有消息稱,百度將于11月13日舉行的2025百度世界大會上發布文心大模型全新版本。
全部評論 (0)