8月12日,商湯首席深度思考商湯科技聯(lián)合創(chuàng )始人、科技科學(xué)執行董事、家林首席科學(xué)家林達華特別撰寫(xiě)的達華多模萬(wàn)字深度長(cháng)文《邁向多模態(tài)通用智能:商湯的思考》正式發(fā)布。文章剖析了商湯科技為何將“多模態(tài)通用智能”視為技術(shù)戰略的發(fā)布核心引擎,并系統闡釋了發(fā)展多模態(tài)智能的長(cháng)文底層邏輯、技術(shù)路徑、態(tài)通湯實(shí)踐探索與未來(lái)方向。用智同時(shí)他還分享了在商湯組織及戰略層面的商湯首席深度思考諸多思考。以下為文章全文:
邁向多模態(tài)通用智能:商湯的科技科學(xué)思考
作者:林達華
AI 是一場(chǎng)長(cháng)跑。從大語(yǔ)言模型(LLM)的家林興起到真正意義的通用人工智能(AGI),還有很多開(kāi)放性的達華多模問(wèn)題有待解決。我們認為,發(fā)布多模態(tài)是長(cháng)文從 LLM 到 AGI 的必經(jīng)之路。
圍繞多模態(tài),態(tài)通湯從智能演進(jìn)、學(xué)習范式、數據和模型架構都面臨諸多挑戰,也有很大的創(chuàng )新空間;在組織和戰略層面也有很多值得思考的問(wèn)題。在本文中,我先整體回顧一下商湯的多模態(tài)之路,然后就其中的關(guān)鍵問(wèn)題談一下我們的思考。
主要涉及:
商湯多模態(tài)之路概覽
為什么多模態(tài)是通向 AGI 的必經(jīng)之路 ?
商湯沿著(zhù)什么路徑去構建多模態(tài)智能 ?
為什么選擇做原生多模態(tài) ?
多模態(tài)推理的挑戰在哪里 ?
商湯的訓練數據是如何生產(chǎn)出來(lái)的 ?
模型設計有哪些思考?模型尺寸和架構未來(lái)如何演進(jìn)?
從多模態(tài)到具身智能,會(huì )面臨哪些挑戰 ?
商湯如何建設一支有高效且富有創(chuàng )新力的研究力量 ?
商湯如何平衡技術(shù)突破和商業(yè)落地的關(guān)系 ?
1、商湯多模態(tài)之路概覽
商湯是從計算機視覺(jué)技術(shù)出發(fā),在人工智能變革浪潮中發(fā)展起來(lái)的企業(yè)。在發(fā)展之初,商湯基于深度學(xué)習在視覺(jué)領(lǐng)域的運用,在人臉識別、畫(huà)質(zhì)處理、智能駕駛等多個(gè)應用方向突破了工業(yè)紅線(xiàn),推動(dòng)了 AI 技術(shù)在行業(yè)的落地應用。
早在 2019 年,商湯就基于自身的技術(shù)判斷,開(kāi)始在視覺(jué)模型上進(jìn)行尺度定律的探索,在業(yè)內率先推出百億參數的視覺(jué)大模型,在視覺(jué)識別上突破了多項性能紀錄。這一前瞻性的技術(shù)觀(guān)察,也是推動(dòng)商湯較早就進(jìn)行大規模 AI 算力投入的重要原因。
2022 年底,OpenAI 推出 ChatGPT,掀起了全球范圍的大模型浪潮,AI 進(jìn)入了 2.0 時(shí)代。對于商湯來(lái)說(shuō),這是一次重要的機遇。我們當時(shí)開(kāi)始思考,當視覺(jué)模型和語(yǔ)言模型在尺度定律上相會(huì ),會(huì )給我們帶來(lái)什么?
在 2023 年 3 月,商湯和上海人工智能實(shí)驗室合作研發(fā),推出了我國首個(gè)多模態(tài)通用大模型“書(shū)生 2.5” 并開(kāi)源。這個(gè) 30 億參數的大模型刷新了包括 ImageNet 和 COCO 在內的多個(gè)視覺(jué)任務(wù)的紀錄,并且初步展示了通用圖文問(wèn)答能力。在 6 個(gè)月之后,OpenAI 才正式推出了支持圖像輸入的 GPT-4V。
在此之后,商湯保持著(zhù)語(yǔ)言模型和圖文模型的雙軌迭代,但是逐漸看到了這種分立模式的局限 —— 語(yǔ)言和視覺(jué)模態(tài)的融合較淺,難以形成高水平的跨模態(tài)理解能力。于是在 2024 年 5 月開(kāi)始,我們投入了幾千 P 的算力,進(jìn)行了大量比較實(shí)驗,突破了原生融合訓練的技術(shù)路徑。在 2024 年底,以單一模型奪得 SuperCLUE 語(yǔ)言綜合評測和 OpenCompass 多模態(tài)綜合評測的榜首。從 2025 年 4 月發(fā)布的日日新 6.0 開(kāi)始,原來(lái)分立的兩條模型線(xiàn)匯聚到了一個(gè)融合模型系列。
其后,商湯的大模型技術(shù)沿著(zhù)多模態(tài)這一主軸走向縱深,推出了日日新 6.5 多模態(tài)模型,在國內率先實(shí)現圖文交錯思維,并且在多模態(tài)融合強化學(xué)習上取得新的進(jìn)展。與此同時(shí),商湯的開(kāi)悟世界模型和悟能具身智能平臺,讓多模態(tài) AI 從數字空間走入真實(shí)的物理世界。
在商湯多模態(tài)之路的背后,是商湯研究團隊就很多關(guān)鍵技術(shù)問(wèn)題的思考、判斷和反思。
2、為什么多模態(tài)是通向 AGI 的必經(jīng)之路?
主要觀(guān)點(diǎn)
多模態(tài)是通向通用人工智能(AGI)的必經(jīng)之路。 這是商湯選擇以多模態(tài)為技術(shù)主軸背后的核心技術(shù)判斷。
為什么多模態(tài)在智能之路上如此重要?要回答這個(gè)問(wèn)題,我們先回到智能的本質(zhì)。
人工智能的核心目標是通過(guò)計算來(lái)構建智能。智能(Intelligence)是一個(gè)復雜的多維度概念。雖然智能尚沒(méi)有統一的定義,但其核心就是與外界(包括世界或者其他人)進(jìn)行自主交互的能力。這是一種綜合能力,可以被歸納為多種能力維度,包括感知、推理、決策、學(xué)習等。
語(yǔ)言(Language)的本質(zhì)是一種符號化的交流工具 —— 人們通過(guò)語(yǔ)言傳遞信息。從這個(gè)意義上說(shuō),語(yǔ)言只是人類(lèi)智能演進(jìn)過(guò)程中的一種產(chǎn)物,但不是智能的本源;語(yǔ)言是描述世界的工具,但不是世界本身。單靠語(yǔ)言模型并不能構建真正意義的 AGI。
為什么這一波大模型浪潮首先源自于語(yǔ)言模型的突破?原因在于海量語(yǔ)料的積累。 在人類(lèi)數千年的歷史中積累了海量的語(yǔ)料,這些語(yǔ)料在信息時(shí)代被廣泛地數字化,從而成為最容易規?;@取的數據形態(tài)。通過(guò)巨大算力對這些語(yǔ)料進(jìn)行壓縮,大語(yǔ)言模型被打造出來(lái)。這是朝著(zhù) AGI 邁出的重要一步,但不是終局。隨著(zhù)現存的文本語(yǔ)料被快速耗盡,人工智能下一階段的突破必然要超越語(yǔ)言,回到智能的本源 —— 和世界的交互。
世界的信息以多元形態(tài)存在 —— 除了書(shū)中的文本,還有視覺(jué)的影像、聽(tīng)覺(jué)的音頻、電磁波的脈動(dòng)等。人工智能若要具備通用性,必須能像人類(lèi)通過(guò)感官接收信息那樣,將這些原始模態(tài)轉化為可計算的內部表征。這種表征不是孤立的,模態(tài)之間存在深刻的內在關(guān)聯(lián),這是理解世界的基礎,也是智能體和世界交互的基本出發(fā)點(diǎn)。因此,多模態(tài)信息感知與處理的能力是 AGI 的核心要求,也是從語(yǔ)言模型邁向 AGI 的必由之路。
從理論走入現實(shí),技術(shù)的價(jià)值在于應用。只有當技術(shù)深入每一個(gè)應用場(chǎng)景,為用戶(hù)解決實(shí)際的問(wèn)題、帶來(lái)更好的體驗,技術(shù)就有了源源不竭的生命力。
在過(guò)去十年中,商湯服務(wù)了城市治理、工業(yè)制造、手機、汽車(chē)、互聯(lián)網(wǎng)、教育、醫療、金融、遙感等多個(gè)行業(yè),涵蓋了生活、娛樂(lè )到工作和生產(chǎn)的方方面面。在眾多應用場(chǎng)景中,圖像、圖表、視頻等模態(tài)數據是記錄和傳遞信息的重要載體和媒介。在閱讀報告的時(shí)候,需要看懂圖表;在醫療場(chǎng)景中,診斷往往需要結合病歷和醫療影像的信息;在教學(xué)場(chǎng)景中,多媒體的結合是常見(jiàn)的手段;在城市治理和工業(yè)場(chǎng)景中,視頻更是不可或缺的信息載體。
在這些場(chǎng)景中,提供完整的價(jià)值離不開(kāi)對不同模態(tài)信息的有效處理、對多種模態(tài)信息的融合分析和判斷。只是在過(guò)去的 AI 1.0 時(shí)代和今天,構建場(chǎng)景能力的方式發(fā)生了變遷。在過(guò)去,每個(gè) AI 模型智能提供一個(gè)環(huán)節的能力,最終由一個(gè)復雜的業(yè)務(wù)系統串聯(lián)起來(lái);在今天,多模態(tài)的智能體可以自主而靈活地運用各種能力,提供端到端的整體價(jià)值。因此,從商業(yè)應用的角度,多模態(tài)也是我們的必然選擇。
3、商湯沿著(zhù)什么路徑去構建多模態(tài)智能?
主要觀(guān)點(diǎn)
智能的演進(jìn)是一個(gè)漸進(jìn)的過(guò)程。它有很多個(gè)階段,在每個(gè)階段都有不同的特點(diǎn)。
人類(lèi)智能進(jìn)化到今天的高度,經(jīng)歷了一個(gè)非常漫長(cháng)的歷史時(shí)期,在“物競天擇”的生存競爭中逐漸傳承下來(lái)。人類(lèi)在最早期就掌握了和大自然交互的能力,學(xué)會(huì )了運用火和工具,而語(yǔ)言、文化和科學(xué)是在社會(huì )生活中逐漸發(fā)展出來(lái)的。而人工智能的發(fā)展則經(jīng)歷了一條很不一樣,甚至是反向的路徑。其根本在于人工智能內在本質(zhì)的差異:從根本上說(shuō),人工智能的發(fā)展是數據驅動(dòng)的,其能力邊界是被數據所定義的。人工智能的每一次躍遷,都源自于數據邊界的打破。
第一次破壁:Transformer 實(shí)現了長(cháng)語(yǔ)言序列建模
語(yǔ)言模型作為一個(gè)學(xué)術(shù)領(lǐng)域已經(jīng)存在多年。早期的語(yǔ)言模型是通過(guò) N-gram 或者循環(huán)神經(jīng)網(wǎng)絡(luò )(RNN)等方式對自然語(yǔ)言中的語(yǔ)句進(jìn)行建模。由于這些模型的建模距離很短(從幾個(gè)到十幾個(gè) token 不等),因此它們只能捕捉到語(yǔ)言中的淺層模式(比如語(yǔ)法等),而難以對更高層次的知識和邏輯進(jìn)行建模。
Transformer 為長(cháng)達幾千 tokens 甚至更長(cháng)的語(yǔ)言序列建模提供了有力的工具。Transformer 模型所能看到的不再是短語(yǔ)級別的語(yǔ)言片段,而是長(cháng)篇的段落、文章甚至是書(shū)籍。這是數據邊界的一次重要的拓展,讓高階的語(yǔ)言建模成為可能,大語(yǔ)言模型由此而誕生。
第二次破壁:語(yǔ)言和視覺(jué)的會(huì )合,形成多模態(tài)理解能力
在大模型出來(lái)之前,計算機視覺(jué)和自然語(yǔ)言處理是兩個(gè)區別很大,交流很少的學(xué)科領(lǐng)域;它們各自處在較低的建模水平。計算機視覺(jué)通過(guò)給圖像或其局部區域賦予標簽,從而形成初級的語(yǔ)義理解;而自然語(yǔ)言處理則更多關(guān)注于語(yǔ)法和局部語(yǔ)義的解析。在這個(gè)層面上,兩個(gè)領(lǐng)域的關(guān)聯(lián)度是比較弱的。
大語(yǔ)言模型的出現,讓高階語(yǔ)言建模成為現實(shí),同時(shí)也為高階的圖像理解提供了可能。 一幅圖像所能關(guān)聯(lián)的語(yǔ)義不再受限于幾個(gè)類(lèi)別標簽,而是一個(gè)完整的故事。
多模態(tài)大模型正是在這樣的技術(shù)契機中發(fā)展起來(lái)的。當我們把圖像、視頻等模態(tài)數據和更完整的語(yǔ)言描述關(guān)聯(lián)在一起,在訓練中以監督或者非監督的方式讓模型去建模其內在聯(lián)系,模型就具備了對這些模態(tài)數據進(jìn)行高階理解的能力。這是構建多模態(tài)智能基礎性的一步。
第三次破壁:突破邏輯思維和形象思維的邊界,實(shí)現多模態(tài)推理
從 OpenAI o1/o3 到 DeepSeek R1 等的一系列進(jìn)展中,我們看到語(yǔ)言模型通過(guò)思維鏈訓練以及在此基礎上的強化學(xué)習,可以在數學(xué)、編程等領(lǐng)域形成很強的推理能力,甚至可以達到奧賽金牌的水平。人類(lèi)語(yǔ)言本身就蘊含了很強的邏輯性,所以以語(yǔ)言方式表達思維過(guò)程(思維鏈)是一種自然且有效的方法。但是,基于語(yǔ)言的邏輯思維并不是完整的思考能力。
在人類(lèi)的思考中,形象思維扮演著(zhù)同樣重要的角色。所謂“一圖勝千言”,當我們去設計一棟建筑、構思一款產(chǎn)品的交互界面、或者嘗試理解一個(gè)復雜網(wǎng)絡(luò )的結構和關(guān)鍵節點(diǎn),一幅圖往往比大段文字更能引發(fā)我們的有效思考。因此,全面的思維能力離不開(kāi)邏輯思維和形象思維的有機結合 —— 很多時(shí)候,帶有視覺(jué)形象的直覺(jué)對于形成有效的思維方向會(huì )起到關(guān)鍵作用。
主流的多模態(tài)模型通過(guò)視覺(jué)編碼器與語(yǔ)言模型的前后結合,實(shí)現了對多模態(tài)混合輸入的支持。但是,后續的思考推理過(guò)程還是主要依賴(lài)純語(yǔ)言的推理。我們內部研究中觀(guān)察到,這些模型過(guò)于依賴(lài)語(yǔ)言先驗,對于圖形和空間結構的推理能力還很薄弱。比如,很多主流的多模態(tài)模型看見(jiàn)一個(gè)有“有六個(gè)手指頭的手掌”這種反先驗的照片時(shí),還會(huì )說(shuō)出“五個(gè)手指”的回答。出現這種情況的一個(gè)重要原因是,在這些模型的工作機制中,圖像僅僅是為視為可被描述的輸入,而不是思考過(guò)程中的重要元素。打破這一局限的關(guān)鍵在于允許讓思考過(guò)程被圖形化表達,形成直觀(guān)表象,從而引發(fā)新的思考。
第四次破壁:突破與物理空間的邊界,實(shí)現多模態(tài)與真實(shí)世界中的交互
具備完整的多模態(tài)知識和思維能力的模型是通向 AGI 的一個(gè)重要里程碑,但是還不是終點(diǎn),因為它還不能在物理空間中行動(dòng),對物理世界產(chǎn)生影響。最終到達 AGI 的彼岸,需要從數字空間走向物理空間。這需要對三維時(shí)空的理解、對物理規律的把握、以及對自身行動(dòng)的敏捷控制 —— 這不僅是一個(gè)“大腦”,而是“大腦-小腦-感官-四肢”敏捷高效的協(xié)同。從技術(shù)角度來(lái)看,這是一個(gè)軟硬件協(xié)同的開(kāi)放課題,需要多個(gè)方面的突破才能逐步達成目標。
實(shí)現這一階段突破的關(guān)鍵挑戰仍舊是數據。不同于自然語(yǔ)言或者圖像視頻,它們在互聯(lián)網(wǎng)上有海量存量;物理世界交互的數據天然是非常稀缺的。通過(guò)真機采集或者“遙操作”采集所得到的數據,無(wú)論是體量和多樣性都比較有限,難以滿(mǎn)足構建通用智能的需要。但是,如果這個(gè)問(wèn)題得到有效解決,我們就能給人工智能開(kāi)辟一片新的天地,并且回到智能的本源 —— 與世界的自主交互。
從技術(shù)角度,世界模型是解決這一核心問(wèn)題的一種重要的可能途徑。世界模型可以建立在基于海量數據訓練的多模態(tài)模型的基礎之上,獲得對這個(gè)世界的先驗認知,然后通過(guò)交互過(guò)程持續修正,實(shí)現和真實(shí)世界更好的對齊。一個(gè)有足夠真實(shí)度的世界模型可以作為一種“模擬器”,用于對空間智能體的訓練,從而在很大程度上緩解上述的數據挑戰。當然,世界模型本身也是一個(gè)極具挑戰性的課題,需要整個(gè)領(lǐng)域共同的努力來(lái)推動(dòng)它的進(jìn)展。
商湯沿著(zhù)智能的階段演進(jìn)的認知展開(kāi)技術(shù)研發(fā)的布局,一步步推動(dòng)對智能邊界的探索。我們早在 2023 年初就推出了我國最早的多模態(tài)模型,走出了多模態(tài)智能探索的重要一步。在 2024 年突破了原生多模態(tài)融合訓練技術(shù),在國內最早把語(yǔ)言模型和圖文多模態(tài)模型融合為一個(gè)模型。最近,我們在多模態(tài)推理上取得重要進(jìn)展,實(shí)現了圖文交錯的思維鏈,在此基礎上訓練的日日新 6.5 具備了真正的多模態(tài)思考能力,綜合推理性能顯著(zhù)提升。與此同時(shí),我們展開(kāi)了開(kāi)悟世界模型的探索,打通數字空間和物理空間連接的通道。
4、為什么選擇做原生多模態(tài)?
主要觀(guān)點(diǎn)
主流的多模態(tài)模型的整體架構是類(lèi)似的,由視覺(jué)編碼器(Visual encoder)、輸入投影器(Projector)和骨干網(wǎng)絡(luò )(Backbone)連接而成。視覺(jué)編碼器把輸入的圖像編碼為一個(gè) token 序列,然后經(jīng)由輸入投影器對齊到骨干網(wǎng)絡(luò )的輸入空間,而語(yǔ)言 token 一起由骨干網(wǎng)絡(luò )進(jìn)行計算處理。這里的每個(gè)模塊都帶有各自需要被訓練的權重。
多模態(tài)模型的兩種訓練方式
多模態(tài)模型的訓練有兩種典型的方式:
商湯自己的路徑選擇
商湯在早期的多模態(tài)模型訓練時(shí)也是采用了前者,但是我們很快就觀(guān)察到這種方式存在比較大的局限性。這種只經(jīng)過(guò)適應訓練的多模態(tài)模型,并沒(méi)有深入掌握語(yǔ)言和視覺(jué)模態(tài)之間的內在關(guān)聯(lián),更多只是在僵硬地遵循后訓練中那些范例的模式,從圖像中提取信息送給語(yǔ)言模塊進(jìn)行后續分析和輸出。而且,由于模型基座本身對多模態(tài)理解是有限的,采用強化學(xué)習也很難激發(fā)出很強的多模態(tài)能力。
我們開(kāi)始思考,是否應該走上原生多模態(tài)的道路。這不是一個(gè)容易的決定,因為原生訓練所需的資源是顯著(zhù)超過(guò)適應訓練的。除此之外,我們還面臨著(zhù)兩個(gè)重要問(wèn)題:
這些問(wèn)題的答案將決定商湯的長(cháng)期技術(shù)路徑。在 2024 年 5 月,也就是日日新 5.0 發(fā)布之后,我們成立了一個(gè)高優(yōu)先級的內部專(zhuān)項,投入了幾千 P 算力,通過(guò)大量對比實(shí)驗嘗試回答上面的問(wèn)題。幾個(gè)月后,我們從大量實(shí)驗結果中得到了關(guān)于上述問(wèn)題的明確結論:
基于上述觀(guān)察,我們確定了融合模型的技術(shù)路徑:在預訓練中段開(kāi)始進(jìn)行多模態(tài)融合訓練,最終形成一個(gè)統一的原生多模態(tài)模型,不再生產(chǎn)單獨的語(yǔ)言模型。
為了落實(shí)這一路徑,我們內部還進(jìn)行研發(fā)組織的重構,保障各個(gè)條線(xiàn)的數據和研發(fā)進(jìn)展都匯聚到這個(gè)融合模型上。我們在 2024 年第三季度完成了融合訓練的數據配方和訓練超參的驗證,在第四季度完成了第一版千億參數級別的融合多模態(tài)模型訓練。
這個(gè)模型在國內兩個(gè)權威的第三方評測平臺 OpenCompass(司南)和 SuperCLUE 上面都位居國內模型之首,其中在語(yǔ)言任務(wù)上和當時(shí)剛發(fā)布的 DeepSeek V3 是并列的,在內部業(yè)務(wù)評測中也有驚喜的表現。我們相信這個(gè)模型代表了當時(shí)國內多模態(tài)模型最好的水平,也堅定了我們對于融合模型這一路徑的信心。
從日日新 6.0 開(kāi)始,也包括在今年世界人工智能大會(huì )(WAIC)上面發(fā)布的日日新 6.5,都只有多模態(tài)模型,而沒(méi)有單獨的語(yǔ)言模型。這和國內其它大模型廠(chǎng)商語(yǔ)言模型(LLM)和圖文模型(VLM)分立的布局有很大的區別。
原生訓練的數據挑戰
原生多模態(tài)模型的訓練能否成功,關(guān)鍵在于數據構成。
我們的原生多模態(tài)訓練數據,從模態(tài)組成的角度包含類(lèi)型:自然語(yǔ)言、代碼、圖文交錯文檔、圖文對、以及視頻和圖像序列數據。不同類(lèi)型的數據用于不同的目的:比如語(yǔ)言數據可以幫助模型掌握語(yǔ)言能力并且獲得世界知識;代碼數據主要面向編程能力,這不僅可以用于代碼助手,對于構建智能體也是非常重要的。
對于多模態(tài)理解,關(guān)鍵在于建模不同模態(tài)數據和語(yǔ)言的關(guān)聯(lián)。圍繞這一目標,有兩種數據形態(tài):圖文交錯,比如配圖的文章和新聞,還有就是學(xué)術(shù)界傳統常見(jiàn)的圖文對數據。這兩種數據有很不一樣的特點(diǎn)。圖文交錯數據在互聯(lián)網(wǎng)、文獻書(shū)籍中廣泛存在,天然就有海量的儲量;而天然存在的圖文對相較之下是非常少的,很大程度需要人工標注或者合成。
在我們研發(fā)多模態(tài)模型的早期,就大量采用圖文交錯數據來(lái)形成數據規模,然而發(fā)現,大部分天然的圖文交錯數據的圖文關(guān)聯(lián)是很弱的,對于整體性能的影響正面但有限;而圖文對雖然少,但是圖文關(guān)聯(lián)度強,對于跨模態(tài)建模是很有幫助的。從 2024 年開(kāi)始,我們就投入很大力量研究大規模構造多元化的圖文對數據的不同方法,包括從文本出發(fā),選擇或者合成相關(guān)的圖像,或者從圖像出發(fā),產(chǎn)生更多的問(wèn)題。這些方法的探索很有成效:目前,圖文對數據在跨模態(tài)數據中的占比已經(jīng)超過(guò) 70%,對于我們多模態(tài)模型性能提升起到關(guān)鍵作用。
5、多模態(tài)推理的挑戰在哪里?
主要觀(guān)點(diǎn)
隨著(zhù)模型能力的提升,多模態(tài)模型正在被應用在更復雜的場(chǎng)景中,比如文檔分析、醫療診斷、城市管理和科學(xué)發(fā)現。在這些場(chǎng)景中,我們需要模型匯聚多種形態(tài)的信息,進(jìn)行多步的推理才能得到有意義的結論,這就要求模型具備多模態(tài)推理的能力。
推理模型的核心挑戰
大模型進(jìn)行推理的核心途徑就是“思維鏈”(Chain-of-Thought)。為什么需要思維鏈呢?因為,復雜問(wèn)題的答案很多時(shí)候不是那么顯然的,很難通過(guò) next token 的概率分布直接輸出,因此需要一個(gè)逐步推演的路徑導出結論。
思維鏈數據的構造是這里面的核心挑戰。思維鏈數據是非常稀缺的,大部分要依賴(lài)人工編寫(xiě)或者算法構造。人工編寫(xiě)的成本非常高,而且很難規?;?。算法構造主要是“批量生成 + 驗證篩選”的模式,就是從給定的源問(wèn)題出發(fā),讓模型或者智能體生成多條思維鏈,之后基于自動(dòng)化驗證篩選出好的思維鏈用于訓練。
大模型早期,思維鏈主要是通過(guò)監督學(xué)習(SFT)訓練到模型的,這種范式對于預先構造的思維鏈有很強的依賴(lài),而且模型的泛化性也比較脆弱。強化學(xué)習的引入提供了新的范式:我們不再需要預先構造思維鏈,只需要提供問(wèn)題和驗證器;學(xué)習算法會(huì )讓模型自行探索不同的思維路徑,分別計算它們的獎勵(Reward),選擇好的路徑對模型進(jìn)行更新。相比于監督微調(SFT),強化學(xué)習的根本差別在于從”強行模仿“轉變?yōu)椤弊园l(fā)探索“,讓模型在 “生成-驗證-學(xué)習” 的算法閉環(huán)中持續改進(jìn)自身的思維。強化學(xué)習這種以?xún)壬鸀橹鞯乃惴ㄌ攸c(diǎn),使得它所形成的思維鏈更貼近模型基座的原生模式,也有更好的泛化性。
需要指出的是,無(wú)論是思維鏈的預先構造還是強化學(xué)習,我們都面臨著(zhù)學(xué)習算法之外的三重技術(shù)挑戰:
事實(shí)上,在推理模型的訓練實(shí)踐中,強化學(xué)習的選型,比如 PPO 還是 GRPO,對于最終性能的影響并沒(méi)有那么顯著(zhù)。這幾個(gè)技術(shù)問(wèn)題才是推理模型訓練的核心挑戰。這幾個(gè)問(wèn)題的應對直接影響模型的推理能力,這是模型研發(fā)組織需要重點(diǎn)關(guān)注的。
多模態(tài)推理和文本推理的異同
到了 2025 年,主要的多模態(tài)模型已經(jīng)具備了一定的推理能力。值得注意的是,主流多模態(tài)模型的推理思維鏈還是純文本的。實(shí)質(zhì)上,它們做的是通過(guò)多模態(tài)理解的能力把輸入的圖像轉換為文本描述,然后利用語(yǔ)言推理模型進(jìn)行后續的推理。這只是多模態(tài)理解與純文本推理的嫁接,并沒(méi)有在推理過(guò)程中發(fā)揮其它模態(tài)的作用。這和人類(lèi)思考有很大差別:人的思考過(guò)程其實(shí)是真正意義的跨模態(tài)的,是邏輯思維和形象思維的結合。
形象思維是以直覺(jué)形象支撐的思維過(guò)程。所謂“一圖勝千言”,在很多時(shí)候,直觀(guān)形象相比邏輯思維可以幫助我們更快地抓住事物的關(guān)鍵和本質(zhì),從而引發(fā)新的思考。這也是人們通過(guò)幾何圖形、信息圖表、工業(yè)圖紙等形象方式表達復雜信息的原因。
從技術(shù)角度,為什么形象思維能帶來(lái)推理能力的提升?我們可以從這樣的角度進(jìn)行思考:某種意義上,大模型其實(shí)是一個(gè)龐大的思維網(wǎng)絡(luò ),所謂思維鏈,可以理解為在這個(gè)網(wǎng)絡(luò )中漫步所經(jīng)過(guò)的路徑。相較于邏輯思維,形象思維有一些很不一樣的特點(diǎn),比如跳躍性、整體性、直覺(jué)性等。有了形象思維,相當于在這個(gè)思維網(wǎng)絡(luò )中增加了一批新的連接和捷徑,從而形成更強的直覺(jué)思維和發(fā)散思維。這對于整體思考能力的提升是有意義的。
如何實(shí)現邏輯思維和形象思維的結合?我們認為:可以借鑒思維鏈的做法,但是要在思維鏈中加入圖形化的元素,把部分思考過(guò)程轉化為圖形化表達,從而引發(fā)新的思考路徑。這種思維鏈是以圖文交錯的形態(tài)存在的,在需要的地方插入圖形化的信息表達。我們在日日新 6.5 的研發(fā)中嘗試引入了圖文交錯思維鏈,已經(jīng)在實(shí)驗中觀(guān)察到它們對于多模態(tài)推理能力的正面作用。
圖文交錯思維的技術(shù)挑戰
到了實(shí)操層面,圖形化表達如何實(shí)現呢?這里有兩種思路,一種是內生的混合模態(tài)思維鏈,就是思維鏈形成的過(guò)程中會(huì )自發(fā)產(chǎn)生視覺(jué)元素;另一種是在思考過(guò)程中根據需要調用工具進(jìn)行圖像編輯,比如放大局部區域或者添加輔助元素(輔助線(xiàn)、標注點(diǎn)等)。
在這兩種實(shí)現路徑的選擇上,我們考慮兩個(gè)問(wèn)題:目標和效率。首先,需要明確的是,我們在這里的目標,是以視覺(jué)要素引導思維,但是并不需要追求電影級的高清畫(huà)質(zhì);而且為了保證思考時(shí)間在一個(gè)可接受的范圍,每一個(gè)中間圖像的生成不能有太高的延時(shí)。而當前的圖像生成技術(shù),無(wú)論是指令遵循的可靠性或者生成效率尚不能很好地滿(mǎn)足要求。
基于這樣的觀(guān)察,我們選擇了兩步走的路徑:第一步,先通過(guò)調用工具進(jìn)行圖像編輯的方式,構建圖文交錯思維鏈,這種方式可以高效且精準地實(shí)現構圖目標。這個(gè)方法的本質(zhì)其實(shí)是構建一個(gè)“對內”(introspective)的智能體。 通常意義的智能體是調用工具和外部世界進(jìn)行交互;這里的智能體也是調用工具,但是它不是為了和外界交互,而是和自身的思維過(guò)程交互。智能體不僅能對外,也能對內,這是我們看待智能體的新的維度。第一步的進(jìn)展,可以讓我們對于圖文交錯思維的工作原理以及數據構建方法論建立更加深入的理解。我們內部正在推進(jìn)第二步的探索,就是基于多模態(tài)理解生成統一的機制實(shí)現內生的圖文混合思考。我們相信這將為多模態(tài)推理打開(kāi)新的空間。
從具體的技術(shù)構建來(lái)看,相比于純文本思維鏈,圖文交錯思維鏈的構造更加挑戰。構造者不僅要把思考過(guò)程寫(xiě)下來(lái),還得制作出作為思考節點(diǎn)的圖片,因此,很難以純人工的方法進(jìn)行大規模構造。
我們克服這個(gè)困難的途徑是:人工構造種子 + 強化學(xué)習進(jìn)行規?;嵘?。具體而言,研究員根據對思維過(guò)程的理解先構造出一批種子數據,通過(guò)監督微調(SFT)訓練到模型當中,使模型初步具備圖文交錯思考的能力,之后通過(guò)多輪強化學(xué)習顯著(zhù)提升模型的多模態(tài)推理能力。我們發(fā)現,強化學(xué)習的效果非常顯著(zhù)。在一個(gè)內部多模思維的評測中,SFT 冷啟動(dòng)只帶來(lái)了有限提升(52.5 → 54.2),但是經(jīng)過(guò)多輪強化學(xué)習后,提升到了 76.3。
要走通這個(gè)技術(shù)路徑,我們需要解決三個(gè)技術(shù)問(wèn)題:
經(jīng)過(guò)多輪強化學(xué)習后,整體的推理性能大幅提升。其中,數理、代碼、GUI 操作、圖表分析、高階任務(wù)等維度的提升尤為顯著(zhù)。這個(gè)觀(guān)察顯示了,在多模態(tài)思維的設定下,強化學(xué)習對于激發(fā)思考的有效性依然有明顯作用。
這種以思維鏈為載體,強化學(xué)習為主要途徑的新范式對于在特定領(lǐng)域的推理提升,效果是非常顯著(zhù)的。但在真實(shí)應用中,這種路線(xiàn)也面臨一些挑戰,包括:更高的幻覺(jué)率、思考過(guò)程過(guò)于發(fā)散和冗長(cháng)、以及適用性受限(很多真實(shí)任務(wù)不容易對結果的正確性進(jìn)行明確驗證)。這些困難的解決仍舊是開(kāi)放的問(wèn)題,比如更有效的過(guò)程監督結合、更優(yōu)的獎勵設計、以及更可泛化的獎勵模型等等都是目前技術(shù)領(lǐng)域在積極探索的路徑。
6、商湯的訓練數據是如何生產(chǎn)出來(lái)的?
主要觀(guān)點(diǎn)
對于大模型來(lái)說(shuō),訓練數據的意義是根本性的。數據定義了模型的能力邊界,而模型架構影響學(xué)習效率以及性能高度。
訓練數據發(fā)展的三個(gè)趨勢
縱觀(guān)過(guò)去兩年大模型的發(fā)展,訓練數據有三個(gè)方面的重要趨勢:
商湯的數據生產(chǎn)體系
商湯從最早的時(shí)候開(kāi)始就深刻認識到數據的重要意義,持續深耕多模態(tài)訓練數據的建設,形成了一套復雜的多模態(tài)數據生產(chǎn)體系,包含采集、清洗、質(zhì)檢、合成和模型驗證等環(huán)節。我們對訓練數據的建設圍繞三個(gè)核心目標:多樣性(Diversity)、質(zhì)量(Quality)和生產(chǎn)效率(Efficiency)。
為了保證數據的質(zhì)量水平,我們主要是通過(guò)模型檢驗數據,標準很簡(jiǎn)單,每一批數據投入真正的生產(chǎn)訓練之前,我們都會(huì )在我們最新版的模型和業(yè)內最好的開(kāi)源模型進(jìn)行續訓,如果性能有增益,就說(shuō)明這一批數據是有正面價(jià)值的。
高階專(zhuān)業(yè)數據的獲取
正如前文所述,隨著(zhù)大模型智能水平的提升,專(zhuān)業(yè)高階數據(比如數學(xué)解題的思維鏈、醫療診斷背后的判斷過(guò)程、一份代碼背后的構架思考)日趨重要。這些數據是引導模型從“知其然”(表層模式)到“知其所以然”(深層邏輯)進(jìn)化的關(guān)鍵。
高階數據天然非常稀缺,在早期主要依靠請大學(xué)生或者專(zhuān)業(yè)人士進(jìn)行標注,不僅費用高昂,而且效率很低。據報道,OpenAI 正在以 100 美元時(shí)薪甚至更高的價(jià)格來(lái)聘請領(lǐng)域專(zhuān)家進(jìn)行高階數據標注。商湯的交互模型有很強的擬人和推動(dòng)劇情的能力,其背后也離不開(kāi)很多編劇編寫(xiě)的高水平對話(huà)數據。
面對挑戰,商湯也在積極探索更加高效的路徑:
從技術(shù)發(fā)展的總體趨勢看來(lái),隨著(zhù)強化學(xué)習逐漸成熟,思維鏈的生成和篩選會(huì )更多在強化學(xué)習的過(guò)程中進(jìn)行,訓練者只需要提供題目和驗證器。這將從根本上緩解思維鏈構建難的問(wèn)題。我們在研究圖文交錯思維的時(shí)候,就是采用了這一思路:只是人工構建少數的種子,主要的訓練過(guò)程是通過(guò)強化學(xué)習完成(參見(jiàn)上一節)。但需要注意的是,驗證器的構造,尤其是面向開(kāi)放場(chǎng)景的可泛化驗證器,在技術(shù)上也有很多挑戰,是我們需要再后續工作中重點(diǎn)關(guān)注的。
7、模型設計有哪些思考?模型尺寸和架構未來(lái)如何演進(jìn)?
主要觀(guān)點(diǎn)
模型架構設計的核心是效率。一個(gè)好的模型架構,能夠以更低的代價(jià)實(shí)現從數據到模型能力的轉化。
大模型最初采用的是稠密 Transformer 架構(GPT-3、Llama),它的計算復雜度隨參數量線(xiàn)性增長(cháng),隨著(zhù)上下文長(cháng)度呈平方增長(cháng)。因此,隨著(zhù)參數量增長(cháng),上下文變長(cháng),它的計算成本就成為一個(gè)焦點(diǎn)問(wèn)題。圍繞這個(gè)問(wèn)題有很多探索,主要包括:
日日新 6.5 背后的多模態(tài)架構優(yōu)化
對于多模態(tài)模型,架構設計的復雜度多了一個(gè)維度,就是視覺(jué)編碼器(Visual Encoder)。雖然視覺(jué)編碼器的參數量占比不高(在日日新 6.0 里,視覺(jué)編碼器參數量只有 MLLM 主干參數的 1%),但是因為它對于每個(gè)圖像都要處理多個(gè) patch,因此在端到端的計算延時(shí)上占比達到 30% 。真實(shí)應用中,很多時(shí)候要處理大分辨率的圖像(比如設計圖、文檔表單等),因此占比更高。所以,在多模態(tài)架構設計中,視覺(jué)編碼模塊的優(yōu)化是重要的議題。
在模型設計中,我們重新思考了視覺(jué)編碼器和 MLLM 主干的功能定位。我們認為,“眼睛”和“大腦”的設計是有本質(zhì)區別的,前者主要是捕捉視覺(jué)信號,這是一種連續信號,而且是受分辨率影響的;后者主要是在語(yǔ)言和語(yǔ)義層面進(jìn)行計算,而語(yǔ)言的表示方式是離散的(以 token 為單元)。這就決定了,視覺(jué)感知和語(yǔ)言模型應該有不一樣的模型結構和學(xué)習方式。
視覺(jué)編碼器應該聚焦在感知功能上,對視覺(jué)信號更加敏感,專(zhuān)注于視覺(jué)編碼。涉及到語(yǔ)義相關(guān)的處理,應該及早和 LLM 主干進(jìn)行融合。所以,在日日新 6.5 里面,我們推動(dòng)視覺(jué)編碼器輕量化的設計,把視覺(jué)編碼器的體積從 6B 減到 1B,從而實(shí)現更敏捷的感知;同時(shí)把 MLLM 主干變深(層數更多)變窄,以適應深度推理的需要。經(jīng)過(guò)這樣的改動(dòng),模型可以更快捷地處理高分辨率大圖以及長(cháng)視頻;再加上對訓練數據的進(jìn)一步優(yōu)化,模型在同樣性能表現下的效率提升超過(guò) 3 倍。我們在架構優(yōu)化上的努力使得性能成本曲線(xiàn)得以顯著(zhù)優(yōu)化,實(shí)現了比 Gemini 2.5 系列更優(yōu)的效費比。
模型尺寸未來(lái)是否會(huì )進(jìn)一步增長(cháng)
在大模型時(shí)代早期,尺度定律在很大程度上驅動(dòng)著(zhù)模型能力的競爭和發(fā)展,模型規模曾突破萬(wàn)億。Google 早在 2021 年就發(fā)表了萬(wàn)億參數的 Switch Transformer,這也是較早嘗試把 MoE 和 Transformer 結合的工作。但是,業(yè)界很早就觀(guān)察到模型參數量并不是模型能力的唯一要素。DeepMind 在 2022 年的一篇論文中就基于詳盡的實(shí)驗分析指出:模型參數量和訓練數據量應該同步增長(cháng)(“for compute-optimal training, the model size and the number of training tokens should be scaled equally”)。
我們可以看到,從 2023 年至今,開(kāi)源模型的參數量主要都設在 1B ~ 100B 的量級,并且逐漸形成了一種分層格局:百 B 級別的模型主要是性能天花板的競爭;7B ~ 30B 級別的模型被普遍用于垂直業(yè)務(wù);1B ~ 3B 的模型主要瞄準端側應用,或者用于業(yè)務(wù)工作流的轉接環(huán)節(文檔解析、Prompt 改寫(xiě)、意圖分類(lèi)等)。今年以來(lái),隨著(zhù) MoE 的逐漸普及,主力模型的總參數量被提升到幾百 B,但是激活參數基本維持在 20B ~ 30B 的水平。至于企業(yè)里面用于服務(wù) C 端產(chǎn)品的閉源模型,據我們了解,出于服務(wù)成本和效率的考慮,也沒(méi)有比上述的尺寸更大。
模型尺寸在過(guò)去兩年保持平穩,有兩個(gè)關(guān)鍵的原因:1)隨著(zhù)大模型走向商業(yè)化,價(jià)格競爭激烈,各個(gè)企業(yè)選擇模型尺寸時(shí)趨于務(wù)實(shí),而不是盲目追求參數量的超越;2)隨著(zhù)數據質(zhì)量和訓練水平提升,中小模型的性能進(jìn)步顯著(zhù),在很多重要指標上已經(jīng)可以比肩 GPT-4。我們認為,這樣的趨勢是符合經(jīng)濟規律和技術(shù)規律的,未來(lái)模型的發(fā)展主要還是圍繞著(zhù)效率提升這一核心目標,以加速實(shí)用化的進(jìn)程。
多智能體:突破紅線(xiàn)的重要范式
與此同時(shí),有兩個(gè)重要趨勢非常值得關(guān)注:
大模型從“大”到“多”,背后反映的是大模型正在經(jīng)濟生活中加速滲透,其應用邊界在快速拓寬,人們在日常生活工作中對大模型的依賴(lài)也明顯加深。
對于 AI 的商業(yè)化來(lái)說(shuō),我們正在經(jīng)歷一個(gè)歷史性的黃金時(shí)期,是值得我們以最大的努力去把握的。為此,關(guān)鍵的不是追求模型規模,而是在一個(gè)個(gè)的場(chǎng)景中打穿工業(yè)紅線(xiàn),讓技術(shù)達到可規?;逃玫乃?。
要實(shí)現突破特定方向的紅線(xiàn),要兩種可能的路徑:1)打造“超人”:持續提升單個(gè)模型或智能體的規模和水平;2)打造“團隊”:讓多個(gè)智能體協(xié)作達成目標。后者就是業(yè)內現在經(jīng)常討論的多智能體。我們比較這兩種路徑。一個(gè)超級模型在很多方向突破紅線(xiàn),超越人類(lèi),這是存在可能性的。但是這里有兩個(gè)問(wèn)題,這樣的模型研發(fā)周期非常長(cháng),資源投入巨大;而且,在現有的技術(shù)水平下,這個(gè)模型會(huì )變得特別昂貴 —— GPT 4.5 和 Grok 4 的價(jià)單其實(shí)已經(jīng)初步反映了這個(gè)問(wèn)題。相比而言,多智能體的路徑更為務(wù)實(shí),并且在多個(gè)專(zhuān)業(yè)領(lǐng)域顯示出巨大的潛力。比如,最近 Google DeepMind 獲得數學(xué)國際奧賽金牌的 Deep Think 就是一個(gè)多智能體架構的系統。在商湯,小浣熊背后也是一個(gè)多智能體架構,它在面對復雜業(yè)務(wù)場(chǎng)景的時(shí)候,顯示出比單一大模型更強的表現。
模型架構的未來(lái)演進(jìn):提效與融合
模型架構未來(lái)演進(jìn)的核心目標之一仍然是效率的持續提升。 目前大模型的計算能效相比與人腦還有著(zhù)多個(gè)數量級的差距。在這樣的架構效率下,去追求超級智能的代碼將是無(wú)比高昂的。從追求 AGI 的長(cháng)期目標而言,先尋求更高效的路徑(比如接近人腦的效率),然后放大,可能是更理想的策略。
要實(shí)現模型效率的進(jìn)一步提升,有“稀疏化”和“功能分化”兩個(gè)重要方向。 稀疏化就是減少每次計算的激活占比,僅使用必需的神經(jīng)元,以降低計算能耗。功能分化是指:根據不同功能的 Scale 規律進(jìn)行相應的設計,并把它們有機組合在一起。比如,很多分析指出,模型的知識容量和總參數相關(guān)度比較高,而推理性能更取決與激活參數,那么知識儲備和推理能力就應該適當解耦,沿著(zhù)更合理的方式進(jìn)行配比;就像芯片一樣給于不同的功能單元以不同的空間,或者類(lèi)似人的大腦那樣形成不同功能的皮層。
除此之外,“融合”也是突破模型現有能力邊界的重要途徑。在過(guò)去的工作中,我們已經(jīng)看到了語(yǔ)言和視覺(jué)的融合所帶來(lái)的多模態(tài)能力的整體提升。展望未來(lái),以下兩個(gè)方向的融合也是值得我們關(guān)注的:
多模態(tài)的理解生成統一。目前,主流的多模態(tài)理解模型和多模態(tài)生成模型是兩個(gè)有顯著(zhù)差異的方向,前者采用 MLLM 的自回歸架構,主要用于圖文問(wèn)答;后者以擴散模型為核心架構,主要用于圖像視頻生成。它們的研發(fā)目標也是不同的,前者主要聚焦在語(yǔ)義邏輯,但是空間理解能力薄弱,后者主要追求高品質(zhì)的生成效果,但是可控性和結構的真實(shí)性一直面臨挑戰。多模態(tài)理解生成統一的探索,主要是希望通過(guò)把兩者在架構和訓練目標上進(jìn)行彌合,從而實(shí)現優(yōu)勢互補:更強的空間理解 + 更可控的精準生成。我們認為,這是一個(gè)值得探索的方向,但是不應該停留在簡(jiǎn)單的架構縫合,而是要著(zhù)力于對其內在機理的理解,從而實(shí)現真正意義的能力躍升。
常規模型和慢思考的統一。帶有慢思考過(guò)程的推理模型相比于普通模型在推理性能上有代差級別的顯著(zhù)進(jìn)步,在近幾個(gè)月成為領(lǐng)域競爭的焦點(diǎn)。但是它們在應用中也暴露出一些重要問(wèn)題,比如冗長(cháng)且發(fā)散的思維鏈、更高的幻覺(jué)率、以及可靠性和可控性的挑戰等。我們認為,目前常規模型和推理模型分立的情況是 AI 進(jìn)入推理階段早期的一個(gè)暫時(shí)狀態(tài)。一個(gè)具有較高智能水平的智能體(比如“人”)應該能根據情況需要,比如問(wèn)題的挑戰性以及是否有充足的思考時(shí)間,來(lái)自主選擇不同的思考長(cháng)度。而且,一個(gè)良好的學(xué)習范式應該能讓不同條件下的思考能力都得到平衡的提升。
商湯在日日新 6.5 版本嘗試把常規模型和推理模型融為一體,觀(guān)察到了積極的效果,兩種模式的協(xié)同訓練,一方面給常規模式下的推理能力帶來(lái)提升,另一方面也在一定程度上緩解了推理模式的幻覺(jué)。因此我們可以用一個(gè)模型支撐兩種模式(需要前置設定模式)。我們目前在這兩者統一的探索上還處在相對早期,未來(lái)還將推進(jìn)思考模式的深層融合,使得模型可以做得動(dòng)態(tài)自適應切換。
8、從多模態(tài)到具身智能,會(huì )面臨哪些挑戰?
主要觀(guān)點(diǎn)
當 AI 從數字空間走到物理空間,和真實(shí)世界進(jìn)行交互,我們面臨的挑戰是:物理世界的交互很難進(jìn)行文字記錄,因此需要從實(shí)際交互過(guò)程學(xué)習。
跟其它學(xué)習階段一樣,學(xué)習效率是核心挑戰。采用真機交互的效率很低(無(wú)論是直接交互還是遙操作),當前只能滿(mǎn)足特定場(chǎng)景的需要,很難像大語(yǔ)言模型那樣依托海量互聯(lián)網(wǎng)數據形成通用能力。而通過(guò)視頻模擬學(xué)習,精細度以及領(lǐng)域鴻溝(domain gap)離可用還有比較遠的距離。因此,在這個(gè)階段,首要解決的是交互學(xué)習的效率問(wèn)題。
一個(gè)很直接的想法,就是通過(guò)一個(gè)虛擬系統模擬現實(shí)世界的交互,讓智能體在這個(gè)系統里面的每個(gè)動(dòng)作都能獲得合適的接近真實(shí)的反饋。這個(gè)虛擬系統的核心就是“世界模型”,它基于對空間結構和物理規律的把握會(huì )對虛擬的具身智能體的動(dòng)作做出接近真實(shí)的反應。由于世界模型的交互效率遠高于真實(shí)環(huán)境,以此有望顯著(zhù)提升交互學(xué)習的效率。
世界模型的技術(shù)關(guān)鍵是對于空間結構和物理規律的精準掌握以及多樣化場(chǎng)景的覆蓋。通常的視頻生成模型只是捕捉了世界的視覺(jué)側面,并沒(méi)有對真實(shí)物理規律和空間結構的有效掌握,因此還不能視為真正意義的世界模型。
世界模型的構建是需要海量數據支撐的。商湯的開(kāi)悟世界模型是在我們的多模態(tài)模型能力基礎上構建起來(lái) —— 這個(gè)多模態(tài)模型本身就壓縮了關(guān)于這個(gè)世界的海量數據。通過(guò)智能汽車(chē)業(yè)務(wù)獲得的大量真實(shí)場(chǎng)景數據進(jìn)行加強,世界模型就因而具備了很強的模擬和生成能力,可以根據指定路徑生成不同視角的視頻。這個(gè)模型在我們的智能駕駛系統訓練中提供了很有效的交互反饋,從而幫助我們的智能駕駛系統更高效地訓練。
注:關(guān)于世界模型和具身智能,由于篇幅關(guān)系,這里只做簡(jiǎn)要的闡述。后面我們也考慮在合適時(shí)間進(jìn)行更詳細的分享。
9、商湯如何建設一支有高效且富有創(chuàng )新力的研究力量?
主要觀(guān)點(diǎn)
在人工智能發(fā)展的每一個(gè)歷史階段,創(chuàng )新人才都是技術(shù)變革的核心驅動(dòng)力量。在大模型時(shí)代,這一點(diǎn)也沒(méi)有改變。 在最近一段時(shí)間,人工智能研究人才的高價(jià)薪酬引起了廣泛關(guān)注。這背后代表了領(lǐng)域里面正在形成的共識—— 在研發(fā)路徑高度同質(zhì)化的當下,年輕研究者的創(chuàng )新精神是破局的關(guān)鍵。
在商湯科技過(guò)去十年的發(fā)展中,孕育了一支富有創(chuàng )新精神且有強大戰斗力的研究團隊。他們在商湯穿越技術(shù)周期的每一次變革中扮演著(zhù)重要角色,憑借其前瞻的視野和不懈的探索,和產(chǎn)品業(yè)務(wù)團隊共同定義我們前行的道路,讓公司持續保持競爭力。
在 AI 2.0 時(shí)代,研究組織也面臨新的挑戰 —— 大模型的訓練高度依賴(lài)數據和算力的聚集,而且外部競爭加劇,這要求我們的研究團隊需要具備更高的組織度,以實(shí)現更高的迭代效率;同時(shí),也需要有充分的技術(shù)探索空間,以保持創(chuàng )新的活力。如何應對這樣的挑戰是每個(gè)公司研究組織必需回答的命題。
我們構建研究組織的整體思路是:從技術(shù)規律出發(fā)設計組織結構。這里面有兩個(gè)關(guān)鍵因素:一是方向,保證技術(shù)迭代的方向和公司戰略是一致的,這里評測的導向是關(guān)鍵抓手;二是效率,讓迭代的效率足夠高,保證在我們專(zhuān)注的方向中走在業(yè)界前列。
在 AI 2.0 時(shí)代,商湯對研究組織進(jìn)行了幾個(gè)方面的重構:
總體而言,商湯的研究團隊在 AI 技術(shù)快速演進(jìn)的時(shí)代浪潮下,組織體系也在與時(shí)俱進(jìn),不斷重塑自我,始終以最佳的隊形應對激烈的競爭;在持續提升研發(fā)效率的同時(shí),保持著(zhù)堅持原創(chuàng )的初心。
10、商湯如何平衡技術(shù)突破和商業(yè)落地的關(guān)系?
主要觀(guān)點(diǎn)
這一波大模型浪潮重塑了全世界對于人工智能的認知。新技術(shù)、新產(chǎn)品令人目不暇接,“未來(lái)已來(lái)”是很多人最直觀(guān)的感受。繁華和喧囂的背后,我們始終保持著(zhù)一個(gè)重要的判斷:
通向 AGI 的過(guò)程是一場(chǎng)長(cháng)跑
通向通用人工智能(AGI)的過(guò)程是一場(chǎng)長(cháng)跑,不是一蹴而就的沖刺。 當靜下心來(lái)去審視人工智能這兩年多以來(lái)的進(jìn)展,我們會(huì )看到有很多基本挑戰尚未能得到解決:
這些問(wèn)題的解決還需要較長(cháng)的時(shí)間。AlphaGo 是人工智能歷史上一次里程碑式的進(jìn)步,大模型也是,但是,以目前所取得的進(jìn)展而言,宣稱(chēng)“AGI 的到來(lái)” 似乎還為時(shí)尚早。
商湯始終堅定地走在追尋 AGI 的道路上,但是技術(shù)理想也需要商業(yè)價(jià)值的護航才能行穩致遠。
技術(shù)突破和商業(yè)落地的正向循環(huán)
在實(shí)際工作中,如何才能實(shí)現技術(shù)突破和商業(yè)落地的平衡?這是這個(gè)領(lǐng)域每個(gè)公司都會(huì )面臨的核心問(wèn)題。在商湯,我們沒(méi)有把技術(shù)和商業(yè)視為爭奪資源的兩側,而是把它們視為互為因果的兩個(gè)環(huán)節。相比于資源的分配,我們更關(guān)注這兩者如何實(shí)現有效的正向循環(huán)。
基于這樣的認知,我們確立了“基礎設施 - 模型 - 應用”三位一體的總體戰略。一方面,我們在大裝置基礎設施支撐下,致力于打造業(yè)界領(lǐng)先的通用多模態(tài)大模型,融匯跨模態(tài)跨領(lǐng)域的數據,通過(guò)持續的技術(shù)創(chuàng )新,在感知、理解、推理、交互等能力維度上不斷突破;另一方面,我們在應用上聚焦生產(chǎn)力和交互,在真實(shí)場(chǎng)景牽引下,構建端到端的產(chǎn)品技術(shù)競爭力。
到了具體研發(fā)決策的層面,我們確實(shí)面對很多開(kāi)放性的挑戰,技術(shù)上可以投入的事項非常多,但是資源和時(shí)間都是有限的。因此,我們在研發(fā)投入上最核心的問(wèn)題是“科技樹(shù)”上的選擇題。具體而言,我們在選擇投入做什么研發(fā)的時(shí)候,會(huì )考慮三個(gè)基本問(wèn)題:1)它是否順應技術(shù)發(fā)展的總體趨勢(是否走向融合而不是更深的定制);2)它是否可以增強商湯所聚焦方向的競爭力;3)它是否是在我們經(jīng)過(guò)努力可以達成的。對于這些問(wèn)題的回答是技術(shù)和商業(yè)判斷凝聚的結果。在商湯,每個(gè)研發(fā)周期前都會(huì )有產(chǎn)研會(huì )商的研討會(huì )議,共同確定下一階段的投入方向以及目標。我們密切觀(guān)察外部的進(jìn)展,但是我們有我們自己的定位和節奏,不會(huì )受外界過(guò)多的干擾。
在商湯,研發(fā)和商業(yè)的正向循環(huán),不只是一句口號,而是貫徹于組織、項目和考核等各個(gè)層面的理念。 值得強調的是,業(yè)務(wù)對于研究的引導,并不是要讓研究人員去圍繞特定需求做定制,而是從中抽象出關(guān)鍵的課題,融入每一個(gè)階段的研發(fā)規劃,從而為產(chǎn)品構筑長(cháng)期競爭力。
在三位一體戰略和技術(shù)與業(yè)務(wù)正向循環(huán)的驅動(dòng)下,我們過(guò)去一年取得了很多進(jìn)展。一方面,我們的基礎技術(shù)體系形成了更強的創(chuàng )新勢頭,在業(yè)內率先取得一系列創(chuàng )新成果:比如原生融合訓練,圖文交錯思維鏈、多模態(tài)融合強化學(xué)習、無(wú)限時(shí)長(cháng)的視頻交互記憶、以及開(kāi)悟世界模型;另一方面,在技術(shù)創(chuàng )新的支撐下,商業(yè)化局面正在迅速打開(kāi),生產(chǎn)力 AI 的性能持續保持領(lǐng)先,裝機量正在從百萬(wàn)量級走向千萬(wàn)量級;交互 AI 廣泛落地各種新型智能硬件和機器人,正在重塑用戶(hù)和世界交互的形態(tài)。商湯在生成式 AI 板塊業(yè)績(jì)的持續高速成長(cháng)充分顯示了這些成果所帶來(lái)的商業(yè)回報。
面對大廠(chǎng)的競爭,商湯在資源投入的總量上是有一個(gè)限度的。但是,我們對于未來(lái)的路徑有自主的思考和認知,在戰略上高度聚焦,長(cháng)期堅持,在技術(shù)路徑和產(chǎn)品業(yè)務(wù)上鼓勵創(chuàng )新,敏捷迭代,逐漸建立起技術(shù)-商業(yè)的閉環(huán)。
這種長(cháng)期主義帶來(lái)的復利,將讓我們在自己的道路上脫穎而出,形成堅實(shí)的競爭優(yōu)勢。
責任編輯:何俊熹
(責任編輯:熱點(diǎn))