新京報貝殼財經訊(記者羅亦丹)2月22日,商湯絕影CEO,商湯科技聯合創始人、首席科學家王曉剛在2025GDC全球開發者先鋒大會上發布了端到端自動駕駛技術路線R-UniAD,通過構建世界模型生成在線交互的仿真環境,以此進行端到端模型的強化學習訓練。


“算法、算力和數據三者共同推動著人工智能技術的螺旋式上升和進步,隨著強化學習等算法引入到大模型訓練的思路得到驗證,新的尺度定律正在開啟,數據價值被進一步深入挖掘,模型能力天花板被打開。”王曉剛表示。


近期,DeepSeek-R1基于純強化學習的關鍵創新引發了廣泛的關注。通過少量高質量數據的冷啟動,模型進行多階段的強化學習訓練,有效降低大模型訓練的數據規模門檻。


王曉剛表示,基于強化學習的大模型技術路線也可以遷移到端到端自動駕駛算法的訓練與研發之中,“多階段強化學習的訓練方法能大幅降低端到端自動駕駛數據規模門檻。R-UniAD就是通過高質量數據進行冷啟動,用模仿學習的方式訓練出一個端到端基礎模型,再通過強化學習方法進行訓練。據測算,小樣本多階段學習的技術路線能讓端到端自動駕駛的數據需求降低一個數量級。”


編輯 韋英姿

校對 吳興發