開欄語

當人工智能的浪潮席卷全球,北京正以科技創新之姿,成為AI大模型領域的戰略高地。從智源研究院的“悟道”大模型問世,到“天使投資人”模式孵化頂尖學者,再到月之暗面、DeepSeek、智譜等人工智能獨角獸崛起,這座城市不僅匯聚了前沿技術,更以開放生態孕育突破性成果。

如今,北京正積極打造“全球開源之都”,一大批研發機構、企業積極擁抱開源,而開源也已深入到汽車、機器人等眾多行業。發展AI將是一場科技長征,新京報AI研究院將深度訪談此次AI浪潮的親歷者與見證人,講述AI競爭新格局與背后的故事。


劉知遠向記者講解AI技術發展歷程。 新京報貝殼財經記者 羅亦丹 攝


邁入2025年,中國AI(人工智能)站上足以與美國分庭抗禮的戰略制高點。這一年,劉知遠已經在AI追趕的路上走了近20年。

作為清華大學副教授、面壁智能聯合創始人兼首席科學家,五年前,他訓練了中文預訓練模型的第一個版本,而由他參與、智源研究院發布的“悟道2.0”也成為中國第一個萬億大模型。

彼時,一個爭論的焦點就是大模型研發應該“從大煉模型,到煉大模型”。2023年,ChatGPT破圈宣布了“煉大模型”路線的正確。

如今,面對DeepSeek走紅,劉知遠表示,“2024年時,還有很多投資人問我‘你覺得中國AI跟美國比是越來越近,還是越來越遠’,我的回答始終是越來越近”。DeepSeek的出現是一個非常強有力的信號,讓人看到世界舞臺上,中國的人工智能技術已經具有一席之地。

劉知遠親歷了符號主義黃昏下的困惑、見證了深度學習浪潮掀翻傳統范式,更是中國AI大模型創業浪潮中的深度參與者之一。2023年至今,國內多個AI“小龍”“小虎”涌現,大模型百花齊放。在劉知遠看來,DeepSeek成功的前提是具備了匹配資金和技術的“天才土壤”,這也是其帶給業內的最大啟示。

在接受新京報AI研究院專訪時,劉知遠篤定,AI創業者的終極目標是奔向AGI(通用人工智能),但過程絕非坦途,并提醒市場需要更多耐心:一個投資人投了“六小虎”但沒有投DeepSeek,不見得就是投錯了,難道中國不允許出現10個以上的DeepSeek?為什么不能等一等這些潛在的DeepSeek成長?

啟蒙·越來越近的追趕

新京報AI研究院:你從什么時候開始研究AI?AI大語言模型技術何時給你“第一次震撼”?

劉知遠:我2006年讀研究生時開始從事自然語言處理研究,那時自然語言處理還處在統計學習的時代,深度學習的時代尚未到來。

2011年至2012年,我的老師孫茂松教授申請了科技部的973計劃項目,這項基礎研究課題項目的資金額達到數千萬元,是國內最早在自然語言處理方向上獲得大規模支持的專項之一,如果說哪一個時間點對中國AI大模型的發展具有深遠影響,這件事就是其中之一。

孫老師認為,既然要做5年的項目,就要找比較前沿性、前瞻性的方向。為了確定這筆資金的具體使用方法,他組織了北大、哈工大、中科大自動化所、百度在內的幾個單位以及全國自然語言處理領域半數頂尖學者進行討論,最終定下了一個方向:深度學習。

這一項目申請成功之后,2013年,國外發布了word2vec方法。簡單來講,word2vec首先發現了詞可以用向量表示,這是深度學習在自然語言處理領域應用上里程碑式的成功,也是深度學習對我的“第一次震撼”。于是我們立即開始跟進。當時,我們與國外領先水平大概有三四年的差距。

實際上,國內學界開始大規模認可深度學習,達成共識是2015年,比2013已經晚了兩三年,但大體上,我們一直處于不斷追趕,身位越來越近的追趕過程。

新京報AI研究院:公眾知曉大語言模型主要是在ChatGPT出現之后,對于學界來說,有哪些“ChatGPT時刻”?為了追趕新技術,你們做了什么?

劉知遠:ChatGPT的出現確實沒有給我們帶來多大“震撼”,因為我們始終在關注這一領域。

在此之前,還有兩個技術突破的關鍵節點。

2018年,谷歌發布了BERT模型,它完成了模型從專用到通用的躍遷。此前,我們需要針對每一個任務去設計模型、準備數據,模型也只能做這一個任務。BERT出現后,模型可以學習文本上的所有知識,之后進行微調即可完成更多任務。

國內很多團隊也發現了這件事的重要性。2018年起,我們決定將重點轉向預訓練模型的研究,鼓勵團隊成員摒棄狹隘的專有任務導向,專注于基礎模型的開發。2018年底,團隊推出了首個知識增強的預訓練模型,命名為“ERNIE”,并于2019年初將研究成果提交至ACL(國際計算語言學學會)。有趣的是,幾乎同時,百度也發布了名為“ERNIE”的預訓練模型。(注:ERNIE與BERT均是美國動畫片“芝麻街”中的角色)。

這一巧合甚至引起了ACL評審主席的關注,他特意發來郵件詢問我們是否存在關聯,以及團隊是否知曉百度的工作。我們明確表示,與百度沒有任何合作,也完全不知對方的研究。最終,這篇論文被錄用,成為團隊在預訓練模型領域引用最高的研究之一。

2020年,GPT-3發布,完成了從小模型到大模型的躍遷,OpenAI使用了1萬張卡(注:GPU),這讓我們看到了差距,之后就催生了“悟道”大模型。

當ChatGPT出現時,我們認為國內和國外的差距差不多是一年;直到2024年9月OpenAI發布o1模型,我們認為差距縮小到半年,因為o1推出深度思考功能半年后,DeepSeek就成功進行了復現。

攻堅·既沒名也沒錢,遇上“天使投資人”

新京報AI研究院:OpenAI訓練GPT-3使用了上萬張卡,那時國內有這樣規模的算力資源嗎?怎么解決算力的“缺口”?

劉知遠:GPT-3出現后,我們覺得如果不馬上跟進,差距就會越來越大。但當時國內即便是一線團隊,訓練資源也相對有限。GPT-3發布時,團隊研究條件僅能使用單臺機器,最多兩三張GPU卡進行訓練。

那時,我正在北京智源研究院擔任青年科學家,這是北京市設立的新型研發機構,有一定資源優勢,我向時任院長黃鐵軍提交了一份報告,詳細介紹了大模型領域的發展趨勢,希望能夠在智源的支持下,嘗試訓練一個參數規模更大的模型。值得慶幸的是,智源的支持機制非常靈活,幾天后就批準了申請并撥款支持,最終購置了10臺配備A100 GPU的機器,總投入達數百萬元。利用這些資源,2020年12月,我們團隊訓練了CPM(中文預訓練模型)的第一個版本,也讓我有機會參與到了大模型的浪潮之中。

新京報AI研究院:智源研究院被媒體視作中國AI的“黃埔軍校”,你怎么看待其對國內AI發展起到的作用?

劉知遠:智源研究院是2018年時任北京市市長倡導成立的新型研發機構,其最開始設立時的理事長由來自產業界的張宏江擔任,模式非常新穎,這是理念上的前瞻性,其核心是用新型方式推動人工智能加快發展。

研究院成立之后推動了智源學者項目,這跟歷史上國內的任何一種項目都不同,主張激發卓越領軍人物自由探索,以提升科研原始創新的概率。因此,通過“小同行評議”,層層嚴苛選拔,評選出中國人工智能每個重要研究方向的代表性優秀學者。與傳統科研機構不同,類似投資領域中“投資就是投人”的理念,智源也成為一批頂尖人工智能學者的“天使投資人”,以更加高效靈活的方式支持面向未來的科研探索。

它相當于在青年科學家“既沒名也沒錢”時支持了三年,相比其他科研項目中所常見的寫本子、答辯和考核等復雜操作,這種基于對人本身的信任、國內最早以人為單位進行支持的項目,理念非常先進。


2021年,劉知遠在智源“悟道1.0”發布現場。 新京報貝殼財經記者 羅亦丹 攝

弄潮·避開大廠“射程”,從局部優勢領域出發

新京報AI研究院:2022年,你創立了面壁智能,這一年年底,ChatGPT也正式問世。大模型技術相繼“破圈”,感受到什么變化?

劉知遠:感覺2023年之后突然變忙了,節奏明顯加快。但這是正常的,因為當一個領域技術成熟,特別是一些爆款出現后,一定會促使該領域的發展進入“快車道”,這是一個逐漸加速的過程,甚至我可以預見今年會更快。

對我個人來說,其實過去這十幾年的感受倒沒有太大區別,因為我們的愿景是要始終站在AI科技的最前沿去開展工作,只是之前在學校就能站在最前沿,而2018年之后,我們認為AI已經具備一定成熟度,可以對社會產生廣泛的應用價值,研發工作也開始要求有更強的系統工程屬性。這種情況下,一定要通過科技創業和產研結合的形式,才能夠站在技術前沿更快地往前走。

任何對人類社會產生深遠影響的技術發展都是這樣。例如,信息檢索技術從20世紀60年代就有人探索,而到將近2000年的時候,這項技術逐漸成熟具備商業價值,對全社會的人類有用,就產生了雅虎、Google這樣的公司。如果不能順應時勢以創業公司或產研結合的形式站在合適的位置,就不能真正地推動技術發展,我們要做的就是始終站在科技創新的最前沿,前沿要求我們站在哪兒,我們就得站在哪兒。

新京報AI研究院:相比DeepSeek等參數龐大的大模型,面壁智能主打“小而美”的端側模型,為什么確定了這個略顯差異化的發展方向,而且有什么目標?

劉知遠:我的目標就是讓更多的智能終端裝上我們的模型,而AI創業者的終極目標肯定是奔向AGI(通用人工智能)。

對于面壁,我們先定的英文名“model best”,即我們要做最好的模型。而中文名必須以M和B作為首字母,找來找去,我們認為面壁比較符合人工智能的目標,既有科幻氣質,又隱喻人類智能發展到最高水平應該可以自省。

確立了最終目標后,需要看清形勢,準確預判,打好自己的每一場仗。《論持久戰》的思想精髓就非常值得創業者去借鑒,因為奔向AGI本身也是一個“持久戰”,在這一過程中敵人是不確定的,要跟自己PK,跟友商們PK,跟充滿不確定的未來PK,而跑到終點的才是勝利者。

我們現在還很弱小,如何一點點壯大,在AGI漫漫長征中不掉隊、取得最終勝利?市場本身非常大,有的公司鋪得很開,這種情況下作為創業公司,在資源有限、不可能擁有全面壓倒性優勢的情況下,一定要戰略性找到具有相對優勢的局部戰場,通過運動戰,在合適時間、合適戰場,集中局部優勢兵力,打出一場漂亮的戰役。唯有堅定地取得一場關鍵性戰役的勝利,方可占領根據地。

面壁懷抱著一個長期的愿景,但要有戰略、分階段地去實現,尤其是避開當前大廠的“射程”,從局部優勢領域出發,一步一步來。

新京報AI研究院:怎么看待人工智能高速發展中的風險挑戰和相應的監管體系?端側模型本地化的特性所帶來的數據保護優勢,是否為面壁發展端側模型的契機之一?

劉知遠:人工智能的高速發展與安全監管是相輔相成的關系,需要又快又穩的平衡。人工智能從業者既要加倍努力,全面推進人工智能科技創新、產業發展和賦能應用,也要同時在高速發展中“系好安全帶”,推動人工智能向有益、安全、公平方向健康有序發展。

端側大模型在離用戶最近的地方,所有數據算力都在本地,得以極大保護用戶隱私,斷網弱網服務依然保持穩定,可以更加靈敏、高效、體貼地響應人們高頻的日常需求。尤其在汽車座艙等典型場景中,實時產生的大量聲音、圖片、視頻流數據在車端本地處理,需要保證車內數據不外傳,用戶會更傾向個人隱私和數據安全高的方案。

出圈·AGI之路非坦途,資本與市場的不信任要挺住

新京報AI研究院:2024年,除了“AI六小虎”之外,面壁智能曾和DeepSeek一起躋身“6+2”,你怎么看待今年春天DeepSeek-R1的火爆?

劉知遠:DeepSeek的啟示是,面對算力限制,通過算法創新與高效訓練,也有辦法做出比較好的模型,這是它的價值。

2024年時,還有很多投資人問我“你覺得中國AI跟美國比是越來越近,還是越來越遠”,我的回答始終是越來越近,但很多人還是有顧慮,認為中國算力一旦被“卡脖子”,會遠遠趕不上。DeepSeek的出現是一個非常強有力的信號,讓人看到世界舞臺上,中國的人工智能技術已經具有一席之地。

未來,AI的發展有兩大主旋律,一個是能效更高,其實就是Densing(增加密度)的過程,用更低成本訓練更好的大模型;另一個就是能力更強,具備越來越強的智能水平。未來這兩大方向相互作用,一起往前走。

過去一年,我們一直在極致地追求更高能力密度的模型。我們要做的是根據Densing Law (密度定律)不斷改進模型制造工藝、不斷提高模型的能力密度,追求一個更加陡峭的模型成長曲線,我們要通過這種方式來實現模型的高質量發展,從而獲得模型在市場上的競爭力。

新京報AI研究院:當DeepSeek走紅后,許多AI公司改變了發展方向,也有聲音質疑投資者“為什么沒有投中DeepSeek”,對此你怎么看?

劉知遠:DeepSeek的出現是一次考驗。如果你認為大模型不是泡沫,那出現低谷時為什么要退場?低谷其實就是在讓真正對大模型有堅定信心的人留下來。

AGI之路的實現不是輕而易舉的,它是一次科技革命,這意味著我們不僅經歷技術上的挑戰,還可能存在各種現實上的張力,一個團隊可能一年之內突然有非常多的進展,也可能兩年都沒有太大進展,此時資本與市場的不信任能否挺住,是否有戰略定力,對團隊是一種考驗。

2000年時,互聯網極其火爆,但后來出現了互聯網泡沫,導致將近10年時間計算機系招生的分數比許多其他院系差,大家覺得這個行業“沒前途”了,但中國現在的許多互聯網巨頭,都是挺過了互聯網泡沫的冬天才成長起來的。中國AI大模型行業能夠做好,靠的是真正相信AGI的人,相信自己所做事情的價值,不輕易放棄。在歷史的長河里,做對的事往往比較難。

新京報AI研究院:DeepSeek創始人梁文鋒此前從事量化投資,有聲音認為相比其他初創公司,DeepSeek本身“不差錢”,這是它成功的關鍵因素嗎?

劉知遠:這其實反映了我國當前需要解決的一些問題:第一,他有理想主義,有長期AGI技術的理想。第二,他也不差錢,可以不受干擾更有定力地做事。二者兼顧讓他可以把事情做得很好,而現在世界上絕大多數的人是只有錢或者只有技術,這就是風險投資存在的必要性。

我覺得DeepSeek對我們最大的啟示是,上面二者的結合會產生很大的“化學反應”。如果初創公司拿到資金后面臨著每天的現實追問,這種狀態下顯然就“靜不下來”。

如何把資源與技術真正做到更優化地匹配,也是我們當前面臨的問題,相較而言可能美國科技創新生態更加耐心主義。一個投資人投了“六小虎”但沒有投DeepSeek,不見得就是投錯了,難道中國不允許出現10個以上的DeepSeek嗎?為什么不能等一等這些潛在的DeepSeek成長呢?

魯迅先生曾說過,“在要求天才的產生之前,應該先要求可以使天才生長的民眾。”這是沒錯的,天才剛生下來時也是一個孩子,不可能第一聲啼哭就是優美的詩歌。

記者聯系郵箱:luoyidan@xjbnews.com

新京報貝殼財經記者 羅亦丹

編輯 王進雨

校對 賈寧