新京報訊(記者馮琪)“新型國家語料庫”如何建設(shè)?3月31日,新京報從教育部召開的新聞發(fā)布會上獲悉,教育部、國家語委已經(jīng)支持布局了五個領(lǐng)域的自主安全可控大語言模型建設(shè)項目;教育部已經(jīng)啟動布局了新型國家語料庫的建設(shè),包括“中華文脈新型語料庫”“中華大閱讀體系語料庫”等。


“當(dāng)前以深度求索(DeepSeek)等為代表的人工智能技術(shù)創(chuàng)新不斷取得突破性的進(jìn)展,在這個大背景下,國家提出建設(shè)新型國家語料庫的戰(zhàn)略部署,凸顯了其重要性、必要性和緊要性。”在3月31日的新聞發(fā)布會上,教育部語言文字應(yīng)用管理司副司長王暉說道。


他指出,現(xiàn)在在一些應(yīng)用領(lǐng)域,主要是在語言的教育教學(xué)和研究領(lǐng)域,有多個語料庫,但是很多語料庫還處于單一文本模式和領(lǐng)域應(yīng)用階段,在建設(shè)的理念、技術(shù)和方法、規(guī)模,以及數(shù)據(jù)多樣性、時效性尤其是與人工智能相結(jié)合的大規(guī)模應(yīng)用方面還存在不足,難以滿足多元化、動態(tài)化尤其是智能化的語言數(shù)據(jù)需求。


“我們總的考慮是:立足人工智能時代大背景,突破傳統(tǒng)語料庫單一文本模式和領(lǐng)域應(yīng)用壁壘,以大模型訓(xùn)練及性能評測、智能計算為核心,以新質(zhì)態(tài)、多模態(tài)、多語言、大規(guī)模、全域性為突出特性,為通用領(lǐng)域和細(xì)分領(lǐng)域多場景應(yīng)用及創(chuàng)新發(fā)展提供規(guī)范、可信、高質(zhì)量的語言文化語料資源。”王暉說道。


記者注意到,《教育強(qiáng)國建設(shè)規(guī)劃綱要》提出,要建設(shè)“新型國家語料庫”,近日印發(fā)的《關(guān)于加強(qiáng)數(shù)字中文建設(shè) 推進(jìn)語言文字信息化發(fā)展的意見》(下稱《意見》)中提出,到2027年初步建成國家關(guān)鍵語料庫和國家戰(zhàn)略語言資源信息庫等。


對此,3月31日的發(fā)布會上,教育部語言文字信息管理司司長劉培俊指出,將以建設(shè)語料基礎(chǔ)設(shè)施為新基建,服務(wù)大語言模型以及生成式人工智能等技術(shù)前沿創(chuàng)新應(yīng)用的制高點。


“目前,教育部、國家語委已經(jīng)支持布局了五個領(lǐng)域的自主安全可控大語言模型建設(shè)項目,下一步將根據(jù)需求穩(wěn)步擴(kuò)大建設(shè)范圍,提升建設(shè)成效。”劉培俊說道。


他進(jìn)一步表示,接下來將夯實“機(jī)制、標(biāo)準(zhǔn)、人才”三個基礎(chǔ)。第一是逐步建立健全語料共建共享新機(jī)制,第二是研制語言資源、語言數(shù)據(jù)、基礎(chǔ)語料以及大語言模型的技術(shù)和管理標(biāo)準(zhǔn),第三是依托高校研究機(jī)構(gòu)推進(jìn)多學(xué)科交叉融合,為語言科技、語料建設(shè)以及人工智能創(chuàng)新應(yīng)用培養(yǎng)高素質(zhì)人才。


王暉透露,2025年,教育部已經(jīng)啟動布局了新型國家語料庫的建設(shè)工作,主要包括兩方面:一是規(guī)范引領(lǐng),加強(qiáng)制度的供給,研制語料庫建設(shè)規(guī)范,為語料庫建設(shè)提供基礎(chǔ)原則和方法指引。二是示范引導(dǎo),成熟先上,開發(fā)建設(shè)“中華文脈新型語料庫”“中華大閱讀體系語料庫”,以這兩個示范庫建設(shè)整體打造出標(biāo)桿。


他解釋,“中華文脈新型語料庫”也可以簡單理解為瞄準(zhǔn)的是智慧教師,“中華大閱讀體系語料庫”瞄準(zhǔn)的是智慧學(xué)伴。“在此基礎(chǔ)上,探索建設(shè)系列教育、語言文化國家新型語料庫群,服務(wù)教育強(qiáng)國、文化強(qiáng)國建設(shè)。”


編輯 繆晨霞

校對