中國(guó)工程院院士、鵬城實(shí)驗(yàn)室主任高文(左),百度首席技術(shù)官王海峰聯(lián)合發(fā)布大模型。圖片來源:百度
作為當(dāng)前人工智能發(fā)展的重要方向,預(yù)訓(xùn)練大模型已成為AI領(lǐng)域的技術(shù)新高地。
12月8日,鵬城實(shí)驗(yàn)室與百度在深圳聯(lián)合召開發(fā)布會(huì),發(fā)布雙方共同研發(fā)的全球首個(gè)知識(shí)增強(qiáng)千億大模型——鵬城-百度·文心(模型版本號(hào):ERNIE 3.0 Titan),百度產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)大模型“文心”全景圖也首次亮相。
鵬城實(shí)驗(yàn)室總部位于深圳,是中央批準(zhǔn)成立的網(wǎng)絡(luò)通信領(lǐng)域新型科研機(jī)構(gòu),該實(shí)驗(yàn)室所研發(fā)的“鵬城云腦Ⅱ”是國(guó)產(chǎn)自主的首個(gè)E級(jí)AI算力平臺(tái),為鵬城-百度·文心提供算力支持。
會(huì)上,百度首席技術(shù)官、深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程實(shí)驗(yàn)室主任王海峰表示,鵬城-百度·文心大模型參數(shù)規(guī)模達(dá)到2600億,是目前全球最大的中文單體模型。
參數(shù)規(guī)模意味著什么?中國(guó)工程院院士、鵬城實(shí)驗(yàn)室主任高文解釋道,參數(shù)越多,大模型越復(fù)雜,越能夠準(zhǔn)確地把事情表達(dá)清楚。
他舉例說,要說一個(gè)人的性別很簡(jiǎn)單,如果要把年齡、家庭關(guān)系、祖上由來都弄清楚,就需要非常非常多地參數(shù)。
在海量參數(shù)的基礎(chǔ)上,鵬城-百度·文心大模型能從大規(guī)模知識(shí)、多種語(yǔ)言、多種模態(tài)數(shù)據(jù)中融合學(xué)習(xí)。據(jù)王海峰所述,該模型在機(jī)器閱讀理解、文本分類、語(yǔ)義相似度計(jì)算等60多項(xiàng)任務(wù)取得最好效果,并在30余項(xiàng)小樣本和零樣本任務(wù)上刷新基準(zhǔn)。
他還談到,鵬城-百度·文心大模型由百度文心知識(shí)增強(qiáng)算法、大規(guī)模數(shù)據(jù)與知識(shí)、飛槳深度學(xué)習(xí)平臺(tái)及“鵬城云腦Ⅱ”支撐。
據(jù)介紹,飛槳是我國(guó)首個(gè)自主研發(fā)的深度學(xué)習(xí)開源開放平臺(tái),研制了端到端自適應(yīng)分布式訓(xùn)練框架,實(shí)現(xiàn)多硬件支持,并行效率高達(dá)90%,支持鵬城-百度·文心大模型高效、穩(wěn)定地訓(xùn)練。
為解決大模型應(yīng)用落地難題,百度團(tuán)隊(duì)首創(chuàng)大模型在線蒸餾技術(shù),模型參數(shù)壓縮率可達(dá)99.98%。壓縮版模型僅保留0.02%參數(shù)規(guī)模就能與原有模型效果相當(dāng)。
王海峰表示,鵬城-百度·文心代碼近期會(huì)在OpenI啟智社區(qū)開源,依托“鵬城云腦Ⅱ”對(duì)外開放,將進(jìn)一步解決 AI 技術(shù)在產(chǎn)業(yè)應(yīng)用中缺乏領(lǐng)域和場(chǎng)景化數(shù)據(jù)等關(guān)鍵難題。
“預(yù)訓(xùn)練模型對(duì)整個(gè)科學(xué)的發(fā)展、社會(huì)的發(fā)展、創(chuàng)新的發(fā)展都是非常重要的工具。運(yùn)用這個(gè)工具,可以幫助做很多人工智能的賦能,不局限于某個(gè)領(lǐng)域,這對(duì)人工智能的發(fā)展都是一個(gè)福音?!?高文則表示。
為促進(jìn)產(chǎn)學(xué)研協(xié)“多輪驅(qū)動(dòng)”,百度還與鵬城實(shí)驗(yàn)室成立了鵬城-百度自然語(yǔ)言處理聯(lián)合實(shí)驗(yàn)室,并以此為依托,資源共享、優(yōu)勢(shì)互補(bǔ),在自然語(yǔ)言處理前沿研究和創(chuàng)新應(yīng)用方面協(xié)同攻關(guān)。