人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量,深度學(xué)習(xí)作為人工智能的核心技術(shù),具有很強(qiáng)的通用性,并具備標(biāo)準(zhǔn)化、自動(dòng)化和模塊化的工業(yè)大生產(chǎn)特征,而大模型的興起,使得人工智能應(yīng)用的深度和廣度進(jìn)一步拓展。人工智能已進(jìn)入工業(yè)大生產(chǎn)階段。
例如,標(biāo)準(zhǔn)化方面,框架和模型聯(lián)合優(yōu)化,多硬件統(tǒng)一適配,應(yīng)用模式簡(jiǎn)潔高效,大幅降低人工智能應(yīng)用門(mén)檻;自動(dòng)化方面,從訓(xùn)練、適配到推理部署,提升人工智能研發(fā)全流程效率;模塊化方面,豐富的產(chǎn)業(yè)級(jí)模型庫(kù),支撐人工智能在廣泛場(chǎng)景的便捷應(yīng)用。人工智能具有多種典型能力,理解、生成、邏輯、記憶是其中的基礎(chǔ)能力,這4項(xiàng)能力越強(qiáng),越接近通用人工智能。而大語(yǔ)言模型具備了這4項(xiàng)能力,且越來(lái)越強(qiáng),為通用人工智能帶來(lái)了曙光。
百度在3月16日發(fā)布新一代知識(shí)增強(qiáng)大語(yǔ)言模型“文心一言”,目前文心一言的基礎(chǔ)模型已迭代到文心大模型4.0。知識(shí)增強(qiáng)大語(yǔ)言模型從數(shù)萬(wàn)億數(shù)據(jù)和數(shù)千億知識(shí)中融合學(xué)習(xí),得到預(yù)訓(xùn)練大模型,在此基礎(chǔ)上采用有監(jiān)督精調(diào)、人類反饋強(qiáng)化學(xué)習(xí)、提示等技術(shù),具備知識(shí)增強(qiáng)、檢索增強(qiáng)和對(duì)話增強(qiáng)的技術(shù)優(yōu)勢(shì)。此外,文心大模型4.0在輸入和輸出階段都進(jìn)行知識(shí)點(diǎn)增強(qiáng)。在邏輯增強(qiáng)方面,通過(guò)大規(guī)模邏輯數(shù)據(jù)構(gòu)建、邏輯知識(shí)建模、多粒度語(yǔ)義知識(shí)組合以及符號(hào)神經(jīng)網(wǎng)絡(luò),提升邏輯能力。而在插件方面,通過(guò)數(shù)據(jù)驅(qū)動(dòng)、提示構(gòu)建,以及插件增強(qiáng)進(jìn)行場(chǎng)景適配,協(xié)同優(yōu)化。文心一言已上線百度搜索、覽卷文檔、E言易圖、說(shuō)圖解畫(huà)、一鏡流影等原生插件,擴(kuò)展了大模型能力邊界,更適應(yīng)場(chǎng)景需要。
正是通過(guò)飛槳與文心的協(xié)同優(yōu)化,文心大模型周均訓(xùn)練有效率超過(guò)98%,訓(xùn)練效率提升到3月發(fā)布時(shí)的3.6倍,推理性能提升50倍。文心4.0的理解、生成、邏輯、記憶4大能力顯著提升,其中理解和生成能力的提升幅度相近,而邏輯和記憶能力的提升則更大,邏輯的提升幅度達(dá)到理解的近3倍,記憶的提升幅度也達(dá)到理解的2倍多。
文心一言自今年8月31日面向全社會(huì)開(kāi)放,用戶規(guī)模達(dá)到7000萬(wàn),場(chǎng)景4300個(gè)。飛槳和文心生態(tài)已凝聚800萬(wàn)開(kāi)發(fā)者,服務(wù)22萬(wàn)家企事業(yè)單位,創(chuàng)建了80萬(wàn)個(gè)模型。面對(duì)大模型產(chǎn)業(yè)化的挑戰(zhàn),類似芯片代工廠模式,可以采用“集約化生產(chǎn),平臺(tái)化應(yīng)用”的模式,即具有算法、算力和數(shù)據(jù)綜合優(yōu)勢(shì)的企業(yè)將模型生產(chǎn)的復(fù)雜過(guò)程封裝起來(lái),通過(guò)低門(mén)檻、高效率的生產(chǎn)平臺(tái),為千行百業(yè)提供大模型服務(wù)。
目前,這一產(chǎn)業(yè)化路徑已在文心大模型產(chǎn)業(yè)實(shí)踐中得到驗(yàn)證,百度與合作伙伴共建了包括能源、金融、航天、制造、傳媒、城市、社科以及影視等10余個(gè)行業(yè)大模型,正加速大模型產(chǎn)業(yè)化落地。
(作者系百度首席技術(shù)官、深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程研究中心主任)