中國林科院資源所智慧林草創(chuàng)新團(tuán)隊(duì)日前研發(fā)了一種可持續(xù)學(xué)習(xí)領(lǐng)域知識的林業(yè)預(yù)訓(xùn)練語言模型(ForestryBERT),通過構(gòu)建一套通用的技術(shù)體系,突破了通用預(yù)訓(xùn)練語言模型難以應(yīng)對林業(yè)知識動態(tài)更新的難題,實(shí)現(xiàn)了從動態(tài)變化的林業(yè)語料庫中持續(xù)學(xué)習(xí)新知識并有效記憶舊知識,顯著提高了模型的環(huán)境適應(yīng)性和理解能力。
該模型實(shí)現(xiàn)了3項(xiàng)關(guān)鍵技術(shù)突破:一是通過對林業(yè)術(shù)語、林業(yè)法律法規(guī)、林業(yè)文獻(xiàn)等大規(guī)模動態(tài)語料庫的學(xué)習(xí),為模型提供了豐富多元的知識來源,使模型能精準(zhǔn)捕捉林業(yè)語義信息,提升了模型對林業(yè)文本的理解能力;二是融合了持續(xù)學(xué)習(xí)方法,構(gòu)建了動態(tài)知識吸收機(jī)制,通過軟掩碼技術(shù)與對比學(xué)習(xí)策略,使模型在面對不斷更新的林業(yè)知識時(shí),既能高效吸收新知識,又能適當(dāng)保留舊知識,有效緩解了災(zāi)難性遺忘問題,提升了模型的適應(yīng)性和穩(wěn)定性;三是研發(fā)了多任務(wù)評估體系,準(zhǔn)確評測模型在林業(yè)文本分類和林業(yè)抽取式問答中的性能,使模型具有較好的泛化性。
ForestryBERT是在智慧林草創(chuàng)新團(tuán)隊(duì)研發(fā)的問答式林業(yè)預(yù)訓(xùn)練語言模型基礎(chǔ)上的又一重要技術(shù)突破。通過與學(xué)習(xí)了同樣林業(yè)知識但未采取持續(xù)學(xué)習(xí)機(jī)制的5種領(lǐng)域預(yù)訓(xùn)練語言模型的對比結(jié)果表明:ForestryBERT性能表現(xiàn)最好,知識遺忘率降低68.5%,具備可持續(xù)性和可擴(kuò)展性。這一成果為林業(yè)文本處理提供了創(chuàng)新策略,為林草行業(yè)大模型-林龍大模型中林草大語言模型的研發(fā)提供了核心技術(shù)支撐,也為構(gòu)建其他行業(yè)預(yù)訓(xùn)練語言模型提供了可借鑒的思路。
相關(guān)研究論文“ForestryBERT: A pre-trained language model with continual learning adapted to changing forestry text”發(fā)表在Knowledge-Based Systems,中國林科院資源所碩士生譚晶維為第一作者,張懷清研究員為通訊作者。該項(xiàng)研究得到國家重點(diǎn)研發(fā)計(jì)劃政府間國際科技創(chuàng)新合作項(xiàng)目和國家自然科學(xué)基金項(xiàng)目的聯(lián)合資助。