Evidentiality-guided Generation for Knowledge-Intensive NLP Task
Title: Evidentiality-guided Generation for Knowledge-Intensive NLP Tasks (基于證據(jù)性的知識密集型自然語言處理任務生成)

論文簡要 :
本文提出了一種基于證據(jù)性的生成模型,用于解決知識密集型自然語言處理任務中生成模型忽略證據(jù)性的問題,并通過多任務學習和銀標簽挖掘方法取得了顯著的性能提升。
背景信息:
論文背景: 知識密集型自然語言處理任務需要從大量的文本中檢索相關證據(jù),以生成正確的答案或分類標簽。
過去方案: 過去的方法使用檢索-生成框架,但生成模型往往忽略了檢索到的證據(jù)的證據(jù)性,導致生成模型依賴于不相關的文本或產(chǎn)生錯誤的輸出。
論文的Motivation: 本文的動機是解決生成模型忽略證據(jù)性的問題,通過引入證據(jù)性預測任務和銀標簽挖掘方法,使生成模型能夠更好地關注相關證據(jù),從而提高性能。
方法:
a. 理論背景:
本文提出了一種多任務學習框架,將證據(jù)性預測納入生成模型的訓練中。該框架由兩個組件組成:基礎生成模型和證據(jù)性引導生成模型。
b. 技術路線:
基礎生成模型使用檢索增強生成方法進行訓練,首先訓練一個檢索模型,用于為給定查詢檢索相關段落。然后,生成模型根據(jù)檢索到的段落生成最終輸出。
為了提高生成模型根據(jù)具有正確證據(jù)的段落生成答案的能力,引入了證據(jù)性引導生成模型。該模型訓練用于預測檢索集中每個段落的二元證據(jù)性標簽。
為了獲得高質量的銀標簽,采用了一種任務無關的方法。訓練一個證據(jù)性標注模型,用于預測一個段落是否支持黃金輸出。該模型使用部分可用的黃金段落注釋和通過留一生成方法收集的數(shù)據(jù)進行訓練。
作者提出了一個多任務學習框架,將答案生成和證據(jù)性預測結合起來,以提高知識密集型NLP任務的性能。模型結構:
使用T5模型(Raffel et al., 2020)作為基礎生成器,同時增加了一個額外的解碼器用于證據(jù)性預測。證據(jù)性預測的目的是判斷每個檢索到的段落是否包含支持最終輸出的正確證據(jù)。
使用一個基于RoBERTa模型(Liu et al., 2019)的二分類模型作為證據(jù)性標注模型,用于給每個段落分配一個證據(jù)性標簽,表示該段落是否支持給定的問題和答案。
使用一種新穎的離開一法(leave-one-out)生成策略來挖掘證據(jù)性標簽,即通過屏蔽某個段落來評估它對生成正確答案的重要性。作者使用這種方法來找到目標任務的金標準證據(jù)段落,并用它們來訓練證據(jù)性標注模型。
使用訓練好的證據(jù)性標注模型來給所有的訓練數(shù)據(jù)生成銀標準證據(jù)性標簽,然后用它們來訓練多任務生成器。
在五個數(shù)據(jù)集上進行了實驗,分別涉及開放域問答、事實驗證和知識增強對話三個知識密集型任務。實驗結果表明,作者的方法在所有數(shù)據(jù)集上都顯著優(yōu)于基線模型,并在FaVIQ-Ambig、FEVER和WoW上達到了最新水平。
舉個例子說明一下模型的工作流程。假設我們的目標任務是開放域問答,我們的問題是“誰是美國第一任總統(tǒng)?”,答案是“喬治·華盛頓”。模型會執(zhí)行以下步驟:
首先,使用一個檢索模塊來從大規(guī)模的語料庫中檢索出與問題相關的段落,例如維基百科或其他網(wǎng)頁。可以使用BM25算法或其他方法來進行檢索。
然后,使用證據(jù)性標注模型來給每個檢索到的段落分配一個證據(jù)性標簽,表示該段落是否支持給定的問題和答案。例如,如果一個段落包含了“喬治·華盛頓是美國第一任總統(tǒng)”的信息,那么它就會被標記為正面證據(jù);如果一個段落包含了“喬治·華盛頓是英國第一任總理”的信息,那么它就會被標記為負面證據(jù);如果一個段落沒有包含任何與問題和答案相關的信息,那么它就會被標記為無關證據(jù)。
接下來,使用多任務生成器來根據(jù)問題和檢索到的段落生成答案和證據(jù)性預測。答案生成器會嘗試生成一個簡潔而準確的答案,證據(jù)性預測器會嘗試預測每個段落的證據(jù)性得分,表示該段落對生成正確答案的貢獻程度。
最后,使用一個后處理模塊來對生成的答案和證據(jù)性預測進行優(yōu)化和校驗。優(yōu)化的目標是使答案更加流暢和自然,校驗的目標是使答案更加可靠和一致。例如,可以使用語言模型或其他方法來進行優(yōu)化,可以使用事實驗證或其他方法來進行校驗。
結果:
a. 詳細的實驗設置:
作者使用額外的元數(shù)據(jù),如黃金維基百科文章標題,來標記證據(jù)性,當在檢索到的上下文中找不到黃金答案時。
該額外的元數(shù)據(jù)在大多數(shù)數(shù)據(jù)集中通常不可用,因此作者將此變體視為WoW和FaVIQ數(shù)據(jù)集的基本真實設置。
作者的方法不依賴于此額外的元數(shù)據(jù),因此他們的變體可以達到更高的數(shù)值。
作者在LOO-gen變體中刪除了留一生成策略,該策略僅包含訓練證據(jù)性模型的第一步,用于自然問題。
消融結果顯示,當刪除多任務輔助學習時,性能明顯下降,特別是在FaVIQ-A數(shù)據(jù)集上。
刪除證據(jù)挖掘組件也會降低所有三個數(shù)據(jù)集的性能,表明挖掘證據(jù)性標簽的重要性,而不是依賴于字符串匹配啟發(fā)式方法。
作者對其方法獲得的證據(jù)性標簽進行了人工分析,并發(fā)現(xiàn)95%的挖掘正面段落提供了足夠的證據(jù)來回答問題,而只有4%的負面段落沒有提供足夠的證據(jù)。
對基礎生成模型和證據(jù)性引導生成模型的定性評估顯示,后者關注更相關的段落。
作者評估了模型在FaVIQ-A和TriviaQA數(shù)據(jù)集的簡單和困難子集上的性能,并發(fā)現(xiàn)在困難子集上兩個模型之間的性能差距更大。
作者提到了關于檢索增強生成和無監(jiān)督證據(jù)選擇的相關工作,以及改進問答的蘊涵方法。
作者總結了他們的方法在改進檢索增強生成的生成器組件方面的有效性。