對抗虛假「事實」的兩個小詞:用於大型語言模型的新技術將答案縮實現實
背景
大型語言模型(LLM)是一種透過訓練使用龐大資料量的事實資料的語言模型,但它們非常容易產生虛假訊息,稱為幻覺。當 LLM 被要求根據他們所理解的某一主題生成文字時,可能會發生這種情況,或者當他們錯誤地混合來自不同來源的訊息時也可能發生。最近,一位紐約律師就遇到了這樣的情況,他在法庭上使用 LLM 生成的虛構司法觀點和法律引證,可想而知,掌審法官對此表示不滿。
幻覺的根源
「Imagine using your phone's autocomplete function to finish the sentence 'My favorite restaurant is...' You'll probably wind up with some reasonable-looking text that's not necessarily accurate," 解釋了約翰霍普金斯大學工程學院的第三年博士生 Marc Marone。由於缺乏對特定主題所需訊息的理解,LLM 可能會生成看似合理但不準確的文字。這有點像我們使用手機的自動完成功能時,會生成看似正確但實際上並不準確的文字。
研究方法
為了減少 LLM 產生幻覺的可能性,約翰霍普金斯大學的研究團隊開發了一種新方法。受到新聞業常用的短語啟發,研究人員透過研究將「根據」這一詞語加入 LLM 的問句中的影響,發現這樣的提示能夠成功地引導語言模型將回答與先前觀察到的文字相結合。研究團隊表示 LLM 更有可能直接引用請求的來源來產生回答,而不是幻想虛假答案,就像新聞記者一樣。
研究人員使用了先前由約翰霍普金斯大學的 Marone 和 Van Durme 開發的 Data Portraits 工具,快速判斷訓練資料集中是否存在特定內容,而無需下載大量文字。他們取證了 LLM 的回答是否能夠在其原始訓練資料中找到。研究團隊稱這種衡量標準為「引用訊息精確度(QUIP-Score)」,當問句使用了「根據某某」這樣的引導提示時,其 QUIP-Score 增加了 5%至 15%。事實上增加鼓勵模型從高質量來源獲取訊息的引導提示,不僅提高了模型引用文字的能力,還增強了其答案的詳細性和準確性。
改進知識基礎
為了使 LLM 從其訓練資料中直接引用可靠資源,研究人員使用並非依賴網際網路的方法。研究人員開發的 LLM 無法存取網際網路,而是單純透過其自身內部的隱含知識——先前觀察到的句子的分布——來回答問題。這一「根據某某」的提示技術可以與各種 LLM 配合使用,無需進行人工調整,研究團隊表示但使用大型模型並與指引調整相結合時效果最好。指導調整是指在與典型的問答對進行訓練的基礎上增加如「用正確答案回答問題」等指令的訓練方式。
提升引用文字的準確性
研究團隊指出,儘管模型生成的文字可能存在於維基百科或其他特定來源,但這並不意味著生成的結果在問題提出方面是正確的。最終模型回答的準確性仍取決於其訓練資料的質量,因此研究團隊考慮了過濾來自不可靠網站的訊息的能力。他們表明,可以在查詢中加入「不引用 XYZ.com」這樣的敦促提示,ChatGPT 將遵從這一提示,這更加明確地顯示了它對引用說明的理解。
評論與建議
這項研究為改進 LLM 生成的答案的事實性和準確性邁出了一步。透過引導提示,LLM 被訓練為從已得到的文字中直接引用訊息,將答案建立在真實的基礎上。然而仍然需要進一步的研究和努力來提高模型的準確性。研究人員已經嘗試避免幻覺,但這並不意味著回答就是絕對正確的。模型的表現仍然取決於其訓練資料的質量,並且網路上的資訊可能具有不同的觀點和錯誤。
對新聞從業者的啟示
這項研究還為新聞業在數位時代保持事實性和準確性提供了重要的教訓。引導 LLM 模型從可靠的原始來源直接引用訊息,可以幫助記者們更好地引用和確認訊息,提高新聞報導的質量。同時新聞從業者也應該繼續適應和應對技術發展,以確保產生的文字元合高標準並提供可靠的訊息。
結論
這項研究提出了一種新的方法,可以幫助大型語言模型生成更有根據的答案,從而減少虛假訊息的生成。透過引導模型從事實資料中直接引用訊息,可以提高回答的準確性和可信度。然而這項研究還處於早期階段,需要進一步的研究和改進。對於新聞從業者來說這也是一個重要的教訓,提醒他們在數位時代需要應對技術發展並維護新聞報導的品質和可靠性。
幻覺的根源
「Imagine using your phone's autocomplete function to finish the sentence 'My favorite restaurant is...' You'll probably wind up with some reasonable-looking text that's not necessarily accurate," 解釋了約翰霍普金斯大學工程學院的第三年博士生 Marc Marone。由於缺乏對特定主題所需訊息的理解,LLM 可能會生成看似合理但不準確的文字。這有點像我們使用手機的自動完成功能時,會生成看似正確但實際上並不準確的文字。
研究方法
為了減少 LLM 產生幻覺的可能性,約翰霍普金斯大學的研究團隊開發了一種新方法。受到新聞業常用的短語啟發,研究人員透過研究將「根據」這一詞語加入 LLM 的問句中的影響,發現這樣的提示能夠成功地引導語言模型將回答與先前觀察到的文字相結合。研究團隊表示 LLM 更有可能直接引用請求的來源來產生回答,而不是幻想虛假答案,就像新聞記者一樣。
研究人員使用了先前由約翰霍普金斯大學的 Marone 和 Van Durme 開發的 Data Portraits 工具,快速判斷訓練資料集中是否存在特定內容,而無需下載大量文字。他們取證了 LLM 的回答是否能夠在其原始訓練資料中找到。研究團隊稱這種衡量標準為「引用訊息精確度(QUIP-Score)」,當問句使用了「根據某某」這樣的引導提示時,其 QUIP-Score 增加了 5%至 15%。事實上增加鼓勵模型從高質量來源獲取訊息的引導提示,不僅提高了模型引用文字的能力,還增強了其答案的詳細性和準確性。
改進知識基礎
為了使 LLM 從其訓練資料中直接引用可靠資源,研究人員使用並非依賴網際網路的方法。研究人員開發的 LLM 無法存取網際網路,而是單純透過其自身內部的隱含知識——先前觀察到的句子的分布——來回答問題。這一「根據某某」的提示技術可以與各種 LLM 配合使用,無需進行人工調整,研究團隊表示但使用大型模型並與指引調整相結合時效果最好。指導調整是指在與典型的問答對進行訓練的基礎上增加如「用正確答案回答問題」等指令的訓練方式。
提升引用文字的準確性
研究團隊指出,儘管模型生成的文字可能存在於維基百科或其他特定來源,但這並不意味著生成的結果在問題提出方面是正確的。最終模型回答的準確性仍取決於其訓練資料的質量,因此研究團隊考慮了過濾來自不可靠網站的訊息的能力。他們表明,可以在查詢中加入「不引用 XYZ.com」這樣的敦促提示,ChatGPT 將遵從這一提示,這更加明確地顯示了它對引用說明的理解。
評論與建議
這項研究為改進 LLM 生成的答案的事實性和準確性邁出了一步。透過引導提示,LLM 被訓練為從已得到的文字中直接引用訊息,將答案建立在真實的基礎上。然而仍然需要進一步的研究和努力來提高模型的準確性。研究人員已經嘗試避免幻覺,但這並不意味著回答就是絕對正確的。模型的表現仍然取決於其訓練資料的質量,並且網路上的資訊可能具有不同的觀點和錯誤。
對新聞從業者的啟示
這項研究還為新聞業在數位時代保持事實性和準確性提供了重要的教訓。引導 LLM 模型從可靠的原始來源直接引用訊息,可以幫助記者們更好地引用和確認訊息,提高新聞報導的質量。同時新聞從業者也應該繼續適應和應對技術發展,以確保產生的文字元合高標準並提供可靠的訊息。
結論
這項研究提出了一種新的方法,可以幫助大型語言模型生成更有根據的答案,從而減少虛假訊息的生成。透過引導模型從事實資料中直接引用訊息,可以提高回答的準確性和可信度。然而這項研究還處於早期階段,需要進一步的研究和改進。對於新聞從業者來說這也是一個重要的教訓,提醒他們在數位時代需要應對技術發展並維護新聞報導的品質和可靠性。
改進知識基礎
為了使 LLM 從其訓練資料中直接引用可靠資源,研究人員使用並非依賴網際網路的方法。研究人員開發的 LLM 無法存取網際網路,而是單純透過其自身內部的隱含知識——先前觀察到的句子的分布——來回答問題。這一「根據某某」的提示技術可以與各種 LLM 配合使用,無需進行人工調整,研究團隊表示但使用大型模型並與指引調整相結合時效果最好。指導調整是指在與典型的問答對進行訓練的基礎上增加如「用正確答案回答問題」等指令的訓練方式。
提升引用文字的準確性
研究團隊指出,儘管模型生成的文字可能存在於維基百科或其他特定來源,但這並不意味著生成的結果在問題提出方面是正確的。最終模型回答的準確性仍取決於其訓練資料的質量,因此研究團隊考慮了過濾來自不可靠網站的訊息的能力。他們表明,可以在查詢中加入「不引用 XYZ.com」這樣的敦促提示,ChatGPT 將遵從這一提示,這更加明確地顯示了它對引用說明的理解。
評論與建議
這項研究為改進 LLM 生成的答案的事實性和準確性邁出了一步。透過引導提示,LLM 被訓練為從已得到的文字中直接引用訊息,將答案建立在真實的基礎上。然而仍然需要進一步的研究和努力來提高模型的準確性。研究人員已經嘗試避免幻覺,但這並不意味著回答就是絕對正確的。模型的表現仍然取決於其訓練資料的質量,並且網路上的資訊可能具有不同的觀點和錯誤。
對新聞從業者的啟示
這項研究還為新聞業在數位時代保持事實性和準確性提供了重要的教訓。引導 LLM 模型從可靠的原始來源直接引用訊息,可以幫助記者們更好地引用和確認訊息,提高新聞報導的質量。同時新聞從業者也應該繼續適應和應對技術發展,以確保產生的文字元合高標準並提供可靠的訊息。
結論
這項研究提出了一種新的方法,可以幫助大型語言模型生成更有根據的答案,從而減少虛假訊息的生成。透過引導模型從事實資料中直接引用訊息,可以提高回答的準確性和可信度。然而這項研究還處於早期階段,需要進一步的研究和改進。對於新聞從業者來說這也是一個重要的教訓,提醒他們在數位時代需要應對技術發展並維護新聞報導的品質和可靠性。
評論與建議
這項研究為改進 LLM 生成的答案的事實性和準確性邁出了一步。透過引導提示,LLM 被訓練為從已得到的文字中直接引用訊息,將答案建立在真實的基礎上。然而仍然需要進一步的研究和努力來提高模型的準確性。研究人員已經嘗試避免幻覺,但這並不意味著回答就是絕對正確的。模型的表現仍然取決於其訓練資料的質量,並且網路上的資訊可能具有不同的觀點和錯誤。
對新聞從業者的啟示
這項研究還為新聞業在數位時代保持事實性和準確性提供了重要的教訓。引導 LLM 模型從可靠的原始來源直接引用訊息,可以幫助記者們更好地引用和確認訊息,提高新聞報導的質量。同時新聞從業者也應該繼續適應和應對技術發展,以確保產生的文字元合高標準並提供可靠的訊息。
結論
這項研究提出了一種新的方法,可以幫助大型語言模型生成更有根據的答案,從而減少虛假訊息的生成。透過引導模型從事實資料中直接引用訊息,可以提高回答的準確性和可信度。然而這項研究還處於早期階段,需要進一步的研究和改進。對於新聞從業者來說這也是一個重要的教訓,提醒他們在數位時代需要應對技術發展並維護新聞報導的品質和可靠性。
結論 這項研究提出了一種新的方法,可以幫助大型語言模型生成更有根據的答案,從而減少虛假訊息的生成。透過引導模型從事實資料中直接引用訊息,可以提高回答的準確性和可信度。然而這項研究還處於早期階段,需要進一步的研究和改進。對於新聞從業者來說這也是一個重要的教訓,提醒他們在數位時代需要應對技術發展並維護新聞報導的品質和可靠性。
Languagemodel-大型語言模型、答案生成、現實基礎、技術創新
延伸閱讀
- Meta 推出的 AI 工具現在能夠創造全新的影象,而非僅僅是更換背景
- 突破獨家訪談:Wayve 共同創辦人 Alex Kendall 談自動駕駛汽車和機器人的未來
- 神計公司的人性化、保鮮的漁獲技術可能顛覆海產業
- Xaira:AI 藥物發現新創公司以 10 億美元巨額啟動,宣稱已準備好開展藥物開發
- 資料軟體新創 Dripos 獲得 1100 萬美元 A 輪融資,將取代 Square、Toast 和其他 8 款軟體
- 30+新創公司亮相,HAX 5 月 1 日 Demo Day 展示
- 神經概念如何改變了 F1 賽車空氣動力學
- TechCrunch Early Stage 2024:技術創業家的力量
- 人工智慧與資料基礎設施推動開源新創公司需求
- 大型語言模型可幫助家庭機器人在無需人類幫助的情況下恢復錯誤