市場觀察

Google 如何教會 AI 猶豫不決

Google 如何教會 AI 懷疑自己 AI 推測引發的困境去年聊天機器人上線時，製造者們就告訴我們不要相信它們。像是 ChatGPT 這樣的工具生成的文字並不來自建立好的事實資料庫。相反，聊天機器人是具有預測性的，它們根據其底層大型語言模型訓練的龐大文字語料庫，對哪些詞語合適作出機率猜測。因此聊天機 .... (往下繼續閱讀)

by 程宇肖
2023/9/20
13 分鐘閱讀時間

A- A A+

文章目錄

Google 如何教會 AI 懷疑自己

AI 推測引發的困境

去年聊天機器人上線時，製造者們就告訴我們不要相信它們。像是 ChatGPT 這樣的工具生成的文字並不來自建立好的事實資料庫。相反，聊天機器人是具有預測性的，它們根據其底層大型語言模型訓練的龐大文字語料庫，對哪些詞語合適作出機率猜測。因此聊天機器人往往「自信地錯誤」，這是業界的一個術語。這甚至可以讓受過高度教育的人誤信，就像我們今年看到的那位律師向法庭提交了 ChatGPT 生成的引證，卻沒有意識到每個案例都是完全虛構的。這就是為什麼我認為聊天機器人作為研究助手基本是沒什麼用的原因。它們會告訴你任何你想要知道的東西，通常會在幾秒鐘內完成，但在大多數情況下不會引用自己的工作。因此你最終會花很多時間研究它們的答案，以確保它們是否真實，這往往對使用它們的目的毫無意義。

Google 的改進：Bard 的雙重檢查

Google 在今年年初推出的 Bard 機器人在聊天回答中加入了一個「Google 搜一下」的按鈕，將你的查詢提交給 Google 搜尋引擎。這使得獲得第二意見略快一些，但仍然將確保真假的責任完全放在你身上。不過從本週開始，Bard 將為你多做一些工作。宕機器人回答你的一個查詢後，點選 Google 按鈕將對你的回答進行「雙重檢查」。Google 在一篇博文中對此進行理解釋：

當你點選「G」圖示時，Bard 將閱讀回答並評估網路上是否有內容來支援它。當一個陳述可以評估時，你可以點選突顯的詞語，理解搜尋結果找到的支援或相反的訊息。

雙重檢查一個查詢後，回答中的許多句子會變綠或棕色。綠色突顯的回答連結到引證的網頁上；將滑鼠懸停在其中一個上，Bard 將顯示訊息的來源。棕色突顯的回答表示 Bard 不知道訊息來自哪裡，表明有可能出現錯誤。例如，當我對樂隊 Radiohead 的歷史問了 Bard 一個問題時，它給了我許多綠色突顯的句子，與我自己的知識相符。但它還將這句話設定為棕色突顯：“他們贏得了許多獎項，包括六個格萊美獎和九個英國音樂獎。”將滑鼠懸停在這些詞語上時，顯示 Google 搜尋出現了相互矛盾的訊息；事實上 Radiohead（令人不解）從來沒有贏得過一項英國音樂獎，更不要說九項了。

AI 自我懷疑的思考

Google 團隊在 Bard 機器人中加入這一功能的意圖是讓 AI 懷疑自己的回答，以防止聊天機器人隨意捏造事實。這可以認為是機器學習中一個哲學上的突破。AI 通常被認為是資料驅動的，依靠大量的訓練資料和模式識別來生成預測。然而 AI 是否能夠懷疑自己的預測，進一步檢驗其生成的文字是否可靠，是一個根本性問題。正如該篇文章所提到的，現在的聊天機器人往往是「自信錯誤」，即使是那些受過高度教育的人也會被他們所愚弄。這對於 AI 的可靠性和可信度來說是一個巨大挑戰。

研究助手的未來展望

雖然 Bard 的雙重檢查是一個值得歡迎的進展，但它仍然需要你查閱所有這些引證，確保 Bard 正確解讀了這些搜尋結果。至少在進行研究時，人類仍然要像 AI 一樣負責。然而這是一個值得展望的發展方向。「我們可能創造了第一個承認自己犯錯誤的語言模型」，Bard 負責人 Jack Krawczyk 在接受存取時告訴我。考慮到這些模型的逐步改進，確保 AI 模型能夠準確承認自己的錯誤應該成為該行業的首要任務。

除了對 Bard 的雙重檢查，該篇文章還提到，Bard 最近還進行了另一次重大更新：它現在可以存取你的 Gmail、檔案、Drive 和一些其他 Google 產品，包括 YouTube 和地圖。外掛使你能夠實時搜尋、總結和對你在 Google 帳戶中儲存的檔案提問。不過它當前只限於個人帳戶，這在很大程度上約束了它的效用。雖然 Bard 在作為一個替代的網頁瀏覽方式時有一定的趣味性，例如，當我要求它向我展示一些關於室內設計入門的好影片時，它表現得很好。（能夠在 Bard 的答案視窗中直接播放這些影片是一個很好的亮點。）但外掛在其他情況下也會出現失誤，而且這裡沒有按鈕可以按來改善結果。

AI 自我檢查的問題

從長遠來看，AI 最終能夠多好地檢驗自己的工作是一個很大的問題。在這一點上，將聊天機器人引導到正確答案仍然很大程度上取決於輸入指令的人。在這個時刻，需要工具來迫使 AI 引用自己的工作。然而希望的是，未來能夠更多地讓這種工作落在工具本身的身上，而不是總是需要我們提出要求。

社論和建議

AI 的可靠性和可信度

AI 在當前世界中發揮著越來越重要的作用。然而作為一種智慧工具，AI 的可靠性和可信度至關重要。聊天機器人和語言模型在各種應用場景中都具有巨大的潛力，但它們的「自信錯誤」現象是一個嚴重的問題。這種情況不僅損害了 AI 的可靠性，還可能對人類產生嚴重影響。因此我們需要更多像 Bard 這樣的工具，以幫助 AI 檢查自己的工作並糾正錯誤。

人類與 AI 的合作

當前 AI 仍然需要人類的協助來確保其生成的結果的可信度和可靠性。人類在 AI 生成的文字上進行二次檢查和取證是必要的。然而隨著技術的發展，我們希望 AI 能夠更加自主地檢查和證實其生成的結果。這將使 AI 更加可靠並提高其在各個領域的應用價值。

對 AI 的懷疑和監管

AI 技術的快速發展給我們帶來了巨大的便利和可能性，但同時也帶來了一些擔憂和風險。面對 AI 的懷疑，我們應該加固對其監管和規範：確保 AI 的執行是透明和可解釋的，並且我們必須遵循道德和法律原則。只有這樣，我們才能確保 AI 技術的持續發展和應用能夠益於人類的利益。

結論

AI 技術的發展需要我們不斷思考和探索。在 AI 學習如何懷疑自己和檢查自己的工作方面取得進展是重要的一步。Bard 機器人為我們提供了一個值得注意的例子，它不僅為 AI 生成的答案提供了雙重檢查，還引發了我們對 AI 的思考。這是一個持續關注並完善的領域，我們期待著更多創新和改進的出現，以確保 AI 技術能更好地服務於人類和社會的利益。

Indecision-Google,AI,猶豫不決,機器學習,人工智慧

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集