使用大規模資料集研究人們如何與自然語言模型互動

使用百萬筆真實對話資料集，研究人們如何與大型語言模型互動研究團隊利用大規模對話資料集探討人們與大型語言模型（LLM）的互動方式加州大學柏克萊分校的電腦科學家團隊，與加州大學聖地亞哥分校和卡內基梅隆大學的合作夥伴，建立了一個包含一百萬筆真實對話的大規模資料集，以研究人們與大型語言模型（LLMs）的互動 .... (往下繼續閱讀)

by 江塵
2023/10/17
7 分鐘閱讀時間

A- A A+

文章目錄

使用百萬筆真實對話資料集，研究人們如何與大型語言模型互動

研究團隊利用大規模對話資料集探討人們與大型語言模型（LLM）的互動方式

加州大學柏克萊分校的電腦科學家團隊，與加州大學聖地亞哥分校和卡內基梅隆大學的合作夥伴，建立了一個包含一百萬筆真實對話的大規模資料集，以研究人們與大型語言模型（LLMs）的互動方式。他們在 arXiv 預印本伺服器上發表了一篇關於他們的工作和發現的論文。

在過去幾年中，像 ChatGPT 這樣的 LLMs 已經進入了公眾領域，使全球的使用者有機會與由人工智慧支援的聊天機器人互動。這種使用方式已經導致數百萬次“智慧”的人機對話，不僅涉及討論，還包括了程式設計、文字寫作和考試等活動的幫助。

研究目的：瞭解人們如何與 AI 聊天機器人互動的類別分佈

在這個新研究中，研究團隊想要瞭解人們與 AI 聊天機器人的互動中，不同類別的用途所佔的比例，例如，這些對話中有多少是有關程式設計或相關主題的。為了獲取答案，他們獲得了 25 個 AI 聊天機器人與使用者之間的一百萬筆真實對話文字，並根據主題進行了分析。這些對話的範圍涵蓋全球，涉及講述 150 種語言的人們與他們的聊天機器人的互動。

為了更深入地理解這些對話的性質，研究人員使用了一個程式隨機選取了其中的十萬筆對話進行研究。研究團隊發現，大約一半的 AI 聊天機器人對話集中在他們形容的“安全”主題上，例如計算機程式設計、幫助寫作文字，甚至園藝等，其中最熱門的主題是解決軟體錯誤和提供解決方案。

他們還發現，大約 10%的對話涉及他們描述為“不安全”主題的內容，例如包含性或暴力內容的對話。例如，他們發現很多人要求他們的聊天機器人提供情色故事或與他們參與性角色扮演。

研究的意義：幫助制定使用 LLMs 的方法和檢驗防止“不安全”使用的控制方法

研究團隊建議，研究真實世界中的 LLM/人類對話可以幫助這類系統的開發者明確他們希望產品如何被使用，並理解旨在防止產品“不安全”使用的控制策略的有效性。

這項研究的結果提供了有關人們如何與 AI 聊天機器人互動的寶貴洞察，並為開發人工智慧相關產品提供了重要的參考，尤其是在制定設計控制和應對問題方面。這些發現對於促使人機對話的健康和尊重相當重要。

總結

這項研究利用大規模真實對話資料集來研究人們如何與大型語言模型互動。研究團隊發現，大多數人與 AI 聊天機器人的對話是“安全”的，涉及程式設計、文字寫作和其他實用主題。然而他們還發現了一部分對話涉及性或暴力內容，這引發了如何設計和管理這些 AI 系統的問題。

這項研究的重要性在於幫助開發人工智慧相關產品的開發者理解人們使用這些系統的方式，並改善相關的設計和控制措施。我們應該保持警覺，確保 AI 系統在人機對話和互動中起到積極和有益的作用，同時避免不當和不安全的使用，尤其是在與性和暴力內容相關的對話中。

誠然，大型語言模型與人們之間的互動在科技發展中佔據了重要的位置，但我們也必須認識到其中的風險和挑戰。隨著這項研究的發現，我們應該引起更多人的關注，並共同努力建立一個有節制和尊重的人機對話環境。

NaturalLanguageProcessing-大規模資料集,研究,人們,自然語言模型,互動

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集

使用大規模資料集研究人們如何與自然語言模型互動

文章目錄

使用百萬筆真實對話資料集，研究人們如何與大型語言模型互動

研究團隊利用大規模對話資料集探討人們與大型語言模型（LLM）的互動方式

研究目的：瞭解人們如何與 AI 聊天機器人互動的類別分佈

研究的意義：幫助制定使用 LLMs 的方法和檢驗防止“不安全”使用的控制方法

總結

延伸閱讀

研究發現：深度神經網路和我們的視覺方式不同

什麼是 Wi-Fi 7？你真的需要嗎？

江塵