電腦科學家釋出評估人工智慧生成的文字的指南
概述
人工智慧生成的文字技術的釋出引起了極大的爭議,既有人歡迎這一技術成為溝通的重大飛躍也有人預言這一技術可能帶來嚴重的影響。然而人工智慧生成的文字常常存在問題,且在確保準確性的方面,人工評估仍然是金標準,特別是在生成複雜文字摘要的應用上。然而對於生成複雜文字摘要的人工評估,當前還沒有被廣泛接受的標準,這意味著即使金標準也存有疑問。為理解決這個問題,由麻省大學阿姆斯特分校(UMass Amherst)的曼寧資訊和電腦科學學院的研究生卡爾佩什·克裏希納(Kalpesh Krishna)領導的一組電腦科學家剛剛發布了一套名為 LongEval 的指南。這套指南在歐洲計算語言學協會歐洲分會上發表,並獲得了優秀論文獎。
現狀分析
克裏希納和他的團隊研究了 162 篇有關長篇總結的論文,以理解人工評估的工作方式,並發現 73%的論文根本沒有對長篇摘要進行人工評估,其餘的論文則使用了各種不同的評估方法。UMass Amherst 的電腦科學助理教授莫希特·伊耶爾(Mohit Iyyer)表示:“這種缺乏標準的情況很棘手,因為它阻礙了可重現性,並且不允許對不同系統進行有意義的比較。”為了實現對 AI 生成摘要的有效、可重現和標準化的人工評估協議的目標,克裏希納和他的合著者制定了三項全面的建議,涵蓋評估者應該如何閱讀以及如何判斷摘要的可靠性。
指南內容
這套指南名為 LongEval,有助於為使用人工智慧生成的長篇摘要的算法進行準確且快速的人工評估。作者表示他們已將 LongEval 設計得非常易於使用,並以 Python 庫的形式發布。他們期待研究界能夠在此基礎上進一步研究並將 LongEval 應用到他們的研究中。研究結果已經在 arXiv 預印本服務上發表。
意見與建議
AI 生成的文字技術的快速發展帶來了許多值得關注的問題,特別是在長篇摘要的應用中,準確性和可靠性至關重要。然而缺乏評估標準使得這一技術的發展受到阻礙。LongEval 的釋出為評估 AI 生成的長篇摘要提供了一套標準和指導,有望提高長篇摘要算法的準確性和效率。
然而評估人工智慧生成的文字並非一個容易解決的問題。長篇摘要在準確性、完整性和可讀性等方面都需要進行評估,且評估過程需要保持客觀和一致性。評估者需要評估文字是否無誤、是否適當地涵蓋了原始文字的關鍵訊息以及是否具有讀者友好的風格和結構。
在未來的研究中,研究者們應該廣泛採用 LongEval 的指南,並結合人工智慧生成的文字的特點和應用場景,來不斷改進和完善評估方法。同時建立一個公開、多方參與的評估標準和指南,將有助於促進評估方法的一致性和可比性。
報道來源:科技探索
延伸閱讀
- 今年的 Met Gala 主題是 AI 極深假裝
- Y Combinator 幫助醫療記錄 AI 新創 Hona 募得 300 萬美元 的故事
- Pinterest AI 打造的拼貼圖比單張針腳更吸睛
- Atlassian 推出新的 AI 同事 Rovo
- 三星的營運利潤飆升 930%,AI 動能帶動記憶晶片需求
- GitHub 推出 Copilot Workspace:AI 驅動的軟體工程空間
- 「馬斯克的 xAI 示範 AI 新創公司的龐大市場潛力」
- 照片分享社群 EyeEm 將許可使用者的照片以訓練 AI,如果使用者不刪除照片
- 英偉達收購 AI 工作負載管理新創公司 Run:ai
- 英國調查亞馬遜和微軟與 Mistral、Anthropic 和 Inflection 的 AI 合作關係