
電腦科學家釋出評估人工智慧生成的文字的指南
概述
人工智慧生成的文字技術的釋出引起了極大的爭議,既有人歡迎這一技術成為溝通的重大飛躍也有人預言這一技術可能帶來嚴重的影響。然而人工智慧生成的文字常常存在問題,且在確保準確性的方面,人工評估仍然是金標準,特別是在生成複雜文字摘要的應用上。然而對於生成複雜文字摘要的人工評估,當前還沒有被廣泛接受的標準,這意味著即使金標準也存有疑問。為理解決這個問題,由麻省大學阿姆斯特分校(UMass Amherst)的曼寧資訊和電腦科學學院的研究生卡爾佩什·克裏希納(Kalpesh Krishna)領導的一組電腦科學家剛剛發布了一套名為 LongEval 的指南。這套指南在歐洲計算語言學協會歐洲分會上發表,並獲得了優秀論文獎。
現狀分析
克裏希納和他的團隊研究了 162 篇有關長篇總結的論文,以理解人工評估的工作方式,並發現 73%的論文根本沒有對長篇摘要進行人工評估,其餘的論文則使用了各種不同的評估方法。UMass Amherst 的電腦科學助理教授莫希特·伊耶爾(Mohit Iyyer)表示:“這種缺乏標準的情況很棘手,因為它阻礙了可重現性,並且不允許對不同系統進行有意義的比較。”為了實現對 AI 生成摘要的有效、可重現和標準化的人工評估協議的目標,克裏希納和他的合著者制定了三項全面的建議,涵蓋評估者應該如何閱讀以及如何判斷摘要的可靠性。
指南內容
這套指南名為 LongEval,有助於為使用人工智慧生成的長篇摘要的算法進行準確且快速的人工評估。作者表示他們已將 LongEval 設計得非常易於使用,並以 Python 庫的形式發布。他們期待研究界能夠在此基礎上進一步研究並將 LongEval 應用到他們的研究中。研究結果已經在 arXiv 預印本服務上發表。
意見與建議
AI 生成的文字技術的快速發展帶來了許多值得關注的問題,特別是在長篇摘要的應用中,準確性和可靠性至關重要。然而缺乏評估標準使得這一技術的發展受到阻礙。LongEval 的釋出為評估 AI 生成的長篇摘要提供了一套標準和指導,有望提高長篇摘要算法的準確性和效率。
然而評估人工智慧生成的文字並非一個容易解決的問題。長篇摘要在準確性、完整性和可讀性等方面都需要進行評估,且評估過程需要保持客觀和一致性。評估者需要評估文字是否無誤、是否適當地涵蓋了原始文字的關鍵訊息以及是否具有讀者友好的風格和結構。
在未來的研究中,研究者們應該廣泛採用 LongEval 的指南,並結合人工智慧生成的文字的特點和應用場景,來不斷改進和完善評估方法。同時建立一個公開、多方參與的評估標準和指南,將有助於促進評估方法的一致性和可比性。
報道來源:科技探索
延伸閱讀
- AI 與影片履歷助力初入職場的新鮮人找到工作!
- OpenAI 的創意寫作 AI 讓人想起高中文學社那個討人厭的孩子
- 亞馬遜成立新型代理 AI 團隊,將如何改變科技未來?
- 「搶先報名!TechCrunch Sessions: AI 演講者申請截止日期迫在眉睫!」
- MWC 最新報導:AI 影響力的兩極化觀點首次曝光!
- 亞馬遜新推出 Alexa+:為孩子們帶來 AI 驅動的「探索」與「故事」新功能!
- Bridgetown Research 載著 AI 助力,成功募資 1900 萬美元加速盡職調查!
- Nomagic 獲得 4400 萬美元資金,AI 驅動的機器手臂技術將改變未來!
- 全方位理解 Anthropic 的 AI:揭開 Claude 的神祕面紗!
- 微軟刪除 AI 資料中心租賃,背後原因何在?