視覺類比對於人工智慧的重要性
什麼是智慧?
科學家長期以來一直苦惱於人工智慧領域最基本的問題:什麼是智慧?這個問題對於 AI 研究者來說始終沒有確保的答案。GPT-4 等 AI 模型的出現更加凸顯了這種不確保性:一些研究人員認為 GPT 模型體現了真正的智慧,但也有人持不同意見。為理解決這些爭議,我們需要確切的任務來界定和測試智慧的概念,這就是聖塔費研究所(Santa Fe Institute)的阿爾森尼·莫斯基葉夫(Arseny Moskvichev)、梅蘭妮·米切爾(Melanie Mitchell)和維克多·維克拉姆·奧杜爾(Victor Vikram Odouard)在一篇即將發表在《機器學習研究交易》期刊上的新論文中主張。
視覺類比測試人工智慧
為了證實他們的觀點,該團隊建立了一系列基於 Google 研究人員弗朗索瓦·謝列(François Chollet)所開發領域的評估謎題,這些謎題集中在視覺類比推理上,涉及到以下基本概念:上方、下方、中心、內部和外部。測試者(包括人類和 AI)會被展示幾個展示概念的圖案,然後被要求將這些概念應用到不同的影象中。研究中的下圖展示了關於"相同性"概念的測試例子。結果顯示,這些視覺謎題對於人類來說非常容易,例如,他們在"相同性"測試中的正確率達到了 88%。然而 GPT-4 卻只有 23%的正確率,這表明當前 AI 程式在視覺抽象推理方面仍然表現比人類差很多。
"我們很多時候是透過類比來推理,這就是為什麼這個問題如此有趣的原因,"莫斯基葉夫說。該團隊使用了這些新穎的視覺謎題,確保機器以前沒有遇到過這些概念。GPT-4 是透過訓練大量的網路資料來進行學習的,因此避免讓它接觸到已經存在的內容是非常重要的,這樣才能確保它不僅僅是重復現有的文字,而是真正理解了這些概念。所以,最近 AI 在模擬律師考試中取得良好成績並不是評估其真正智慧的好方法。
不斷改進的評估方法
該團隊認為,隨著時間的推移和 AI 算法的改進,開發評估方法將變得越來越困難且更加重要。我們不應該試圖創造一個測試 AI 智慧的方法,而應該設計更加精心策劃的資料集,專注於智慧的特定方面。莫斯基葉夫說:"我們的算法越好,就越難弄清楚它們能做什麼和不能做什麼,所以在開發評估資料集時,我們需要非常謹慎。"
評論和建議
這項研究凸顯了人工智慧發展中一個重要的挑戰:確保 AI 是否真正具備智慧。雖然 AI 模型像 GPT-4 已經取得了長足的進步,但在視覺抽象推理能力上,它們仍然遠遠落後於人類。這意味著我們需要更加努力地研究和開發新的方法來測試和評估 AI 的智慧程度。
同時我們也需要明確智慧的定義,並從不同的角度來設計評估方法,而不僅僅依賴於單一的測試。這樣可以更全面地理解 AI 的能力,並推動 AI 技術的發展。
此外這項研究還提醒我們,開發評估資料集時需要謹慎選擇並考慮 AI 算法的特點。隨著算法的不斷改進,評估方法也需要不斷進化,以確保對 AI 智慧的評估能夠跟上技術的發展步伐。
總而言之,本研究提醒我們在 AI 研究和應用中仍然存在著許多挑戰和未解決的問題。要實現真正的智慧,我們需要不斷探索和改進,並運用跨學科的知識來解決這些問題。
延伸閱讀
- OpenAI 揭開 AI 祕密指令的面紗
- AI 助您創辦者更快、更輕鬆地籌集資金嗎?
- 盧西德機器人獲得 900 萬美元用於無人機清潔任何地方
- 以色列新創公司 Panax 籌集了 1,000 萬美元 A 輪融資,用於其基於人工智慧的現金流管理平臺
- Reddit 測試使用基於 LLM 的人工智慧進行自動整站法語翻譯
- Atlan 籌集了 1.05 億美元,其資料控制平面的重要性得到提升
- 三星醫聲將以 9270 萬美元收購法國人工智慧超聲波新創公司 Sonio
- 網際網路共同創始人 Robert Kahn 早在幾十年前就已經做到了加密、人工智慧和網際網路嗎?
- 人聲 vs AI:Audible 推出 AI 旁白有機會取代人類旁白嗎?
- 突破獨家訪談:Wayve 共同創辦人 Alex Kendall 談自動駕駛汽車和機器人的未來