為什麼不可能評估人工智慧以及為什麼 TechCrunch 還要進行評估
作者為:Devin Coldewey | 作者來源:TechCrunch | 發表時間:8 小時前
不可能的評估
人工智慧模型數量眾多,範疇廣泛,充滿神祕性。新模型不斷推出,速度極快,幾乎無法真正全面評估其優缺點。例如,ChatGPT 或 Gemini 等模型因其多樣性和頻繁更新而使評估框架難以保持相關性。人工智慧公司欣喜其不能被真正評估,因為這意味著除了公司自身的宣稱外,消費者沒有其他真正可信的來源。
評論的重要性
盡管評論會受到約束和不一致,對這些模型進行定性分析在實際世界中對於對抗業界炒作有內在價值。即使評論無法全面,但可以作為業界炒作的一種平衡。
我們的方法
我們的測試方法是為了獲取並報告對人工智慧能力的一般感知,而無需深入探討難以捉摸和不可靠的細節。
評審人工智慧
我們已經設計了一系列提示,這些提示是通常一致的,並正在不斷更新。這些提示的目的是理解人工智慧的能力,包括:
- 詢問最近一個月內發生的新聞
- 詢問關於某個具爭議性的問題意見
- 詢問 AI 內容生成和分析結構化檔案的能力
我們將回顧測試中的幾十個問題和跟進問題,並將我們的經驗歸納到評輯中,概述模型在測試期間表現良好、不佳、奇特或未完成的方面。
Technology-人工智慧,評論,技術,TechCrunch
延伸閱讀
- 元 AI 測試:未能彰顯自身價值,但免費就是免費
- Google 推出新功能“口語練習”,利用人工智慧幫助使用者提高英文能力
- 科技巨頭 xAI 競爭開放人工智慧,吸金 60 億美元。推動社交網路 X 成為股東
- Google Cloud 迎來晴天
- Xaira:AI 藥物發現新創公司以 10 億美元巨額啟動,宣稱已準備好開展藥物開發
- 安德瑞爾在五角大樓計畫中推進無人駕駛戰鬥機的程式
- Rabbit 宣布推出一個迷人的小型 AI 裝置:R1
- Perplexity AI 可能價值高達 30 億美元,原因在於…
- 基於人工智慧時代,Anon 正在打造自動化認證層 - 技術新聞
- Snowflake 推出自家旗艦生成式人工智慧模型