為什麼不可能評估人工智慧以及為什麼 TechCrunch 還要進行評估
作者為:Devin Coldewey | 作者來源:TechCrunch | 發表時間:8 小時前
不可能的評估
人工智慧模型數量眾多,範疇廣泛,充滿神祕性。新模型不斷推出,速度極快,幾乎無法真正全面評估其優缺點。例如,ChatGPT 或 Gemini 等模型因其多樣性和頻繁更新而使評估框架難以保持相關性。人工智慧公司欣喜其不能被真正評估,因為這意味著除了公司自身的宣稱外,消費者沒有其他真正可信的來源。
評論的重要性
盡管評論會受到約束和不一致,對這些模型進行定性分析在實際世界中對於對抗業界炒作有內在價值。即使評論無法全面,但可以作為業界炒作的一種平衡。
我們的方法
我們的測試方法是為了獲取並報告對人工智慧能力的一般感知,而無需深入探討難以捉摸和不可靠的細節。
評審人工智慧
我們已經設計了一系列提示,這些提示是通常一致的,並正在不斷更新。這些提示的目的是理解人工智慧的能力,包括:
- 詢問最近一個月內發生的新聞
- 詢問關於某個具爭議性的問題意見
- 詢問 AI 內容生成和分析結構化檔案的能力
我們將回顧測試中的幾十個問題和跟進問題,並將我們的經驗歸納到評輯中,概述模型在測試期間表現良好、不佳、奇特或未完成的方面。
Technology-人工智慧,評論,技術,TechCrunch
延伸閱讀
- 三星醫聲將以 9270 萬美元收購法國人工智慧超聲波新創公司 Sonio
- 網際網路共同創始人 Robert Kahn 早在幾十年前就已經做到了加密、人工智慧和網際網路嗎?
- 人聲 vs AI:Audible 推出 AI 旁白有機會取代人類旁白嗎?
- 突破獨家訪談:Wayve 共同創辦人 Alex Kendall 談自動駕駛汽車和機器人的未來
- Rad AI 完成由 Khosla Ventures 領投的 5 千萬美元 B 輪融資
- 「Meta AI 對印度男性生成影象時偏好頭巾」
- 「新機、Techstars,和當新創加速器失敗時會發生什麼」+ TechCrunch 每分鐘
- Alphabet 旗下 Intrinsic 將 Nvidia 技術融入機器人平臺
- Quora CEO Adam D’Angelo 分享人工智慧和聊天機器人平臺 Poe,並解釋為何 OpenAI 並非競爭對手
- 在 AI 領域的女性:Tara Chklovski 正在教導下一代的 AI 創新者