#基準測試

9 篇文章

xAI 關於 Grok 3 基準測試的謊言揭祕:真相究竟如何?
841

xAI 關於 Grok 3 基準測試的謊言揭祕:真相究竟如何?

虛實之間:xAI 的 Grok 3 基準測試風波謊言與誠實的邊緣在人工智慧快速發展的今日,大型企業是否敢於公開其產品的真實效能,成為業界討論的焦點。xAI 近期針對其最新推出的 Grok 3 進行的基準測試引發了廣泛的爭議,許多人質疑該公司是否對外界提供了真實資料。xAI 的宣告:真實

深度探索聲稱其推理模型在特定基準測試中超越 OpenAI 的 o1!
1070

深度探索聲稱其推理模型在特定基準測試中超越 OpenAI 的 o1!

AI 深度探索在基準測試中超越 OpenAI 的新推理模型引言:人工智慧的競爭新篇章隨著人工智慧技術的高速發展,各大科技公司不斷在推理模型的優劣之間展開激烈競爭。最近,AI 深度探索(AI DeepSeek)宣稱其推理模型在某些基準測試中優於業界知名的 OpenAI 的 o1 系統,這

「AI 研究者 François Chollet 攜手創辦非營利組織,打造 AGI 基準測試!」
1187

「AI 研究者 François Chollet 攜手創辦非營利組織,打造 AGI 基準測試!」

AGI 基準測試的未來:François Chollet 的非營利倡議導言在急速發展的人工智慧領域,精確的評估標準對於測量技術進步至關重要。最近,知名 AI 研究者 François Chollet 宣布他將共同創辦一個非營利組織,旨在建立通用人工智慧(AGI)的基準測試。關於 Fra

Anthropic 尋求資助新一代更全面的人工智慧基準測試
2068

Anthropic 尋求資助新一代更全面的人工智慧基準測試

人工智慧的基準測試與資助科技與人工智慧的發展隨著科技的快速發展,人工智慧在眾多領域扮演越來越重要的角色。然而隨之而來的問題是人工智慧如何被測試和評估,以確保其符合倫理和法律標準。現有的基準測試和資助問題當前世界上缺乏全面的人工智慧測試標準。這意味著人工智慧的應用時常缺乏一致性和標準性,這對於整個產業

用高效 AI 測試健康任務!Hugging Face 釋出基準測試
2224

用高效 AI 測試健康任務!Hugging Face 釋出基準測試

Hugging Face 推出醫療任務生成式 AI 基準測試作者: | 日期:2024 年 4 月 19 日挑戰與評估醫療生成式 AI 的必要性生成式 AI 模型正日益進入醫療領域,一些早期採用者相信它們將提高效率,並發現否則可能被忽略的見解。但批評者指出,這些模型存在缺陷和偏見,可能導致較差的健康

為什麼大多數人工智慧基準測試結果如此不足見解
2324

為什麼大多數人工智慧基準測試結果如此不足見解

人工智慧基準測試的不足之處 當前局勢分析 在週二,新創企業 Anthropic 推出了一系列的生成式人工智慧模型,聲稱達到了業內最佳表現。僅僅幾天後,競爭對手 Inflection AI 也推出了一個模型,聲稱幾乎能夠與包括 OpenAI 的 GPT-4 在內的一些最強大模型媲美。Anthrop

研究人員開發了用於超級計算機的開源混合精度基準測試工具
2278

研究人員開發了用於超級計算機的開源混合精度基準測試工具

研究人員為超級計算機開發開源混合精度基準測試工具 2023 年 9 月 25 日,《科學熱訊》(Science X)報導,美國奧克崗國家實驗室(Oak Ridge National Laboratory)的 Analytics and AI Methods at Scale 團隊開發了混合精度效能測試

研究人員為超級電腦開源開發混合精度基準測試工具
2260

研究人員為超級電腦開源開發混合精度基準測試工具

研究人員開發開源混合精度基準測試工具,用於超級電腦背景介紹在 2021 年,當世界上第一臺 Exascale 超級電腦 Frontier 在奧克嶺國家實驗室的領導計算設施進行組裝時,對於它在混合精度計算上的效能理解仍然是一個困難的問題。這種理解上的空白不是因為疏忽,而是反映了在計算科學領域中,以雙精

MLPerf 3.1 引入大型語言模型基準測試,挑戰推理能力
2125

MLPerf 3.1 引入大型語言模型基準測試,挑戰推理能力

MLCommons 近日宣布,他們將 MLPerf AI 基準測試套件擴充套件至大型語言模型(LLMs)的推理能力測試,並新增了用於機器學習工作負載的儲存系統效能基準測試。MLCommons 是一個中立、多利益相關者組織,旨在透過 MLPerf 基準測試提供公平的報告平臺,讓廠商能夠報告人工智慧效能

«12»