
一個開源測試框架
Giskard 是一家法國新創企業,致力於開發用於大型語言模型的開源測試框架。該框架能夠警告開發人員存在偏見風險,安全漏洞以及模型生成有害或毒素內容的風險。儘管人工智慧(AI)模型周圍存在大量炒作,但隨著歐盟即將強制實施《AI 法案》以及其他國家的法規,機器學習(ML)測試系統也將迅速成為熱門話題。開發 AI 模型的公司將不得不證實他們符合一套規則並減輕風險,以免支付高昂的罰款。
測試框架的三個元件
Giskard 的測試框架背後有三個元件。首先該公司釋出了一個開源的 Python 庫,可以整合到語言模型(LLM)專案中,尤其是應用於 retrieval-augmented generation(RAG)專案。該庫在 GitHub 上相當受歡迎,並且與 ML 生態系統中的其他工具相容,例如 Hugging Face、MLFlow、Weights & Biases、PyTorch、Tensorflow 和 Langchain。在初始設定完成後,Giskard 將幫助生成一個測試套件,該套件將定期用於您的模型。這些測試涵蓋了各種問題,例如效能,幻覺,錯誤訊息,非事實性輸出,偏見,資料泄漏,生成有害內容和提示注入。開發人員隨後可以將這些測試整合到持續整合和持續交付(CI/CD)流程中,以便每次程式碼庫有新迭代時執行測試。如果出現問題,開發人員可以在其 GitHub 儲存庫中收到掃描報告。測試是根據模型的最終用例定製的。正在開發 RAG 的公司可以向 Giskard 提供向量資料庫和知識庫的存取許可權,以便測試套件盡可能與之相關。例如,如果您正在建立一個聊天機器人,根據 IPCC 的最新報告以及使用來自 OpenAI 的 LLM,Giskard 的測試將檢查該模型是否能生成有關氣候變化的錯誤訊息,是否自相矛盾等。
Giskard 的其他產品
Giskard 的第二個產品是 AI 品質中心,可幫助您偵錯大型語言模型並將其與其他模型進行比較。該品質中心是 Giskard 的高級產品的一部分。未來,該新創企業希望能夠生成證實模型符合法規的檔案。Giskard 的第三個產品名為 LLMon。這是一個實時監控工具,可以在將回復傳送給使用者之前評估 LLM 的答案是否存在最常見問題(毒性、幻覺、事實檢查等)。當前它可以與使用 OpenAI 的 API 和 LLM 作為基礎模型的公司一起使用,但公司正在與 Hugging Face、Anthropic 等進行整合。
監管應用案例
監管 AI 模型有幾種方法。根據與 AI 生態系統中的人交談,當前尚不清楚《AI 法案》是否適用於 OpenAI、Anthropic、Mistral 等的基礎模型,或僅適用於應用案例。在後者的情況下,Giskard 似乎特別適合提醒開發人員關於擴充了外部資料(或者,正如 AI 研究人員所稱,retrieval-augmented generation 或 RAG)的 LLM 的潛在誤用。當前有 20 人在 Giskard 工作。Combessie 表示:“我們發現我們的產品在 LLM 上與客戶有非常明確的適配,因此我們將將團隊規模快速擴大,成為市場上最好的 LLM 防病毒軟體。”
在 AI 技術的不斷發展過程中,監管和測試機器學習模型變得至關重要。Giskard 的開源框架提供了一種創新並及時的解決方案,以應對所面臨的挑戰。在這一程式中,業界應積極支援並適應政府以及行業標準的相關監管。
總而言之,Giskard 對於加固 AI 模型的監管和測試提供了一個前所未有的解決方案。
原始文章連結: [Giskard open-source framework evaluates AI models before they’re pushed into production](https://techcrunch.com/2022/10/15/giskard-open-source-framework-evaluates-ai-models-before-theyre-pushed-into-production/)
延伸閱讀
- 「Inception 首度曝光!全新 AI 模型顛覆科技界!」
- 《Anthropic 利用寶可夢測試最新 AI 模型,成果驚人!》
- 「為何智商測試不適合評估人工智慧的實力?」
- Google 悄然推出下一代旗艦 AI 模型,科技界即將震撼!
- AI2 推出新 AI 模型,成功超越 DeepSeek 最佳技術!
- xAI 新一代 AI 模型遲遲未發,背後隱藏的趨勢曝光!
- Google 執行長宣布:AI 模型 Gemini 將成為 2025 年最大焦點!
- 「DeepSeek 最新 AI 模型為何自認是 ChatGPT?揭祕背後的技術奧妙!」
- DeepSeek 推出新 AI 模型,成為最佳「開放挑戰者」!
- Pictionary 與 Minecraft:測試 AI 模型創意潛力的新戰場!