市場觀察

Giskard 開源框架在將 AI 模型推向生產前進行評估

Giskard：一個開源框架評估 AI 模型一個開源測試框架 Giskard 是一家法國新創企業，致力於開發用於大型語言模型的開源測試框架。該框架能夠警告開發人員存在偏見風險，安全漏洞以及模型生成有害或毒素內容的風險。儘管人工智慧（AI）模型周圍存在大量炒作，但隨著歐盟即將強制實施《AI .... (往下繼續閱讀)

by 江塵
2023/11/14
7 分鐘閱讀時間

A- A A+

文章目錄

## Giskard：一個開源框架評估 AI 模型

一個開源測試框架

Giskard 是一家法國新創企業，致力於開發用於大型語言模型的開源測試框架。該框架能夠警告開發人員存在偏見風險，安全漏洞以及模型生成有害或毒素內容的風險。儘管人工智慧（AI）模型周圍存在大量炒作，但隨著歐盟即將強制實施《AI 法案》以及其他國家的法規，機器學習（ML）測試系統也將迅速成為熱門話題。開發 AI 模型的公司將不得不證實他們符合一套規則並減輕風險，以免支付高昂的罰款。

測試框架的三個元件

Giskard 的測試框架背後有三個元件。首先該公司釋出了一個開源的 Python 庫，可以整合到語言模型（LLM）專案中，尤其是應用於 retrieval-augmented generation（RAG）專案。該庫在 GitHub 上相當受歡迎，並且與 ML 生態系統中的其他工具相容，例如 Hugging Face、MLFlow、Weights & Biases、PyTorch、Tensorflow 和 Langchain。在初始設定完成後，Giskard 將幫助生成一個測試套件，該套件將定期用於您的模型。這些測試涵蓋了各種問題，例如效能，幻覺，錯誤訊息，非事實性輸出，偏見，資料泄漏，生成有害內容和提示注入。開發人員隨後可以將這些測試整合到持續整合和持續交付（CI/CD）流程中，以便每次程式碼庫有新迭代時執行測試。如果出現問題，開發人員可以在其 GitHub 儲存庫中收到掃描報告。測試是根據模型的最終用例定製的。正在開發 RAG 的公司可以向 Giskard 提供向量資料庫和知識庫的存取許可權，以便測試套件盡可能與之相關。例如，如果您正在建立一個聊天機器人，根據 IPCC 的最新報告以及使用來自 OpenAI 的 LLM，Giskard 的測試將檢查該模型是否能生成有關氣候變化的錯誤訊息，是否自相矛盾等。

Giskard 的其他產品

Giskard 的第二個產品是 AI 品質中心，可幫助您偵錯大型語言模型並將其與其他模型進行比較。該品質中心是 Giskard 的高級產品的一部分。未來，該新創企業希望能夠生成證實模型符合法規的檔案。Giskard 的第三個產品名為 LLMon。這是一個實時監控工具，可以在將回復傳送給使用者之前評估 LLM 的答案是否存在最常見問題（毒性、幻覺、事實檢查等）。當前它可以與使用 OpenAI 的 API 和 LLM 作為基礎模型的公司一起使用，但公司正在與 Hugging Face、Anthropic 等進行整合。

監管應用案例

監管 AI 模型有幾種方法。根據與 AI 生態系統中的人交談，當前尚不清楚《AI 法案》是否適用於 OpenAI、Anthropic、Mistral 等的基礎模型，或僅適用於應用案例。在後者的情況下，Giskard 似乎特別適合提醒開發人員關於擴充了外部資料（或者，正如 AI 研究人員所稱，retrieval-augmented generation 或 RAG）的 LLM 的潛在誤用。當前有 20 人在 Giskard 工作。Combessie 表示：“我們發現我們的產品在 LLM 上與客戶有非常明確的適配，因此我們將將團隊規模快速擴大，成為市場上最好的 LLM 防病毒軟體。”

在 AI 技術的不斷發展過程中，監管和測試機器學習模型變得至關重要。Giskard 的開源框架提供了一種創新並及時的解決方案，以應對所面臨的挑戰。在這一程式中，業界應積極支援並適應政府以及行業標準的相關監管。

總而言之，Giskard 對於加固 AI 模型的監管和測試提供了一個前所未有的解決方案。

原始文章連結: [Giskard open-source framework evaluates AI models before they’re pushed into production](https://techcrunch.com/2022/10/15/giskard-open-source-framework-evaluates-ai-models-before-theyre-pushed-into-production/)

AIEvaluation-Giskard,開源框架,AI 模型,生產,評估

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集

Giskard 開源框架在將 AI 模型推向生產前進行評估

文章目錄

一個開源測試框架

測試框架的三個元件

Giskard 的其他產品

監管應用案例

延伸閱讀

尼泊爾加入禁止 TikTok 的國家行列

Monta Vista Capital 宣布最大規模基金閉幕

江塵