市場觀察

Giskard 開源框架在將 AI 模型推向生產前進行評估

## Giskard:一個開源框架評估 AI 模型### 一個開源測試框架 Giskard 是一家法國初創企業,致力於開發用於大型語言模型的開源測試框架。該框架能夠警告開發人員存在偏見風險,安全漏洞以及模型生成有害或毒素內容的風險。儘管人工智慧(AI)模型周圍存在大量炒作,但隨著歐盟即將強制實施《AI .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

Giskard 開源框架在將 AI 模型推向生產前進行評估
## Giskard:一個開源框架評估 AI 模型 ### 一個開源測試框架 Giskard 是一家法國初創企業,致力於開發用於大型語言模型的開源測試框架。該框架能夠警告開發人員存在偏見風險,安全漏洞以及模型生成有害或毒素內容的風險。儘管人工智慧(AI)模型周圍存在大量炒作,但隨著歐盟即將強制實施《AI 法案》以及其他國家的法規,機器學習(ML)測試系統也將迅速成為熱門話題。開發 AI 模型的公司將不得不證實他們符合一套規則並減輕風險,以免支付高昂的罰款。 ### 測試框架的三個元件 Giskard 的測試框架背後有三個元件。首先該公司釋出了一個開源的 Python 庫,可以整合到語言模型(LLM)專案中,尤其是應用於 retrieval-augmented generation(RAG)專案。該庫在 GitHub 上相當受歡迎,並且與 ML 生態系統中的其他工具相容,例如 Hugging Face、MLFlow、Weights & Biases、PyTorch、Tensorflow 和 Langchain。在初始設定完成後,Giskard 將幫助生成一個測試套件,該套件將定期用於您的模型。這些測試涵蓋了各種問題,例如效能,幻覺,錯誤訊息,非事實性輸出,偏見,資料泄漏,生成有害內容和提示注入。開發人員隨後可以將這些測試整合到持續整合和持續交付(CI/CD)流程中,以便每次程式碼庫有新迭代時執行測試。如果出現問題,開發人員可以在其 GitHub 儲存庫中收到掃描報告。測試是根據模型的最終用例定製的。正在開發 RAG 的公司可以向 Giskard 提供向量資料庫和知識庫的存取許可權,以便測試套件盡可能與之相關。例如,如果您正在建立一個聊天機器人,根據 IPCC 的最新報告以及使用來自 OpenAI 的 LLM,Giskard 的測試將檢查該模型是否能生成有關氣候變化的錯誤訊息,是否自相矛盾等。 ### Giskard 的其他產品 Giskard 的第二個產品是 AI 品質中心,可幫助您偵錯大型語言模型並將其與其他模型進行比較。該品質中心是 Giskard 的高級產品的一部分。未來,該初創企業希望能夠生成證實模型符合法規的檔案。Giskard 的第三個產品名為 LLMon。這是一個實時監控工具,可以在將回復傳送給使用者之前評估 LLM 的答案是否存在最常見問題(毒性、幻覺、事實檢查等)。當前它可以與使用 OpenAI 的 API 和 LLM 作為基礎模型的公司一起使用,但公司正在與 Hugging Face、Anthropic 等進行整合。 ### 監管應用案例 監管 AI 模型有幾種方法。根據與 AI 生態系統中的人交談,當前尚不清楚《AI 法案》是否適用於 OpenAI、Anthropic、Mistral 等的基礎模型,或僅適用於應用案例。在後者的情況下,Giskard 似乎特別適合提醒開發人員關於擴充了外部資料(或者,正如 AI 研究人員所稱,retrieval-augmented generation 或 RAG)的 LLM 的潛在誤用。當前有 20 人在 Giskard 工作。Combessie 表示:“我們發現我們的產品在 LLM 上與客戶有非常明確的適配,因此我們將將團隊規模快速擴大,成為市場上最好的 LLM 防病毒軟體。” 在 AI 技術的不斷發展過程中,監管和測試機器學習模型變得至關重要。Giskard開源框架提供了一種創新並及時的解決方案,以應對所面臨的挑戰。在這一程式中,業界應積極支援並適應政府以及行業標準的相關監管。 總而言之,Giskard 對於加固 AI 模型的監管和測試提供了一個前所未有的解決方案。 原始文章連結: [Giskard open-source framework evaluates AI models before they’re pushed into production](https://techcrunch.com/2022/10/15/giskard-open-source-framework-evaluates-ai-models-before-theyre-pushed-into-production/)
AIEvaluation-Giskard,開源框架,AI 模型,生產,評估
江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。