市場觀察

‘GitHub for data’！Gable.ai 想要連結軟體工程師與 ML 開發者

首次公開亮相的 Gable.ai 平臺被喻為資料領域的 GitHub 背景 Gable.ai 是一家位於西雅圖的新創公司，憑藉 700 萬美元的種子融資正式推出，旨在解決人工智慧應用中關於資料品質的問題。它自稱是第一個資料協作平臺，讓軟體工程師和資料/機器學習開發人員能夠迭代地建立和管理高質量的資料資產 .... (往下繼續閱讀)

by 江塵
2023/9/13
7 分鐘閱讀時間

A- A A+

文章目錄

‘GitHub for data’！Gable.ai 想要連結軟體工程師與 ML 開發者

首次公開亮相的 Gable.ai 平臺被喻為資料領域的 GitHub

背景

Gable.ai 是一家位於西雅圖的新創公司，憑藉 700 萬美元的種子融資正式推出，旨在解決人工智慧應用中關於資料品質的問題。它自稱是第一個資料協作平臺，讓軟體工程師和資料/機器學習開發人員能夠迭代地建立和管理高質量的資料資產。投資者們將其稱之為“資料領域 GitHub”，受到了 Kaggle 和 Hex 等其他資料公司的投資。

問題背景

網際網路時代資料量爆炸，人工智慧應用也得到了空前的發展。然而要確保這些應用的執行不會出現問題，輸入到這些應用程式中的資料必須是高質量的，即可靠、完整和準確。而這正是 Gable.ai 所要解決的問題。

從 Convoy 到 Gable.ai 的解決方案

Convoy 的資料品質問題

Gable.ai 的聯合創始人 Chad Sanderson 在創辦 Gable.ai 之前，曾在擁有價值 40 億美元的數位貨運網路 Convoy 的資料部門擔任要職。Convoy 透過一個最佳化、存取的運輸網路每天在全美國運送數以千計的貨運。這其中的複雜資料不斷湧入，例如有關貨運、發貨人、設施、承運商、卡車、合同和價格等訊息。儘管公司擁有現代化的資料基礎設施，使用最先進的技術，但沒有人對資料抱有信任，資料品質問題屢次發生，寶貴的模型無法常規執行，數十億行資料無法使用。

資料科學團隊和分析團隊之間的溝通障礙

在 Convoy，甚至簡單的問題都難以回答，例如“我們過去 30 天完成了多少批次的貨運？”，所有這些複雜性使得回答這個問題幾乎是不可能的，Sanderson 表示。在機器學習方面也有類似的問題，模型非常敏感，資料科學家需要準確找到來自這個非常複雜系統的哪些資料應該輸入模型中。當資料品質出現問題，或者突然有所變化時，這些敏感的模型就開始崩潰，所做出的預測結果就會錯誤。

Sanderson 解釋說，問題的根本原因在於軟體工程師和機器學習開發人員之間的溝通缺口。一旦我們幫助彌合了這個溝通障礙，資料品質的改進幾乎立即呈指數級增長，他說。在規模化人工智慧應用中，解決資料變更的溝通問題至關重要。如果你沒有一個針對資料的變更管理系統，就無法規模化人工智慧應用，這是不可行的，他解釋道。像 Google、Meta 和 Amazon 這樣的公司解決這個問題的方法是全力以赴。每當新的機器學習模型被引入時，就需要有兩到四名資料工程師在場。但在像 Convoy 這樣的公司，“我們無法做到這一點，我們的資料工程團隊只有六個人。”

Gable.ai 的創新之處

重新塑造資料領域的一部分

Gable.ai 的“資料合同”是一個全新的資料原型，能夠完全改變資料領域。在過去的幾個月裡，Sanderson 還組建了“資料質量營”，一個擁有 8000 多名熱衷的資料從業人員的 Slack 社區，共同討論這些新的概念。這些概念旨在對資料領域進行重大改進，成為公司資料基礎設施的一個新組成部分。

來自知名資料公司的支援

領導這一輪融資的 Zetta Venture Partners 董事總經理 Apoorva Pandhi 表示所有成功資料公司的創始人，無論是 dbt Labs、Monte Carlo、Hex、Kaggle、Hightouch 還是 Great Expectations，都對 Gable.ai 進行了投資，並支援其成為資料基礎設施的重要組成部分。

TechCollaboration-GitHub,data,Gable.ai,softwareengineering,MLdevelopment

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集