Unstructured.io raises $25M to enable the use of enterprise data in LLMs
The Challenge of Accessing First-Party and Proprietary Data for LLMs
企業資料是建立大型語言模型(LLMs)的基石,例如 OpenAI 的 GPT-4。不過由於無法存取第一方和專有資料,一些企業一直不願意採用 LLMs。這並不是一個容易解決的問題,因為這些資料通常被設定在防火牆後面,並且以 LLMs 無法解析的格式呈現。然而一家相對較新的新創公司 Unstructured.io 正在試圖透過一個平臺來消除障礙,該平臺能將企業資料提取並轉換為 LLMs 可以理解和利用的方式。 Unstructured 在 2022 年由 Brian Raymond、Matt Robinson 和 Crag Wolfe 共同創立。他們曾在 Primer AI 共同工作,該公司專注於為企業客戶構建和部署自然語言處理(NLP)解決方案。Raymond 是 Unstructured 的執行長,他在一封電子郵件採訪中告訴 TechCrunch:“在 Primer 期間,我們一再遇到了將包含 NLP 資料(例如 PDF、電子郵件、PPTX、XML 等)的原始客戶檔案進行攝取和預處理以轉化為機器學習模型或流水線所需的淨化後的檔案的瓶頸。沒有任何資料整合或智慧檔案處理公司能夠幫助解決這個問題,所以我們決定成立一家公司並直面這個問題。”The Bottleneck of Data Processing and Prep in AI Development
確實,資料處理和預處理往往是任何 AI 開發工作流程中耗時的步驟。根據一項調查,資料科學家在準備和管理資料以進行分析方面花費了將近 80%的時間。因此大部分公司產生的資料(約佔三分之二)都沒有得到使用。Raymond 繼續說道:“組織每天會生成大量的非結構化資料,當與 LLMs 結合時,可以大大提高生產力。問題是這些資料散落在各處。在 NLP 社區中的一個不為人知的祕密是,現今的資料科學家仍然必須完全手工製作非常獨特的資料存取器和預處理流水線。Unstructured 為 LLMs 存取、轉換和擺放自然語言資料提供了一個全面的解決方案。”The Tools and Solutions Offered by Unstructured.io
Unstructured 提供了一系列工具,以幫助整理和轉換 LLMs 的企業資料,包括從網頁中刪除廣告和其他不需要的物件、存取文字、對掃描頁面進行光學字元識別等。該公司為特定型別的 PDF 檔案、HTML 和 Word 檔案(包括 SEC 提交檔案)以及美國陸軍軍官評估報告開發了處理流水線。為了處理檔案,Unstructured 從頭開始訓練了自己的“檔案轉換”NLP 模型,並組合了其他模型來提取文字和約 20 個離散元素(例如標題、頁首和頁尾)從原始檔案中。各種存取器(總計約 15 個)從現有的資料源(例如客戶關係管理軟體)中引入檔案。Raymond 表示:“在幕後,我們使用各種不同的技術來消除複雜性。例如,對於舊的 PDF 和影象,我們使用計算機視覺模型。對於其他檔案型別,我們使用 NLP 模型、Python 指令碼和正規表示式的巧妙組合。” Unstructured 與像 LangChain(用於建立 LLM 應用程式的框架)以及 Weaviate 和 MongoDB's Atlas Vector Search 等向量資料庫提供商進行整合。以前,Unstructured 唯一的產品是這些資料處理工具的開源套件。Raymond 聲稱,它已經被下載了約 70 萬次,並被 100 多家公司使用。然而為了支付開發成本(無疑也是為了安撫投資者),該公司正在推出一個商業 API,它可以轉換包括 PowerPoints 和 JPGs 在內的 25 種不同檔案格式的資料。Raymond 表示:“我們與政府機構合作,僅在非常短的時間內就實現了數百萬美元的收入......由於我們的焦點是在 AI 上,我們專注於不受整體經濟放緩影響的市場部分。”Unstructured.io's Ties to Defense Agencies and Recent Fundraising
Unstructured 與國防機構之間有著非常緊密的聯絡,這可能是 Raymond 的背景所導致的。在加入 Primer 之前,他是美國情報界的一員,曾在中東地區服務,然後在奧巴馬政府期間在白宮和美國中央情報局(CIA)工作。Unstructured 獲得了美國空軍和美國太空軍的小型企業合同,並與美國特種作戰司令部(SOCOM)合作,在部署 LLM 時與任務相關的資料一起使用。此外 Unstructured 的董事會成員包括邁克爾·格羅恩(Michael Groen),他是前將軍和五角大廈聯合人工智慧中心(Joint Artificial Intelligence Center)的主任以及瑞安·劉易斯(Ryan Lewis),他之前領導了美國國防部的創新部門(Defense Innovation Unit)。對於 Unstructured 最近的籌資活動,國防領域可能是一個可靠的早期收入來源。 今天該公司宣布在 A 輪融資和此前未公開的種子融資輪中獲得 2500 萬美元的資金。Madrona 領投 A 輪,參與種子輪的則是 Bain Capital Ventures,此外還有 M12 Ventures、Mango Capital、MongoDB Ventures 和 Shield Capital 以及幾位天使投資者的參與。Editorial and Philosophical Discussion
The Importance of Accessing First-Party and Proprietary Data for LLMs
對於 LLMs,能夠存取第一方和專有資料是非常重要的。這些資料包含了企業所擁有的獨特知識和訊息,能夠使 LLMs 更加全面、準確地進行預測和分析。然而由於安全和保密的原因,許多企業一直面臨著無法利用自身資料的困境。因此像 Unstructured 這樣的新創公司為解決這個問題提供了重要的解決方案。The Challenges and Value of Data Processing and Prep in AI Development
資料處理和預處理是 AI 開發中一個關鍵且耗時的步驟。根據報告,資料科學家花費了大部分時間來處理和管理資料,而這往往是一個乏味且耗時的工作。然而這個步驟的重要性不可忽視。只有在資料處理和預處理的準確和完整性基礎上,才能獲得可靠和準確的預測和分析結果。因此像 Unstructured 這樣提供資料處理和預處理工具的公司是非常有價值的。The Dual Use and Ethical Considerations of AI in Defense
Unstructured 與國防機構之間的聯絡引起了關注。在使用 AI 技術和 LLMs 應用於國防領域時,需要加以重視的是其雙重用途性質和倫理考量。雖然使用 AI 和 LLMs 能夠為國防領域帶來一些潛在的好處,例如強化駕馭能力、提高對威脅的識別和應對能力,但同時也需要注意其可能帶來的倫理和隱私問題。這包括監控和隱私侵犯的風險以及潛在的自主武器系統和無人機使用中的道德和法律考量。因此在國防領域應用 AI 和 LLMs 時,需要制定嚴格的法規和監管措施,以確保其合法性和倫理性。Advice for Enterprises and the Future of LLMs
The Importance of Embracing LLMs and Utilizing Enterprise Data
對企業而言,採用 LLMs 並利用自身資料的重要性不可忽視。這些大型語言模型具有極大的潛力,能夠讓企業在預測、分析和自動化方面有所突破。因此企業應該積極探索如何利用 LLMs 和企業資料來提高效率和創造價值。The Value of Data Processing Tools and Solutions
資料處理工具和解決方案能夠幫助企業應對資料處理和預處理的挑戰。像 Unstructured 提供的工具可以大大簡化資料處理的流程,節省時間和資源。因此企業應該考慮使用這些工具和解決方案,以提高資料管理和分析的效率。Ethical Considerations in AI Development and Deployment
在 AI 的開發和應用中,倫理考量至關重要。企業應該確保在使用 LLMs 和其他 AI 技術時,遵守道德和法律標準。這包括保護使用者隱私、避免不當使用資料、避免歧視性的算法和確保透明度和解釋能力。同時政府應該制定相應的監管措施,以確保 AI 的安全和合法使用。The Future of LLMs and AI in Enterprise Applications
未來,LLMs 將在企業應用中發揮更重要的作用。隨著資料量的增加和對 AI 的需求不斷增長,LLMs 將能夠幫助企業實現更高的自動化水平、更準確的預測和更智慧的決策。因此企業應該積極探索如何應用 LLMs 和其他 AI 技術,以提高競爭力和創造更大的價值。結論
Unstructured.io 透過提供資料處理和預處理工具來解決企業在使用 LLMs 時遇到的挑戰。企業應該積極採用 LLMs 並利用自身資料,以提高效率和創造價值。同時需要重視倫理考量,在 AI 的開發和應用中確保道德和合法性。未來,LLMs 將在企業應用中扮演更重要的角色,幫助企業實現高度自動化和更智慧的決策。Dataanalytics-unstructureddata,dataanalysis,datatools,LLMs,fundraising,businessdata,datamanagement,datacollection,dataprocessing,datatoolsforLLMs
延伸閱讀
- Opera 允許使用者下載並本地使用 LLMs
- Google 推出全新的開放 LLMs, Rivian 裁員,Signal 推出使用者名
- 亞馬遜 Bedrock 新增 Guardrails 功能,助力保障 LLMs
- 「Credal 致力於『安全地』存取公司資料與 LLMs」
- LLMs 驚人地擅長壓縮影象和音訊,DeepMind 研究人員發現
- 深思研究顯示 LLMs 出奇的擅長壓縮影象與音訊
- Correcto 募得 700 萬美元,為其「西班牙文 Grammarly」建立更全面的平臺
- AI21 Labs 籌集 1.55 億美元,加速企業 GenAI 發展
- 如何在企業中減少生成式 AI 和 LLMs 的資料風險
- DynamoFL 籌集到 1510 萬美元,助力企業採納「合規」的 LLMs