AIGC

資料魔術師推出 LLM 工具，訓練客製化 ChatGPT 模型

資料魔術師(Datasaur)發表新功能，幫助使用者標註資料並訓練自定義的 ChatGPT 模型資料魔術師(Datasaur)今天推出了一項新功能，使使用者能夠標註資料並訓練自定義的 ChatGPT 模型。這個最新工具提供了一個使用者友好的介面，使技術和非技術人員都能評估和排序語言模型的回應，從而轉 .... (往下繼續閱讀)

by 程宇肖
2023/6/15
9 分鐘閱讀時間

A- A A+

文章目錄

資料魔術師(Datasaur)發表新功能，幫助使用者標註資料並訓練自定義的 ChatGPT 模型

資料魔術師(Datasaur)今天推出了一項新功能，使使用者能夠標註資料並訓練自定義的 ChatGPT 模型。這個最新工具提供了一個使用者友好的介面，使技術和非技術人員都能評估和排序語言模型的回應，從而轉化為可行的見解。由於 OpenAI 的總裁 Greg Brockman 是其早期投資者，資料魔術師表示這項新功能是對自然語言處理(NLP)以及 ChatGPT 和大型語言模型(LLM)的日益重要性的直接回應。資料魔術師表示各行各業的專業人士都渴望有效利用這項技術，然而構建和訓練自定義模型需要更多明確和標準化的方法，這一點一直是困擾人們的問題。

資料魔術師的支援和新功能

資料魔術師的創始人兼 CEO Ivan Lee 告訴 VentureBeat：“我們的目標是為使用者提供高品質的訓練資料，並透過我們的新功能從結果模型中消除不需要的偏見。我們的平臺支援所有型別的 NLP，無論是像實體識別和文字分類這樣的‘傳統’模型，還是像 LLM 這樣的新模型。我們的目標是確保所有的 NLP 標記都可以在同一個平臺上進行，而不是用電子表格來標記一種型別，而使用開源工具標記另一種型別。”

資料魔術師聲稱，其最新功能，評估和排序，是當前市場上最易於使用的模型訓練工具。透過評估，人工標註者可以評估 LLM 的輸出品質，並判斷回應是否符合特定的品質標準。排序則有助於透過人工反饋進行強化學習的過程。除了新功能之外，該平臺還引入了審查者模式，使資料科學家能夠分配多個標註者，從而減少主觀偏見。該模式有助於識別和解決標註者在特定問題上存在的差異，使資料科學家能夠做出最終判斷。平臺的交標校合(IAA)功能使用統計計算來評估標註者之間的一致性或不一致性水平。這工具有助於資料科學家識別可能需要接受額外培訓的標註者，並辨識展示這類工作天賦的標註者。此外該平臺還展示了 LLM 所使用的原始檔案。這一做法有兩個目的：防止任何潛在的誤解，並提供透明度，展示 LLM 所使用的過程。

推動大型語言模型的廣泛應用

資料魔術師的 Ivan Lee 指出，由於合規性、資料隱私或戰略考慮等因素，行業專業人員可能不認為 OpenAI 的模型是可行的選擇。Lee 還指出，LLM 當前只針對英語進行開發，這約束了全球使用者充分利用這些技術進行創新。

Lee 表示：“NLP 在過去十年取得了很多進展，而資料魔術師的一個重要目標就是幫助自動化掉盡可能多的手動工作。我們希望使用者能夠透過我們的產品，更輕鬆地為他們的目的訓練和開發 LLM，不論是法語、韓語還是阿拉伯語。”

該公司表示其平臺有潛力將與資料標註相關的時間和費用減少 30％至 80％。為了實現資料標註的自動化，該平臺使用了多種技術。它使用像 spaCy 和 NLTK 這樣的成熟開源模型來識別常見實體。它還採用了弱監督方法進行資料程式設計，使工程師能夠建立簡單的函數，自動標註特定的實體型別。例如，如果一段文字包含“披薩”或“漢堡”等關鍵詞，該平臺將應用“食品”分類。此外該平臺還融入了一個內建的 OpenAI API，允許客戶請求 ChatGPT 代表他們為檔案標註。該公司表示這個方法可以在任務的複雜性下實現高成功率，同時也為自動化開闢了新的渠道。

資料魔術師的 Ivan Lee 表示該平臺的強化學習從人工反饋(RLHF)功能是提升 LLM 訓練能力最有效的方法之一。他說，這種方法使使用者能夠迅速而輕鬆地評估一組模型輸出，並識別出優秀的輸出，減少手動幹預。

NLP 的未來機遇

Lee 觀察到，市場對 NLP 的投資正在蓬勃發展，他預計 LLM 技術將快速演進。他聲稱，在未來幾年中，將有大量的應用程式加入 LLM 技術的開發領域。“即將推出的介面不再是一個聊天介面；它將與我們日常使用的應用程式（如 Gmail、Word 等）相結合。正如我們已經學會如何最佳化我們的 Google 搜尋查詢（例如“星巴克週六營業時間”），普羅大眾將開始習慣透過這種自然語言介面與應用程式進行互動。資料魔術師希望在建立這種模型和資料工作流程方面準備就緒，並為組織提供支援和資源。”

VentureBeat 的使命是成為技術決策者獲取有關企業技術變革方面知識並進行交易的數位城鎮廣場。理解我們的每周簡報。

結論：

資料魔術師(Datasaur)推出了一項新功能，使使用者能夠標註資料並訓練自定義的 ChatGPT 模型。該功能提供了使用者友好的介面，支援評估和排序語言模型的回響，還可以消除回響中的偏見。該平臺還提供了多種工具，如審查者模式和交標校合功能，來幫助使用者在標註資料方面更加全面的支援和指導。資料魔術師還表示希望提高大型語言模型的應用，不僅局限於英語，而是讓使用者能夠使用其他語言。這項技術有潛力減少資料標註相關的時間和費用，並提供了多種自動化資料標註的方法。資料魔術師的創始人表示 NLP 領域存在巨大的機會，並預測未來將有更多基於 LLM 的應用程式興起。

Machine Learning-資料魔術師,LLM 工具,客製化 ChatGPT 模型

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集