市場觀察

Gladia 實時將任何音訊轉換為文字

法國 AI 新創公司 Gladia 推出革新性音訊轉文字 API 改變企業與音訊資料互動方式的目標法國 AI 新創公司 Gladia 致力於改變公司與音訊資料的互動方式。該公司開發了一個音訊轉文字應用程式程式設計介面(API),可以與其他產品整合,並且據稱在功能上遠遠優於市場上現有的解決方案。這一技術 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

Gladia 實時將任何音訊轉換為文字

法國 AI 新創公司 Gladia 推出革新性音訊轉文字 API

改變企業與音訊資料互動方式的目標

法國 AI 新創公司 Gladia 致力於改變公司與音訊資料的互動方式。該公司開發了一個音訊轉文字應用程式程式設計介面(API),可以與其他產品整合,並且據稱在功能上遠遠優於市場上現有的解決方案。這一技術基礎為音訊帶來了全新的使用場景。

現有 API 的約束與挑戰

現有的大型雲提供商已經擁有自己的語音轉文字 API,例如 Google 的語音到文字 API、Amazon Transcribe、微軟的語音到文字等等。雖然這些 API 的效果還不錯,但它們價格昂貴、速度較慢,且功能有限。Gladia 的聯合創始人兼 CEO Jean-Louis Quéguiner 是 OVHcloud 的 AI 負責人,他告訴我現有 API 面臨三個主要問題。首先價格方面,音訊轉文字通常需要花費 1.5 至 2 美元每小時。其次輸出結果通常並不可靠,某些語言的轉錄效果好,而其他語言則幾乎不被支援。當講話者使用多種語言時,現有的 API 無法識別語言差異,只能用一種語言進行轉錄。第三,現有的轉錄 API 速度較慢。轉錄一小時的音訊可能需要超過 15 分鐘的時間。這對於不需要即時轉錄的場景或行業來說並無大礙,但在一些特定行業中則無法使用這些 API。

基於 OpenAI 的開源轉錄模型 Whisper 的 Gladia

Gladia 基於 OpenAI 的開源轉錄模型 Whisper 進行開發。Jean-Louis Quéguiner 告訴我:“我們以 Whisper 為基礎,並沒有重新發明輪子,但我們聽取了客戶的意見,他們告訴我們:‘我想要的是與 Whisper 一樣好用的東西。’”然而 Whisper 並不完美。原始版本的速度仍然相對較慢,因此 Gladia 花了很多時間將 Whisper 轉化為一個快速且反應靈敏的轉錄模型。此外 Whisper 的一半是基於 GPT-2 模型,而 GPT-2 模型在生成文字時容易出現“產生幻覺”的問題。Gladia 透過對 Whisper 進行訓練,使用在網際網路上可以找到的閉路字幕(例如 YouTube 的字幕)來解決這些問題。OpenAI 的模型往往會聽到線上影片中經常出現的常用短語,例如“如果您喜歡這個影片,請點贊和訂閱”。這些句子的數量在 Whisper 的訓練資料中呈現數學上的過度彰顯。Gladia 試圖解決這些缺陷並改善最終結果。除了對 Whisper 進行的修改和實現外,Gladia 還使用了一些預處理和後處理算法來提高轉錄結果的質量。

Gladia 的承諾和功能

Gladia 承諾可以以 0.61 美元的價格將一小時的音訊進行轉錄,並且整個轉錄過程大約需要 60 秒。其 API 可以檢測多個講話者,新增時間戳,檢測語言並在需要時切換語言。Gladia 還自動新增標點符號和大小寫。與大多數 API 一樣,最終輸出結果以 JSON 格式呈現。但 Gladia 還支援 SRT 和 VTT 檔案,以滿足希望生成字幕的公司的需求。

我建立了一個帳戶,上傳了一段訪談的音訊錄音,以測試 Gladia 的效果。它花費的時間比預期稍長,但明顯比 Google 或 Azure 的語音轉文字 API 快得多。結果並不完美,但非常好用,可以理解首字母縮略詞和技術術語。我在 Mac 上使用了一個名為 Aiko 的應用程式,該應用程式由 Sindre Sorhus 開發,可以在本地使用 Whisper 進行音訊轉錄。預料之中,Aiko 的輸出結果與 Gladia 的輸出相似,但 Gladia 的執行速度比我在 MacBook Pro 上執行 Aiko 要快得多。總的來說 Gladia 是我用過的最好的音訊轉文字 API。

成為音訊智慧 API

當前 Gladia 主要與呼叫中心公司、虛擬會議服務和影片發布商合作,包括 Claap、Livestorm 和 Selectra。Gladia 在一輪由 New Wave 領銜的種子融資中籌集了 400 萬美元。其他投資者包括 Sequoia、Cocoa 以及 Solomon Hykes、Pierre Betouin、Miroslaw Klaba 和 Alexandre Berriche 等天使投資者。對於 Gladia 來說擁有堅如磐石的轉錄 API 僅是第一步。該公司希望在此強大的技術基礎上建立更多功能。例如,在音訊檔案完成轉錄後,Gladia 可以將文字翻譯成其他語言。結合單詞級的時間戳,一家公司可以在短短幾分鐘內上傳一個音訊檔案並獲得數十種語言的字幕。在未來,該公司希望能夠對音訊檔案內容進行摘要、將內容分類到多個主題類別中、自動建立章節、進行情緒分析等等。“我們的長期願景是將資料從 2D 轉化為 3D。音訊是比較平面的,我們的想法是透過智慧增強音訊。” Quéguiner 說道。“我們認為轉錄將成為一種日常商品。但我們認為更重要的是我們即將新增的選項。”

Unsplash gallery keyword: "Speech-to-text"-音訊轉文字,實時轉換,Gladia,文字識別
江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。