市場觀察

超省時間!Gladia 將任何音訊即時轉為文字

法國 AI 新創公司 Gladia:改變公司與音訊資料互動方式概述法國 AI 新創公司 Gladia 開發了一款音訊轉文字的應用程式程式設計介面(API),該介面可以與其他產品整合,並且據稱在功能上比現有的解決方案更好。Gladia 的技術基礎為音訊提供了全新的應用場景。對於熟悉音訊轉文字 API .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

超省時間!Gladia 將任何音訊即時轉為文字

法國 AI 新創公司 Gladia:改變公司與音訊資料互動方式

概述

法國 AI 新創公司 Gladia 開發了一款音訊轉文字的應用程式程式設計介面(API),該介面可以與其他產品整合,並且據稱在功能上比現有的解決方案更好。Gladia 的技術基礎為音訊提供了全新的應用場景。對於熟悉音訊轉文字 API 的人來說大型雲服務提供商已經擁有自己的 API,例如 Google 的語音轉文字 API、Amazon Transcribe、Microsoft 的語音轉文字等等。雖然這些 API 效果不錯,但是價格昂貴、速度慢,且功能有限。

現有 API 的約束

Gladia 的共同創辦人兼執行長 Jean-Louis Quéguiner 曾擔任 OVHcloud 的人工智慧負責人,與 Jonathan Soto 共同創立了這家公司。他告訴我,在現有產品中存在三個痛點。首先從價格上來看,一小時的音訊轉文字一般需要 1.5 到 2 美元。其次輸出結果並不總是非常可靠,某些語言支援得好,而其他語言則幾乎不支援。當涉及到複雜特性時,如果人們使用多種語言交談,API 很可能無法察覺語言的變化,並且不能將音訊轉成多種語言文字。第三,音訊轉文字 API 的速度很慢,轉錄一小時的音訊可能需要超過 15 分鐘的時間。如果不需要立即獲取轉錄結果,這可能還能接受,但對某些行業來說無法立即使用這些 API。

Whisper 技術與 Gladia 的改進

Gladia 的基礎技術是基於 OpenAI 的開源轉錄模型 Whisper。Quéguiner 告訴我們:"我們是從 Whisper 開始的。我們沒有重新發明輪子,但我們聽取了客戶的需求,他們告訴我們:'我想要的是一個像 Whisper 一樣有效的解決方案。'" 雖然 Whisper 還不太完善,但 Gladia 花了很多時間將 Whisper 轉變為一個快速和反應靈敏的轉錄模型。此外 Whisper 的一半是 GPT-2,這導致其產生幻覺的問題。Gladia 在此方面進行了大量工作,試圖解決這些問題。他們表示 Whisper 已經在網路上的封閉字幕上進行了訓練,例如 YouTube 上的字幕。OpenAI 的模型往往會聽到線上影片中常見的詞語,例如:"如果你喜歡這個影片,請點贊和訂閱。"這樣的句子有數學上的過度表現,Gladia 試圖解決這些缺陷。除了對 Whisper 進行修改和實施之外,Gladia 還擁有一些預處理和後處理算法,可以改善最終的文字轉錄結果。

Gladia 的特點與優勢

Gladia 承諾可以以 0.61 美元的價格將一小時的音訊進行轉錄,並且整個轉錄過程大約需要 60 秒。該 API 可以檢測到是否有多個說話者,新增時間戳,自動檢測語言並在需要時切換語言。Gladia 還自動新增標點符號和大小寫。與大多數 API 一樣,輸出結果以 JSON 格式呈現。但 Gladia 還支援 SRT 和 VTT 檔案,以便公司可以生成字幕。

使用者評價和應用場景

記者測試了 Gladia音訊轉文字 API,將一段採訪的音訊錄音上傳到該平臺,結果速度比預期的要稍微慢一些,但絕對快於 Google 和 Azure 的語音轉文字 API。轉換結果並不完美,但非常好,能夠理解縮寫和技術術語。將同一音訊檔案作為比較,用 Mac 應用程式 Aiko(由 Sindre Sorhus 開發,可以使用 Whisper 在本地轉錄音訊檔案), Gladia 的輸出結果接近於 Aiko,但是 Gladia 比我在 MacBook Pro 上執行 Aiko 的速度快得多。總的來說 Gladia 是我使用過的最好的音訊轉文字 API。

Gladia 當前主要與呼叫中心公司、虛擬會議服務和影片發布商合作,包括 Claap、Livestorm 和 Selectra。Gladia 在一輪由 New Wave 領導的融資中獲得了 400 萬美元的種子輪投資,其他投資者包括 Sequoia、Cocoa 和獨立投資者 Solomon Hykes、Pierre Betouin、Miroslaw Klaba 和 Alexandre Berriche。

未來展望

對於 Gladia 來說建立一個穩定可靠的音訊轉文字 API 只是第一步。該公司希望在這個強大的技術基礎上開發更多功能。例如,音訊檔案轉錄完成後,Gladia 可以將文字翻譯成其他語言。配合單詞級的時間戳,這意味著一家公司可以上傳一個音訊檔案,並在幾分鐘內獲得幾十種語言的字幕。未來,該公司還希望能夠對音訊檔案的內容進行摘要,將內容分類為多個主題類別,自動建立章節,進行情感分析等等。Gladia 執行長 Quéguiner 表示:"我們的長遠願景是從 2D 資料轉向 3D 資料。音訊比較單一,我們的想法是為其增加智慧"。他補充道:"我們認為,音訊轉文字將變得非常普遍,但我們認為更重要的是我們要新增的選項"。

Unsplash gallery keyword: Technology-音訊轉文字,即時轉換,Gladia,省時間
江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。