網路議題

專案古騰堡使用合成語音,免費上線 5000 本有聲書籍

專案古騰堡使用合成語音將 5,000 本有聲書籍免費上線大眾文化的無障礙化展示專案古騰堡(Project Gutenberg)是一個開放的圖書庫,幾乎一夜之間,他們將數千本書籍以合成語音的形式製作成有聲書籍,現在可以在多個服務平臺上進行下載或連續播放。儘管書籍的選擇有些特異(正如專案古騰堡的整個文庫 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

專案古騰堡使用合成語音,免費上線 5000 本有聲書籍

專案古騰堡使用合成語音將 5,000 本有聲書籍免費上線

大眾文化的無障礙化展示

專案古騰堡(Project Gutenberg)是一個開放的圖書庫,幾乎一夜之間,他們將數千本書籍以合成語音的形式製作成有聲書籍,現在可以在多個服務平臺上進行下載或連續播放。儘管書籍的選擇有些特異(正如專案古騰堡的整個文庫一樣),這無疑是文學無障礙化的一個強有力的展示。傳統的有聲書籍製作方式通常需要花費很長的時間,甚至在最好的情況下也需要付報酬給朗讀者,還需要編輯和出版的過程。對於許多書籍來說從經濟上來說製作有聲書籍並不合理,這意味著許多較老和較冷門的書籍對於偏好此格式的讀者來說仍然難以閱讀。專案古騰堡自然而然地致力於以盡可能多的格式傳播公共領域內的文學作品,而填補這一空缺可能已經在他們的待辦清單上數年了。但直到他們與麻省理工學院和微軟合作,他們才能夠進行程式碼魔法,使用人工智慧生成的語音將這些書籍變得生動起來。

格式不統一的問題以及解決方法

專案古騰堡的文庫中的一個問題是,這些檔案的格式並不統一。它們來自於各種來源,通常是由於錯誤的光學字元識別過程而出現錯誤,並且常常由志願者不完美地編輯和校對。即使它們是完美的,也不能保證機器可以輕易地閱讀:你最終會聽到頁碼、註腳和其他雜項的朗讀。“專案古騰堡的每本電子書都是按照自己的獨特 HTML 格式進行組織,其中有很多你不希望聽到的朗讀內容,例如表格、目錄、索引、頁碼等等。這個專案的最困難的部分就是提取出適合朗讀的好文字。”參與專案的麥克·漢密爾頓(Mark Hamilton)解釋道。為理解決這個問題,他們設計了一個系統,透過對文庫進行分析,確保了格式相似的書籍檔案,然後找出哪些簇最適合自動朗讀。這第一批文章的選擇有些特異:例如,只有一本狄更斯的作品(還是未完成的《艾德溫·露德》),但有十幾本類似《Notes and Queries, Number 176, March 12, 1853 A Medium of Inter-communication for Literary Men, Artists, Antiquaries, Genealogists, etc.》的書籍。“我們根據自動解析程式在第一批文章中能夠合理完成的內容來選擇這些書籍,”漢密爾頓續說,“儘管如此一些重要的好文章可能被忽略了。現在我們已經發布了第一批文章,我們正在努力透過將該系統推廣到未來的版本,以接近完整六萬本書籍。”

合成語音技術的改進與應用

當涉及到實際的朗讀時,該團隊透過結合多種機器學習和合成語音技術,在過去幾年中取得了改進並變得更加易用。幾年前,人們很明顯地意識到自動生成有聲書籍很快就會出現,現在它已經以大規模存在。WellSaid 公司的目標是將自然聲音的合成語音作為真正的人類朗讀的可信替代品。以下是該專案論文中描述的其製作有聲書籍的方法:為了創造出有感情的朗讀文字,我們使用了自動語音和情感推斷系統,根據上下文動態改變朗讀的聲音和語氣。這使得具有多個角色和情感對話的段落更加生動和引人入勝。為此,我們首先將文字分段為敘述段和對話段,並識別每一段對話的講話者。然後,我們以自我監督的方式預測每個對話的情感。最後我們使用基於多樣式和語境的神經文字朗讀技術,為敘述部分和對話部分分配不同的聲音和情感。頭 5,000 本書籍可以在 Spotify、Apple Podcasts 和 Internet Archive 上免費收聽,而用於建立這些有聲書籍的程式碼也正在 GitHub 上進行檔案化。

社論與建議

專案古騰堡的這一舉措在為文學無障礙化方面為我們帶來了新的可能性和光明前景。透過合成語音技術,書籍變得更容易被視障人士、多工進行中的人或喜歡用耳朵閱讀的讀者們所閱讀。此舉為教育、娛樂和文化交流帶來了全新的潛力。為了更好地利用這項技術,我們呼籲以下方面的努力:

多樣性與包容性

這是一個具有拉動力的專案,但我們需要確保這些有聲書籍的選擇多樣且包容,包括不同文字型別、作者和文化背景。這樣才能真正實現所有讀者的需求和利益的平衡。同時我們也應該保證這些合成語音的品質,使其真實、準確且易於聆聽。

技術改進和支援

合成語音技術方面,還有很大的改進空間。我們應該鼓勵技術公司和研究機構繼續投入研發,提升合成語音的自然程度和聲音品質。同時我們應該提供支援和資源,以確保這些技術能夠得到廣泛應用,並能夠適應各種語言和方言。

版權和法律問題

專案古騰堡致力於公共領域文學的傳播,但這涉及到版權和法律問題。我們應該確保在利用這些合成語音的過程中,不侵犯任何版權,並確保合法的使用許可權。同時我們也應該順應法律變化,確保合成語音技術在這一領域的合法性與倫理性。

教育和推廣

我們應該加固對合成語音技術和無障礙閱讀的教育和推廣工作。對於那些對這項技術還不熟悉或對閱讀有障礙的人士,我們應該提供培訓和資源,使他們能夠充分利用這項技術,獲得知識和娛樂的無障礙閱讀體驗。

結論

專案古騰堡的這一舉措為文學無障礙化開啟了一扇新的大門。合成語音技術的應用為不同讀者帶來了全新的閱讀體驗和娛樂方式。然而我們還需要加大努力,以確保這項技術的多樣性、品質和法律合規性。透過持續的教育和支援,我們可以擴大這一領域的應用,並為更多人帶來真正的閱讀樂趣。
AudioBooks-wordpress,專案古騰堡,合成語音,免費上線,有聲書籍
江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。