網路議題

OpenAI 推出 DALL-E 3 API,全新文字轉語音模型

OpenAI 首次開發者日推出 DALL-E 3 API 和新的文字轉語音模型 OpenAI 開發者日新推 DALL-E 3 APIOpenAI 於其首次開發者日推出了一系列新的應用程式介面(API);其中 DALL-E 3,OpenAI 的文字轉影象模型,現已透過 API 推出,並首次出現於 Cha .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

OpenAI 推出 DALL-E 3 API,全新文字轉語音模型

OpenAI 首次開發者日推出 DALL-E 3 API 和新的文字轉語音模型

OpenAI 開發者日新推 DALL-E 3 API

OpenAI 於其首次開發者日推出了一系列新的應用程式介面(API);其中 DALL-E 3,OpenAI 的文字轉影象模型,現已透過 API 推出,並首次出現於 ChatGPT 和 Bing Chat 中。與之前的版本 DALL-E 2 相似,OpenAI 表示該 API 內建了內容審查功能,以幫助防止濫用。DALL-E 3 API 包括不同的格式和品質選項,解析度從 1024×1024 到 1792×1024 不等,價格從每張生成的影象起步為 0.04 美元。然而與 DALL-E 2 API 相比,當前 DALL-E 3 有些約束。不像 DALL-E 2 API,DALL-E 3 不能用於透過模型替換現有影象的某些區域或建立現有影象的變體。當生成請求被傳送至 DALL-E 3 時,OpenAI 表示它將會自動「為了安全原因」和「為了增加更多細節」重新編寫它,這可能導致在提示情況下的結果不夠精確。

新的文字轉語音模型

此外 OpenAI 現提供文字轉語音 API,名為 Audio API,其中包括六種預設的聲音:Alloy、Echo、Fable、Onyx、Nova 和 Shimer,可供選擇,並有兩個生成式人工智慧模型變體。新模型已於今天上線,價格從每輸入 1,000 字元起步為 0.015 美元。OpenAI Sam Altman 在臺上表示:「這聲音比我們聽到的其他東西都更自然,這可以使應用程式的互動更加自然,也更易於存取。它還開啟了許多用例,比如語言學習和語音助手。」不同於一些語音合成平臺和工具,OpenAI 不提供控制音訊生成情感影響的方式。在 Audio API 的檔案中,公司指出「某些因素」可能會影響生成的聲音,如大寫或文字中的語法,但 OpenAI 內部測試這些影響時結果「參差不齊」。OpenAI 要求使用其 API 的開發者必須通知使用者其音訊是由人工智慧生成的。

相關公告

OpenAI 還推出了其開源自動語音識別模型的下一版本 Whisper large-v3,公司聲稱這一版本在各種語言上有著改進的效能。該模型在 GitHub 上以一個寬鬆的許可許可證可用。

專家建議與展望

這一系列新的 API 和模型的推出,標誌著人工智慧技術不斷開拓、創新的迅速發展。然而我們也需要關注其中所帶來的一些潛在風險。例如,在音訊生成方面,我們需要更多的控制選項,以應對不同場景和情境的需求,同時也要注意潛在的偽造和濫用問題。對於 DALL-E 3 API,我們應該關注其安全性和準確性,避免因重新編寫而導致生成結果的不準確。同時 OpenAI 需要繼續最佳化其模型,以滿足使用者對更多創造性和精細度的需求。
在人工智慧和機器學習的領域,技術的進步和應用常常催生出新的倫理和法律問題,我們需要謹慎應對。雖然這些新技術給我們的生活帶來了便利和樂趣,但我們也需要意識到其可能對社會、經濟和文化產生深遠的影響。作為開發者和使用者,我們需要負起責任,確保我們運用這些新技術的方式是正確和合法的,同時也要積極參與討論,推動行業標準和監管的建立,以確保人工智慧和機器學習的發展能夠造福全人類。
MachineLearning-OpenAI,DALL-E3,API,文字轉語音模型
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。