網路議題

OpenAI 推出 DALL-E 3 API，全新文字轉語音模型

OpenAI 首次開發者日推出 DALL-E 3 API 和新的文字轉語音模型 OpenAI 開發者日新推 DALL-E 3 APIOpenAI 於其首次開發者日推出了一系列新的應用程式介面（API）；其中 DALL-E 3，OpenAI 的文字轉影象模型，現已透過 API 推出，並首次出現於 Cha .... (往下繼續閱讀)

by 程宇肖
2023/11/7
6 分鐘閱讀時間

A- A A+

文章目錄

OpenAI 首次開發者日推出 DALL-E 3 API 和新的文字轉語音模型

OpenAI 開發者日新推 DALL-E 3 API

OpenAI 於其首次開發者日推出了一系列新的應用程式介面（API）；其中 DALL-E 3，OpenAI 的文字轉影象模型，現已透過 API 推出，並首次出現於 ChatGPT 和 Bing Chat 中。與之前的版本 DALL-E 2 相似，OpenAI 表示該 API 內建了內容審查功能，以幫助防止濫用。DALL-E 3 API 包括不同的格式和品質選項，解析度從 1024×1024 到 1792×1024 不等，價格從每張生成的影象起步為 0.04 美元。然而與 DALL-E 2 API 相比，當前 DALL-E 3 有些約束。不像 DALL-E 2 API，DALL-E 3 不能用於透過模型替換現有影象的某些區域或建立現有影象的變體。當生成請求被傳送至 DALL-E 3 時，OpenAI 表示它將會自動「為了安全原因」和「為了增加更多細節」重新編寫它，這可能導致在提示情況下的結果不夠精確。

新的文字轉語音模型

此外 OpenAI 現提供文字轉語音 API，名為 Audio API，其中包括六種預設的聲音：Alloy、Echo、Fable、Onyx、Nova 和 Shimer，可供選擇，並有兩個生成式人工智慧模型變體。新模型已於今天上線，價格從每輸入 1,000 字元起步為 0.015 美元。OpenAI Sam Altman 在臺上表示：「這聲音比我們聽到的其他東西都更自然，這可以使應用程式的互動更加自然，也更易於存取。它還開啟了許多用例，比如語言學習和語音助手。」不同於一些語音合成平臺和工具，OpenAI 不提供控制音訊生成情感影響的方式。在 Audio API 的檔案中，公司指出「某些因素」可能會影響生成的聲音，如大寫或文字中的語法，但 OpenAI 內部測試這些影響時結果「參差不齊」。OpenAI 要求使用其 API 的開發者必須通知使用者其音訊是由人工智慧生成的。

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集

OpenAI 推出 DALL-E 3 API，全新文字轉語音模型

文章目錄

OpenAI 首次開發者日推出 DALL-E 3 API 和新的文字轉語音模型

OpenAI 開發者日新推 DALL-E 3 API

新的文字轉語音模型

相關公告

專家建議與展望

延伸閱讀

OpenAI 的 ChatGPT 現在擁有每週 1 億活躍使用者

2025 Ram Ramcharger：混合動力電動卡車震撼登場

程宇肖