網路議題

AI 時代:關於人工智慧,你需要理解的一切

人工智慧時代:關於人工智慧你需要知道的一切基本概念神經網路:神經網路是由大量相互存取的細胞組成的,這些細胞形成了複雜的網路,能夠執行任務並儲存訊息。在軟體中重現這一令人驚嘆的系統,自 20 世紀 60 年代以來就開始嘗試,但直到 15-20 年前,GPU 的出現使得數位化神經網路得以迅速發展。神經網 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

AI 時代:關於人工智慧,你需要理解的一切

人工智慧時代:關於人工智慧你需要知道的一切

基本概念

神經網路:神經網路是由大量相互存取的細胞組成的,這些細胞形成了複雜的網路,能夠執行任務並儲存訊息。在軟體中重現這一令人驚嘆的系統,自 20 世紀 60 年代以來就開始嘗試,但直到 15-20 年前,GPU 的出現使得數位化神經網路得以迅速發展。神經網路是由資料點和存取點組成的,點代表資料,線代表這些數值之間的統計關係。透過這種方式,它可以建立一個靈活的系統,快速地將輸入透過網路傳遞,然後產生輸出。這個系統被稱為模型。

模型:模型是接受輸入並返回輸出的實際程式碼集合。與統計模型或模擬複雜自然過程的建模系統相似,這種稱呼的相似性並非偶然。在人工智慧中,模型可以指一個完整的系統,例如 ChatGPT,或幾乎任何人工智慧機器學習的結構,不論它做什麼或產生什麼。

訓練:建立一個人工智慧模型,需要將構成系統基礎的神經網路暴露於一些訊息中,這被稱為資料集或語料庫。透過這樣做,這些大型網路可以建立該資料的統計表示。這個訓練過程是最需要計算的部分,意味著需要在大量高效能計算機上進行數週甚至數月的計算。這是因為神經網路非常複雜,資料集可能非常大,需要進行分析並在大型統計模型中表示。另一方面,一旦模型訓練完成,它在使用時可能要小得多並且較不需要計算,這一過程稱為推論。

推論:當模型真正發揮作用時,我們稱之為推論,這和我們常規理解的推論非常相似:透過現有證據進行推理得出結論。當然這不完全是“推理”,而是透過對所吸收的資料中的資料進行統計聯接,實際上是預測下一個資料點。舉例來說當問到“完成以下序列:紅色,橙色,黃色…”時,它會發現這些詞與它吸收的列表的開頭相對應,即代表彩虹顏色,並推斷出接下來的專案,直到它產生了該列表的其餘部分。推論通常比訓練過程的計算開銷要小得多:可以將它看作是查詢卡片目錄而不是組裝它。大型模型仍然需要在超級計算機和 GPU 上執行,但較小的模型可以在慧手機或更簡單的裝置上執行。

生成型人工智慧現在人人都在談論生成型人工智慧,這個廣義的術語意味著人工智慧模型可以生成原始結果,例如影象或文字。一些人工智慧可以進行總結,一些可以重新組織,一些可以識別等等 — 但現在特別流行的是一種真正可以生成東西的人工智慧模型(無論它是否“創造”可以爭議)。只是要記住,僅僅因為人工智慧生成了某些內容,這並不意味著它是正確的,甚至並不一定反映現實!它只是你請求它之前不存在的東西,就像故事或畫作。

重要詞語

大型語言模型:大型語言模型是當前最具影響力和多功能的人工智慧形式,它們的訓練是基於構成網際網路和英語文學大部分的所有文字。透過吸收這些文字,它們可以建立一個巨大的基礎模型。大型語言模型能夠以自然語言進行對話和回答問題,模仿各種風格和檔案型別,正如 ChatGPT、Claude 和 LLaMa 所展示的那樣。儘管這些模型令人印象深刻,但必須牢記它們仍然是一種模式識別引擎,當它們給出答案時,實際上只是試圖完成它識別到的模式,無論這個模式是否反映現實。大型語言模型在回答問題時經常產生幻覺,我們將很快討論這一點。

基礎模型:從頭開始在龐大的資料集上訓練一個巨大模型的成本高昂且複雜,所以你不希望不得不重新訓練它。基礎模型是需要超級計算機執行的龐大模型,但它們可以被修剪成合適的尺寸,通常透過減少引數數量。你可以將這種引數看作是模型可以使用的總資料點,現如今它可以是以百萬、十億甚至萬億計數。精細調整像 GPT-4 這樣的基礎模型是明的,因為它具有慧,但也設計為全能性 — 它吸收了從狄更斯到維特根斯坦再到龍與地下城規則的所有東西,但如果你希望它幫助你寫一封求職信,這些對它而言並不有幫助。幸運的是,模型可以透過使用一個專門的資料集進行一些額外的訓練來進行精細調整,例如用一些可能存在的數千個工作申請。這樣一來,模型在該領域中能更好地幫助你而不會放棄它從其它訓練資料中獲得的通用知識。人們與大型語言模型進行互動的資料將用於加固學習人類反饋,也會常常提到。

擴散:擴散是影象生成的一種方法,到當前為止,它是最成功的方法。這也是穩定擴散、Midjourney 和其他流行的生成型人工智慧技術的核心技術。擴散模型是透過逐步新增數位噪音來逐步降低影象來訓練的,直到原始影象消失。透過觀察這一過程,擴散模型也學會了反向過程,逐步增加純粹噪音的細節,以形成任意定義的影象。在影象生成方面,我們已經開始超越這一點,但這一技術是可靠且相對很容易理解的,所以不要指望它會很快消失。

幻覺:最初,這是一個問題,是指訓練中某些影像滲入與其無關的輸出中,比如因為在訓練集中狗的數量過多而導致的建築物看起來像是由狗建造的。現在當一個人工智慧因為其訓練集中的資料不足或存在衝突時,該人工智慧被認為是在幻覺。這可能是一個資產,也可能是一個負擔;當要求人工智慧建立原創性甚至偶有得從未存在於其資料集中的藝術作品時,它就在幻想其輸出;大型語言模型可以被要求以佳吉·貝拉(Yogi Berra)的風格寫一首愛情詩,它將愉快地這樣做 — 即使該風格在其資料集中是不存在的。但當需要確保事實答案時,這個問題就成為了一個問題;模型將自信地提出一個既是半真實又是半幻覺的回答。當前除非自己檢查,否則沒有容易識別真假宣告的方法,因為模型本身實際上並不知道什麼是“真實”或“假的”,它只是在力所能及的情況下盡力完成一個模式。強人工智慧或強 AI人工智慧(AGI)

人工智慧人工智慧或 AGI 是一個並不確保的概念,但最簡單的解釋是它是一種足夠強大的慧,不僅可以做人類所做的事情,還可以像我們一樣學習和改進自身。有人擔心這種學習、整合想法,然後快速學習和增長的迴圈將產生一種不可遏制或控制的超慧系統。有人甚至建議延遲或約束研究,以防止這種可能性。這是一個令人害怕的想法,當然電影《駭客帝國》和《終結者》探索了如果人工智慧失控並試圖消滅或奴役人類會發生什麼情況。但這些故事並不基於現實。我們在像 ChatGPT 中看到的慧表現,是一個令人印象深刻的表演,但與我們所認為的“真實”慧的抽象推理和動態多領域活動幾乎沒有共同之處。雖然很難預測事情的發展,但把 AGI 想像成星際航行一樣是有幫助的:我們都理解這一概念並且似乎在努力實現它,但與此同時我們實際上距離實現這樣的東西非常遠。由於所需的巨大資源和基本科學進步,沒有人會意外地突然取得這個成就! AGI 是有趣的,但在 AI 已經在眾多領域造成實際而且重要的威脅的情況下,沒有借鑒麻煩的理由,正如評論者指出的那樣,儘管對其局限性,AI 已經是對人們產生實際影響的問題。沒有人想要 Skynet,但是你並不需要一個配備核武器的超慧來造成真實的傷害:人們正在失去工作,被虛假訊息欺騙。如果我們無法解決這些問題,面對一個 T-1000,我們還能有什麼機會呢?

主要參與者

OpenAI如果有一個在人工智慧領域備受矚目的名字,那就是 OpenAI。正如其名所示,OpenAI 最初是一個旨在進行研究並開放地提供結果的組織。它後來改組為一家更傳統的盈利型公司,透過 API 和應用程式提供對其在語言模型方面的進步的存取。其執行長萬萬博是一位科技億萬富翁,儘管如此他也曾警告過人工智慧可能帶來的風險。OpenAI 是大型語言模型領域的領導者,但也在其他領域進行研究。

Microsoft:正如你所預期的那樣,微軟在人工智慧研究方面做了相當多的工作,但與其他公司一樣,它並未能將其實驗轉化為主要產品。它最明的舉動是早期投資於 OpenAI,這使它獲得了與該公司的獨家長期合作夥伴關係,而現在微軟的 Bing 對話代理即由 OpenAI 提供支援。雖然微軟自己的貢獻較小且不太適用,但該公司在研究領域的存在是相當重要的。

Google:作為“大膽行動”公司,Google 在人工智慧領域存在著一些遺憾,儘管其研究人員實際上創造了直接導致今天人工智慧繁榮的技術:Transformer。現在 Google 正在努力發展自己的大型語言模型和其他慧體,但在過去的十年中,它在提升過時的“虛擬助手”概念的人工智慧方面耗費了大量的時間和金錢。執行長桑德爾·皮查伊(Sundar Pichai)多次表示該公司正在堅定地將自己與搜尋和生產力領域的人工智慧保持一致。

Anthropic:在 OpenAI 轉變為不公開組織後,Dario 和 Daniela Amodei 離開 OpenAI 成立了 Anthropic,意圖填補一個開放和具有道德考慮的人工智慧研究組織的角色。他們有足夠的資金,是 OpenAI 的嚴肅競爭對手,即使像 Claude 這樣的他們的模型還不太流行或著名。

Stability:Stability 代表“隨心所欲”的開源人工智慧實現方式,它將網際網路上的一切的內容納入並使生成型人工智慧模型免費可用(如果你有執行它的硬體)。這非常符合“訊息想要自由”的哲學,但也加速了在未經允許的情況下生成具有混淆倫理的色情影象和使用慧財產權(有時是同時)。此公司頗有爭議,但也不可避免。

埃隆·馬斯克:作為不甘示弱的人,馬斯克對於對控制不住的人工智慧的恐懼一直表示公開,這還包括他在早期對 OpenAI 的貢獻後不喜歡該公司的方向。儘管馬斯克在這個話題上不是一個專家,但像往常一樣,他的行為和評論引起了廣泛的回應(他是上述“AI 暫停”信件的簽署人之一),他試圖開始建立自己的研究機構。

最新人工智慧故事

以下是近期人工智慧領域的最新故事:

  • OpenAI 推出 GPT-4:從 2023 年 7 月 6 日開始,所有現有的 OpenAI API 開發人員如果有“成功付款的歷史記錄”就可以存取 GPT-4。該公司計劃在 7 月底之前向新開發人員開放存取,之後會根據計算可用性提高可用性約束。從 2024 年 1 月 4 日開始,某些較早的 OpenAI 模型(特別是 GPT-3 及其衍生模型)將不再可用,並將被新的“基礎 GPT-3”模型取而代之。使用舊模型的開發人員必須在 2022 年 1 月 4 日之前手動升級其整合,希望在 2022 年 1 月 4 日之後繼續使用較老的模型的人員需要在新的基礎 GPT-3 模型之上進行精細調整。
  • 歐洲技術領導者發出公開信,警告歐盟的 AI 法律草案對 AI 過度管制:這封公開信指出,人工智慧提供了“重返科技前衛”的機會,但當前歐盟層面的監管建議可能會導致扼殺機會。Inflection 向 AI 上的個人投資 13 億美元,以建立更“個人化”的人工智慧人工智慧新創公司 Inflection AI 已經完成了由微軟、Reid Hoffman、比爾·蓋茨、埃裏克·施密特和新投資者 Nvidia 領投的 13 億美元融資輪。執行長穆斯塔法·蘇萊曼(Mustafa Suleyman)曾經共同創立 Google 旗下的人工智慧實驗室 DeepMind,他表示新的資本將支援 Inflection 開發和設計其第一款產品 Pi,這是一款名為 Pi 的 AI 助手。
  • 中國可能在新的美國禁令中進一步失去晶片獲得:美國商務部可能在下個月初(7 月)禁止向中國的客戶出口包括英做(Nvidia)在內的晶片。美國這一對 AI 晶片出口增加了額外的約束措施使 AI 晶片的出口受到約束,這是為了約束中國在人工智慧領域的進展,特別是在軍事領域。然而這些措施也對中國的商業人工智慧領域產生了不利影響,因為許多公司在中國和美國兩國都有團隊。
  • ChatGPT 開始使用 Bing,而 Bing 使用 ChatGPT:ChatGPT Plus 訂閱者現在可以在 ChatGPT 應用程式上使用一個名為 Browsing 的新功能,這個功能允許 ChatGPT 搜尋 Bing 以回答提示或問題。OpenAI 表示 Browsing 功能對於涉及當前事件和其他“超出[ChatGPT]原始訓練資料”的訊息特別有用。當禁用 Browsing 時,ChatGPT 的知識截止於 2021 年。
  • 人工智慧無法贏得格萊美獎:如果一位音樂人透過人工智慧輔助創作的作品有資格獲得格萊美獎提名,他們將需要確保他們的人工貢獻是“有意義且超出最小限度”的,該規則現在如此規定。格萊美獎的資格標準更新後指出:“只有人類創作者有資格參與提名,”並且“不包含任何人類作者的作品在任何類別中也不合格”。
  • Google 悄然為所有產品加入了一點人工智慧:Google 正在努力追趕人工智慧領域,儘管它正在投入大量資源,但它的策略仍然有點模糊。舉個例子,它的 I/O 2023 活動充滿了實驗性的功能,這些功能可能永遠不會面向廣大使用者。但他們確實在全力以赴,重新進入這個遊戲。
ArtificialIntelligence-人工智慧,AI,機器學習,深度學習,自然語言處理,慧機器,
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。