AI軟體

類似 ChatGPT 的開源 AI 模型出現了:但可能沒有你想得那麼好

類似 ChatGPT 的開源 AI 模型出現了:但可能沒有你想得那麼好 chatgpt,AI AI 應用案例, AI, 頭條

Philip Wang 本週發布了一款「PaLM + RLHF」文字生成模型,其行為與 OpenAI 的 ChatGPT 類似。該系統將 Google 的 PaLM 大型語言模型與名為「強化學習加人類反饋」(Reinforcement Learning with Human Feedback,簡稱 RLHF)的技術結合起來,可以完成 ChatGPT 能做到的幾乎所有任務,包括起草電子郵件和建議你怎麼寫程式。

然而,想像是美好的,現實是骨感的,PaLM + RLHF 並沒有預先訓練。也就是說,該系統尚未對網上的示例資料進行訓練,使其實際執行。所以,下載 PaLM + RLHF 不會神奇地得到類似 ChatGPT 的體驗,這需要從模型可以學習的位元組文字中,編譯數十萬字並找到足夠強大的硬體來處理訓練工作量。

像 ChatGPT 一樣,PaLM + RLHF 本質上是一個用於預測單詞的統計工具。當向其提供大量的訓練資料的示例(例如 Reddit 上的帖子,新聞文章和電子書)時,PaLM + RLHF 會根據周圍文字的語義上下文等模式學習單詞出現的可能性。

ChatGPT 和 PaLM + RLHF 共享「強化學習加人類反饋」這種技術,旨在使語言模型與使用者希望它們完成的任務更好地接軌。RLHF 包括訓練語言模型(在 PaLM + RLHF 的情況下是 PaLM),並對其進行微調,使其基於包含提示(例如:「向六歲兒童解釋機器學習」)的數據集進行訓練,而該數據集配有人類志願者期望模型說出的內容(例如回答:「機器學習是一種人工智慧……」)。然後,再將上述提示提供給經過微調的模型,讓該模型生成多個響應,並由志願者將所有響應從最好到最差做排序。

類似 ChatGPT 的開源 AI 模型出現了:但可能沒有你想得那麼好 chatgpt,AI AI 應用案例, AI, 頭條

最終,使用排名來訓練「獎勵模型」,該模型將原始模型的響應按偏好順序排序,並對給定提示的最佳答案進行過濾。

收集訓練數據是一項昂貴的過程,而且訓練本身也不便宜。PaLM 的大小為 5400 億個參數,「參數」是指從訓練數據學到的語言模型這部分。根據 2020 年的一項研究估計,只有 15 億個參數的文本,生成模型的開發費用就高達 160 萬美元。而且,使用 384 個 nVidia A100 GPUs 訓練多達 176 億個參數的開源模型 Bloom 需要三個月的時間,單個 A100 執行 PaLM + RLHF 訓練模型也不是件簡單的事。

Bloom 需要一台配備大約 8 個 A100 GPUs 的專用電腦,雲端選項的價格也不菲,推算若在 Amazon Web Services 上執行大約有 175 億個引數的 OpenAI 文字生成,GPT-3 的價格約為 87000 美元/年。

總而言之,ChatGPT 之所以厲害,是因爲 Open AI 投入了無數資源在裏頭,無論是大數據資料、還是監督式學習的人工答案,這一切都非常昂貴且費時,當這個數據量達到某種天量的時候,它自然而然就成為了一個護城河:你不願意投入對等資源,自然就做不到 ChatGPT 這種程度的 AI。

不過,若有大公司願意投入一樣多的資源,再多生出幾個類似 ChatGPT 的機器人,是絕對做得到的事。

Written by
黃郁棋

《科技人》站長,在科技業打滾十年的老屁股,每天都覺得自己要被新技術取代了,完了完了。

2 Comments

  • Definitely believe thazt which you stated. Your favorkte justification appeared too bbe on thee interrnet thhe easiiest thkng to be aware of.
    I say to you, I definitey get irkjed whkle peoppe consider worries
    that they plainl ddo not now about. You managed tto
    hit thhe nail upo thhe top andd defined out the
    whole thing without having side-effects , people ccan take a signal.

    Will probably bee bafk to get more. Thanks

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

打賞科技人|祝您有個美好的一天:)