深度AI頭條

中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理

中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek 深度, AI, 頭條

一個月前估計沒有人猜得到,2025 年的一開始,全美國的蘋果商店下載排行榜第一名,居然會被來自中國的 DeepSeek 奪下!DeepSeek 是杭州「深度求索」公司旗下的產品,它們的大模型從訓練方式到訓練出來的結果,都全部開源、毫無保留。

由於這款完全開源的模型,不僅在性能上比肩 OpenAI 的 GPT-4o,更以極低的訓練成本動搖了 AI 產業的「算力至上」邏輯。這讓美國矽谷甚至投資人開始緊張,擔心整個 AI 的局面開始偏向中國,沒辦法,那極低的成本真的太香了。

中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek 深度, AI, 頭條

DeepSeek 的技術突破:重新定義大模型的成本曲線

DeepSeek R1 創新的關鍵,在於其「推理優先」的訓練架構。根據官方技術報告,該模型通過四階段流程實現——冷啟動 SFT強化學習調優拒絕採樣,以及全域 RL——在數學、代碼、邏輯推理等任務上達到頂尖水準,且訓練成本僅為傳統大模型的零頭。

  • 柏克萊大學研究員的實證UC Berkeley 團隊以 30 美元成本,在 3B 參數模型上成功復現了 R1-Zero 的自我驗證能力,證明小模型可通過純強化學習(RL)實現複雜推理。
  • 港科大效率革命:香港科技大學團隊僅用 8,000 個樣本,讓 7B 模型在 MATH 基準取得 77.2% 準確率,效率超越 50 倍數據量的傳統方法。
中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek 深度, AI, 頭條

此技術路徑等於直接挑戰了「算力即護城河」的行業共識。正如 a16z 合夥人 Anjney Midha 所言:「若模型訓練成本曲線持續下探,科技巨頭的資本支出邏輯將面臨重估。」

冷啟動 SFT、強化學習調優、拒絕採樣,以及全場景強化學習

下面簡單說明一下,DeepSeek 的四大創新關鍵,到底是怎麼一回事。

冷啟動 SFT(監督微調)

所謂的「SFT」,是監督式微調(Supervised Fine-Tuning, SFT)的意思。

此階段目標是為基礎模型注入初步推理能力。研究團隊從數千個「長思維鏈」(Long Chain-of-Thought)樣本中,精選高品質數學、代碼、邏輯推理範例,對模型進行監督式微調(什麼是「監督式」?機器學習在訓練階段,可簡單分成「監督式學習」與「非監督式學習」以及「強化學習」。監督式學習有人類介入判斷數據正確性作為基礎,非監督式則沒有;強化學習等等下文會提到)

監督式微調是在預訓練模型(Pre-trained Model)基礎上,使用特定領域的標註數據進行二次訓練,以適應下游任務。

中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek 深度, AI, 頭條

這些樣本包含詳細的逐步推導過程,類似「教練示範解題」,幫助模型建立基礎推理模式。例如,港科大團隊在後續實驗中發現,即使僅用 8K 此類樣本,也能讓 7B 參數模型在數學任務上達到 77.2% 準確率。此階段成本極低,卻為後續強化學習奠定關鍵基礎。

至於什麼是「冷啟動」?簡單講,這就類似當年 Google DeepMind 用最初的 16 萬場人類圍棋對局數據,訓練 AlphaGo(監督學習階段),後續才讓 AlphaGo 導入強化學習。此階段即為「冷啟動」,為後續自我對弈奠定基礎模式。

關於 AlphaGo 的介紹,我曾經寫過一篇長文,有時間的人可以參考:《AlphaGo 究竟是如何「思考」的?用國中生也能懂的語言說給你聽》

Aja Huang / Deepmind
強化學習調優(推理優先)

所謂的「強化學習」(Reinforcement Learning, RL),是機器學習的三大範式之一(與監督式學習、非監督式學習並列),其核心機制是:

智能體(Agent)通過與環境(Environment)的交互,根據獎勵信號(Reward)動態調整策略,以最大化長期累積獎勵。而這個機制的運行,一般而言是自動進行的,所以效率、速度會遠比監督式學習更高。

DeepSeek R1 訓練要素

要素 說明 實例
智能體 在這裏指被訓練的模型 模型在數學題庫中嘗試解題並自我驗證
環境 智能體互動的場景,如數學問題、代碼生成任務 MATH 數據集中的數學問題集
獎勵函數 評估智能體行為的量化指標,如正獎勵鼓勵、負獎勵懲罰 答案正確性、步驟完整性、格式規範性
策略 智能體根據當前狀態選擇行動的規則,即模型的生成邏輯 模型決定是否插入自我驗證步驟

在冷啟動的基礎上,團隊採用強化學習(RL)框架,針對程式設計、科學推論等高階任務進行調優。通過設計任務導向的獎勵函數(如答案正確性、解題步驟完整性),模型在與環境互動中自動最佳化解題策略。柏克萊團隊的 TinyZero 實驗證實,即使只是對 3B 小模型施加 RL 訓練,也能湧現「自我驗證」能力——模型會反覆檢視輸出結果,並動態修正錯誤。

此階段不依賴額外標註數據,而是透過演算法自動探索高效推理路徑。

監督式學習與強化學習比較

監督式學習 強化學習
數據需求 需人工標註輸入資料的正確性 僅需定義獎勵規則,無需標註每一步的正確行為
訓練目標 模仿人類示範 自主探索最佳策略
應用場景 確定性任務:如分類、結構化生成 動態決策任務:如遊戲、複雜推理
DeepSeek案例 冷啟動階段注入基礎推理能力 調優階段提升模型的高階解題策略
拒絕採樣與全域微調

為平衡模型的推理能力與通用性,DeepSeek 在此階段引入「拒絕採樣」(Rejection Sampling)機制:從海量生成結果中,篩選出符合人類偏好的高品質輸出,再對這些樣本進行二次監督微調。此舉強化了模型的事實準確性、對話流暢度等非推理能力,避免過度特化。

中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek 深度, AI, 頭條

例如,在處理開放領域的問答時,模型會優先輸出結構清晰、資訊可靠的答案,而非單純追求邏輯複雜度,方便人類理解與閱讀。

全場景強化學習(對齊與安全)

DeepSeek 在最終階段採用多目標強化學習,將模型的應用範圍擴展至全場景。除了維持推理性能,更引入安全性、倫理約束等獎勵指標,確保輸出符合社會價值觀。例如,當用戶請求涉及敏感內容時,模型會自主觸發拒答機制。根據開源社區的復現成果,認為這階段的關鍵在於動態平衡不同獎勵的權重,使模型在多目標約束下仍保持高效產出。

當然,很多人對於 DeepSeek 大模型在某些議題上的審查、拒絕回答機制不滿,現在已經有團隊在進行 Open R1 計劃,要讓 DeepSeek R1 大模型做到真正的解放。

總而言之,DeepSeek 架構的突破性在於「低依賴、高彈性」——僅需極少量初始標註數據,即可通過演算法迭代激發模型潛能。正如技術報告所述:「當訓練流程足夠透明,效率革命將從開源社區開始。」

中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek 深度, AI, 頭條

開源生態:從技術追趕到協作創新

DeepSeek-R1 採用 MIT 許可協議,開放完整訓練流程與數據集,此舉引發連鎖反應:

HuggingFace 的 Open R1 計畫

目標是補齊模型訓練管線(從數據蒸餾到 RL 階段)中的「缺失環節」,將技術報告轉化為可復現的開源代碼庫,目前 GitHub 星標已破 4.4k。

若 Open R1 最終成功開源完整的 RL 訓練框架(含安全模組),技術上將允許:

  • 權重再分配:修改 RL 階段的獎勵權重(如降低安全懲罰係數),使模型更傾向生成高風險內容。
  • 約束刪減:直接註釋或刪除代碼中與安全審查相關的獎勵計算部分。
中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek 深度, AI, 頭條
學術界快速跟進

Stanford、MIT 等頂尖機構的研究員,已將 R1 列為許多開發上的首選工具,因為其開源屬性消除了商業授權的應用瓶頸。

Meta 首席 AI 科學家 Yann LeCun 指出:「這證明了開源模式不僅能追趕閉源系統,更能驅動技術民主化。」值得注意的是,DeepSeek 的成功建立在 Llama、PyTorch 等既有開源成果之上,形成「開放→改進→再開放」的正向循環。

換言之,DeepSeek 是「站在巨人的肩膀上改進大模型」,並不是自己完全從零到有的開發,所以成本非常低廉。然而,DeepSeek 選擇完全開源的做法,讓開源社區相當興奮,因為這正是大家最期待看見的結果。

中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek 深度, AI, 頭條

DeepSeek 帶來的產業衝擊:矽谷的技術與商業雙重焦慮

儘管 DeepSeek 的「低成本」在業界有引起不少人質疑,但是它所帶來的衝擊已經發生:

  • 用戶端需求轉移:DeepSeek R1 在 Chatbot Arena 排行榜與 GPT-4o 並列第三,部分研究員坦言「已取代 ChatGPT 的日常使用」。
  • 硬體依存度下降:在美國的晶片出口管制下,DeepSeek 證明了人類可透過演算法優化與分散式訓練,來繞過頂級算力限制。

此現象引發兩極討論,像是 Y Combinator CEO Garry Tan 就認為,訓練成本下降將刺激推理需求暴增,反而推高算力需求。但也有不少人認為,DeepSeek 大幅降低 AI 算力的成本需求,可能會對整體西方 AI 產業帶來負面影響:

AI 普及化算力成本與需求分析

階段 技術影響 商業後果(對矽谷)
訓練成本下降 更多開發者可負擔模型訓練 市場競爭加劇,巨頭壟斷優勢削弱
推理需求暴增 模型應用場景爆發(如即時翻譯、客服) 雲端與本地的算力需求指數增長
算力需求上升 GPU / TPU 採購壓力增加 雲端服務商算力瓶頸惡化,成本提高卻延遲獲利;免費仔增加,付費仔自己建

矽谷遇到的麻煩:

西方科技巨頭(如 Google、Meta)的營利模式依賴雲端算力服務(AWS、Azure)與高階晶片銷售(NVIDIA)。若推理需求由「分散式低成本模型」驅動(如 DeepSeek R1),而非集中式巨頭模型(如 GPT 4),將導致:

  • 雲端服務邊際利潤下降:客戶傾向自建輕量模型,減少租用算力。
  • 晶片需求結構改變:高階 GPU 需求成長低於預期,中低階晶片(如可並行推理的 ASIC)崛起。

DeepSeek 帶來的 AI 時代新革命

DeepSeek 的案例揭示三大趨勢:

效率優先:當模型性能不再與數據量、算力投入有著絕對綁定關係,「輕量化訓練 + 精準調優」可能成為新常態。

開源協作活力無限:閉源系統的技術壁壘逐漸瓦解,企業需重新定位自身在開放生態中的價值(如提供垂直領域的數據服務)。

技術平民化:如達文西說過的:「簡單,是複雜的最高境界。」未來的 AI 競爭力,或許將會取決於「如何讓技術服務場景」,而不是單純的堆砌資源,做出一個好像很厲害,但是成本很高、大部分功能用戶不需要的巨獸。

中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek 深度, AI, 頭條

當技術的可行性達到最大值的時候(因為 DeepSeek 的成本足夠低廉,人類可以更大規模普及 AI 的使用),組件足夠多、協作機制足夠成熟,「通用性」將會自然而然的湧現,人民期待的「AGI」通用人工智慧就會誕生。

通用人工智慧的背後,是足夠的技術積累(簡單是複雜的最高境界,看似簡單,但背後其實很複雜),以及足夠的普及。DeepSeek 很有可能讓整個 AI 產業在人群中普及開來,每個人的手機都能內建一個 1.5B ~ 3B 的小模型時,AI 才能真正走入大眾生活日用當中。

中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek 深度, AI, 頭條

最後,DeepSeek R1 的崛起,既是中國 AI 技術突破的里程碑,更是全球開源社區協同創新的縮影。當訓練成本從千萬、上億美元,降至數百萬的等級,當 30 美元即可實現驗證演算法突破,AI 產業的遊戲規則正在改寫——這場由開源驅動的效率革命,終將迫使所有參與者回答一個根本問題:

「我們究竟該為簡單、便宜的技術付費,還是為不必要的複雜性買單?」

中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek 深度, AI, 頭條

補充資訊(1 / 28 更新):

發現台灣人對於 DeepSeek,只關心「六四天安門不能提」以及「這 600 萬美元成本一定是假的」

  • 關於六四天安門事件:人家 DeepSeek 都開源了,你下載來自己調整就沒這問題了,可以期待本文提到的 Huggingface Open R1 計劃。
  • 關於成本計算:這 600 萬美元的算法,我沒猜錯的話,是「GPU 租用成本」的算法。
  • DeepSeek 深度求索公司的背後,是幻方量化,幻方手上有很多 NV 的 H800。在 DeepSeek 訓練成本的計算上,應該是「深度求索公司跟母公司租用 GPU 的時數費用」(成本價)在計算。
  • 2,048 塊 H800,訓練 1,440 小時,算下來的成本大約就是 600 萬美元(以每小時 2 美元計算,訓練 2 個月,成本大約是 5,898,240 美元)。
  • 很多人在說「買伺服器花了幾個億,成本怎麼可能才 600 萬」,恐怕都是誤會了:

資本支出是資本支出,租用成本是租用成本。

DeepSeek 都把模型、訓練方式、訓練環境、成本全部公開,誰都可以用一樣的環境去驗證,這不存在什麼騙不騙的問題。

Written by
黃郁棋

《科技人》站長,在科技業打滾十年的老屁股,每天都覺得自己要被新技術取代了,完了完了。

公開留言

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

打賞科技人|祝您有個美好的一天:)