深度AI頭條

中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理

中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek AI 應用案例, AI, Android, 實用工具, 小工具, 小米, 教學

一個月前估計沒有人猜得到,2025 年的一開始,全美國的蘋果商店下載排行榜第一名,居然會被來自中國的 DeepSeek 奪下!DeepSeek 是杭州「深度求索」公司旗下的產品,它們的大模型從訓練方式到訓練出來的結果,都全部開源、毫無保留。

由於這款完全開源的模型,不僅在性能上比肩 OpenAI 的 GPT-4o,更以極低的訓練成本動搖了 AI 產業的「算力至上」邏輯。這讓美國矽谷甚至投資人開始緊張,擔心整個 AI 的局面開始偏向中國,沒辦法,那極低的成本真的太香了。

中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek AI 應用案例, AI, Android, 實用工具, 小工具, 小米, 教學

DeepSeek 的技術突破:重新定義大模型的成本曲線

DeepSeek R1 創新的關鍵,在於其「推理優先」的訓練架構。根據官方技術報告,該模型通過四階段流程實現——冷啟動 SFT強化學習調優拒絕採樣,以及全域 RL——在數學、代碼、邏輯推理等任務上達到頂尖水準,且訓練成本僅為傳統大模型的零頭。

  • 柏克萊大學研究員的實證UC Berkeley 團隊以 30 美元成本,在 3B 參數模型上成功復現了 R1-Zero 的自我驗證能力,證明小模型可通過純強化學習(RL)實現複雜推理。
  • 港科大效率革命:香港科技大學團隊僅用 8,000 個樣本,讓 7B 模型在 MATH 基準取得 77.2% 準確率,效率超越 50 倍數據量的傳統方法。
中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek AI 應用案例, AI, Android, 實用工具, 小工具, 小米, 教學

此技術路徑等於直接挑戰了「算力即護城河」的行業共識。正如 a16z 合夥人 Anjney Midha 所言:「若模型訓練成本曲線持續下探,科技巨頭的資本支出邏輯將面臨重估。」

冷啟動 SFT、強化學習調優、拒絕採樣,以及全場景強化學習

下面簡單說明一下,DeepSeek 的四大創新關鍵,到底是怎麼一回事。

冷啟動 SFT(監督微調)

所謂的「SFT」,是監督式微調(Supervised Fine-Tuning, SFT)的意思。

此階段目標是為基礎模型注入初步推理能力。研究團隊從數千個「長思維鏈」(Long Chain-of-Thought)樣本中,精選高品質數學、代碼、邏輯推理範例,對模型進行監督式微調(什麼是「監督式」?機器學習在訓練階段,可簡單分成「監督式學習」與「非監督式學習」以及「強化學習」。監督式學習有人類介入判斷數據正確性作為基礎,非監督式則沒有;強化學習等等下文會提到)

監督式微調是在預訓練模型(Pre-trained Model)基礎上,使用特定領域的標註數據進行二次訓練,以適應下游任務。

中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek AI 應用案例, AI, Android, 實用工具, 小工具, 小米, 教學

這些樣本包含詳細的逐步推導過程,類似「教練示範解題」,幫助模型建立基礎推理模式。例如,港科大團隊在後續實驗中發現,即使僅用 8K 此類樣本,也能讓 7B 參數模型在數學任務上達到 77.2% 準確率。此階段成本極低,卻為後續強化學習奠定關鍵基礎。

至於什麼是「冷啟動」?簡單講,這就類似當年 Google DeepMind 用最初的 16 萬場人類圍棋對局數據,訓練 AlphaGo(監督學習階段),後續才讓 AlphaGo 導入強化學習。此階段即為「冷啟動」,為後續自我對弈奠定基礎模式。

關於 AlphaGo 的介紹,我曾經寫過一篇長文,有時間的人可以參考:《AlphaGo 究竟是如何「思考」的?用國中生也能懂的語言說給你聽》

Aja Huang / Deepmind
強化學習調優(推理優先)

所謂的「強化學習」(Reinforcement Learning, RL),是機器學習的三大範式之一(與監督式學習、非監督式學習並列),其核心機制是:

智能體(Agent)通過與環境(Environment)的交互,根據獎勵信號(Reward)動態調整策略,以最大化長期累積獎勵。而這個機制的運行,一般而言是自動進行的,所以效率、速度會遠比監督式學習更高。

DeepSeek R1 訓練要素

要素 說明 實例
智能體 在這裏指被訓練的模型 模型在數學題庫中嘗試解題並自我驗證
環境 智能體互動的場景,如數學問題、代碼生成任務 MATH 數據集中的數學問題集
獎勵函數 評估智能體行為的量化指標,如正獎勵鼓勵、負獎勵懲罰 答案正確性、步驟完整性、格式規範性
策略 智能體根據當前狀態選擇行動的規則,即模型的生成邏輯 模型決定是否插入自我驗證步驟

在冷啟動的基礎上,團隊採用強化學習(RL)框架,針對程式設計、科學推論等高階任務進行調優。通過設計任務導向的獎勵函數(如答案正確性、解題步驟完整性),模型在與環境互動中自動最佳化解題策略。柏克萊團隊的 TinyZero 實驗證實,即使只是對 3B 小模型施加 RL 訓練,也能湧現「自我驗證」能力——模型會反覆檢視輸出結果,並動態修正錯誤。

此階段不依賴額外標註數據,而是透過演算法自動探索高效推理路徑。

監督式學習與強化學習比較

監督式學習 強化學習
數據需求 需人工標註輸入資料的正確性 僅需定義獎勵規則,無需標註每一步的正確行為
訓練目標 模仿人類示範 自主探索最佳策略
應用場景 確定性任務:如分類、結構化生成 動態決策任務:如遊戲、複雜推理
DeepSeek案例 冷啟動階段注入基礎推理能力 調優階段提升模型的高階解題策略
拒絕採樣與全域微調

為平衡模型的推理能力與通用性,DeepSeek 在此階段引入「拒絕採樣」(Rejection Sampling)機制:從海量生成結果中,篩選出符合人類偏好的高品質輸出,再對這些樣本進行二次監督微調。此舉強化了模型的事實準確性、對話流暢度等非推理能力,避免過度特化。

中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek AI 應用案例, AI, Android, 實用工具, 小工具, 小米, 教學

例如,在處理開放領域的問答時,模型會優先輸出結構清晰、資訊可靠的答案,而非單純追求邏輯複雜度,方便人類理解與閱讀。

全場景強化學習(對齊與安全)

DeepSeek 在最終階段採用多目標強化學習,將模型的應用範圍擴展至全場景。除了維持推理性能,更引入安全性、倫理約束等獎勵指標,確保輸出符合社會價值觀。例如,當用戶請求涉及敏感內容時,模型會自主觸發拒答機制。根據開源社區的復現成果,認為這階段的關鍵在於動態平衡不同獎勵的權重,使模型在多目標約束下仍保持高效產出。

當然,很多人對於 DeepSeek 大模型在某些議題上的審查、拒絕回答機制不滿,現在已經有團隊在進行 Open R1 計劃,要讓 DeepSeek R1 大模型做到真正的解放。

總而言之,DeepSeek 架構的突破性在於「低依賴、高彈性」——僅需極少量初始標註數據,即可通過演算法迭代激發模型潛能。正如技術報告所述:「當訓練流程足夠透明,效率革命將從開源社區開始。」

中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek AI 應用案例, AI, Android, 實用工具, 小工具, 小米, 教學

開源生態:從技術追趕到協作創新

DeepSeek-R1 採用 MIT 許可協議,開放完整訓練流程與數據集,此舉引發連鎖反應:

HuggingFace 的 Open R1 計畫

目標是補齊模型訓練管線(從數據蒸餾到 RL 階段)中的「缺失環節」,將技術報告轉化為可復現的開源代碼庫,目前 GitHub 星標已破 4.4k。

若 Open R1 最終成功開源完整的 RL 訓練框架(含安全模組),技術上將允許:

  • 權重再分配:修改 RL 階段的獎勵權重(如降低安全懲罰係數),使模型更傾向生成高風險內容。
  • 約束刪減:直接註釋或刪除代碼中與安全審查相關的獎勵計算部分。
中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek AI 應用案例, AI, Android, 實用工具, 小工具, 小米, 教學
學術界快速跟進

Stanford、MIT 等頂尖機構的研究員,已將 R1 列為許多開發上的首選工具,因為其開源屬性消除了商業授權的應用瓶頸。

Meta 首席 AI 科學家 Yann LeCun 指出:「這證明了開源模式不僅能追趕閉源系統,更能驅動技術民主化。」值得注意的是,DeepSeek 的成功建立在 Llama、PyTorch 等既有開源成果之上,形成「開放→改進→再開放」的正向循環。

換言之,DeepSeek 是「站在巨人的肩膀上改進大模型」,並不是自己完全從零到有的開發,所以成本非常低廉。然而,DeepSeek 選擇完全開源的做法,讓開源社區相當興奮,因為這正是大家最期待看見的結果。

中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek AI 應用案例, AI, Android, 實用工具, 小工具, 小米, 教學

DeepSeek 帶來的產業衝擊:矽谷的技術與商業雙重焦慮

儘管 DeepSeek 的「低成本」在業界有引起不少人質疑,但是它所帶來的衝擊已經發生:

  • 用戶端需求轉移:DeepSeek R1 在 Chatbot Arena 排行榜與 GPT-4o 並列第三,部分研究員坦言「已取代 ChatGPT 的日常使用」。
  • 硬體依存度下降:在美國的晶片出口管制下,DeepSeek 證明了人類可透過演算法優化與分散式訓練,來繞過頂級算力限制。

此現象引發兩極討論,像是 Y Combinator CEO Garry Tan 就認為,訓練成本下降將刺激推理需求暴增,反而推高算力需求。但也有不少人認為,DeepSeek 大幅降低 AI 算力的成本需求,可能會對整體西方 AI 產業帶來負面影響:

AI 普及化算力成本與需求分析

階段 技術影響 商業後果(對矽谷)
訓練成本下降 更多開發者可負擔模型訓練 市場競爭加劇,巨頭壟斷優勢削弱
推理需求暴增 模型應用場景爆發(如即時翻譯、客服) 雲端與本地的算力需求指數增長
算力需求上升 GPU / TPU 採購壓力增加 雲端服務商算力瓶頸惡化,成本提高卻延遲獲利;免費仔增加,付費仔自己建

矽谷遇到的麻煩:

西方科技巨頭(如 Google、Meta)的營利模式依賴雲端算力服務(AWS、Azure)與高階晶片銷售(NVIDIA)。若推理需求由「分散式低成本模型」驅動(如 DeepSeek R1),而非集中式巨頭模型(如 GPT 4),將導致:

  • 雲端服務邊際利潤下降:客戶傾向自建輕量模型,減少租用算力。
  • 晶片需求結構改變:高階 GPU 需求成長低於預期,中低階晶片(如可並行推理的 ASIC)崛起。

DeepSeek 帶來的 AI 時代新革命

DeepSeek 的案例揭示三大趨勢:

效率優先:當模型性能不再與數據量、算力投入有著絕對綁定關係,「輕量化訓練 + 精準調優」可能成為新常態。

開源協作活力無限:閉源系統的技術壁壘逐漸瓦解,企業需重新定位自身在開放生態中的價值(如提供垂直領域的數據服務)。

技術平民化:如達文西說過的:「簡單,是複雜的最高境界。」未來的 AI 競爭力,或許將會取決於「如何讓技術服務場景」,而不是單純的堆砌資源,做出一個好像很厲害,但是成本很高、大部分功能用戶不需要的巨獸。

中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek AI 應用案例, AI, Android, 實用工具, 小工具, 小米, 教學

當技術的可行性達到最大值的時候(因為 DeepSeek 的成本足夠低廉,人類可以更大規模普及 AI 的使用),組件足夠多、協作機制足夠成熟,「通用性」將會自然而然的湧現,人民期待的「AGI」通用人工智慧就會誕生。

通用人工智慧的背後,是足夠的技術積累(簡單是複雜的最高境界,看似簡單,但背後其實很複雜),以及足夠的普及。DeepSeek 很有可能讓整個 AI 產業在人群中普及開來,每個人的手機都能內建一個 1.5B ~ 3B 的小模型時,AI 才能真正走入大眾生活日用當中。

中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek AI 應用案例, AI, Android, 實用工具, 小工具, 小米, 教學

最後,DeepSeek R1 的崛起,既是中國 AI 技術突破的里程碑,更是全球開源社區協同創新的縮影。當訓練成本從千萬、上億美元,降至數百萬的等級,當 30 美元即可實現驗證演算法突破,AI 產業的遊戲規則正在改寫——這場由開源驅動的效率革命,終將迫使所有參與者回答一個根本問題:

「我們究竟該為簡單、便宜的技術付費,還是為不必要的複雜性買單?」

中國 AI 服務 DeepSeek 奪下美國蘋果商店下載排行榜第一名!探討 DeepSeek 的背後原理 DeepSeek AI 應用案例, AI, Android, 實用工具, 小工具, 小米, 教學

補充資訊(1 / 28 更新):

發現台灣人對於 DeepSeek,只關心「六四天安門不能提」以及「這 600 萬美元成本一定是假的」

  • 關於六四天安門事件:人家 DeepSeek 都開源了,你下載來自己調整就沒這問題了,可以期待本文提到的 Huggingface Open R1 計劃。
  • 關於成本計算:這 600 萬美元的算法,我沒猜錯的話,是「GPU 租用成本」的算法。
  • DeepSeek 深度求索公司的背後,是幻方量化,幻方手上有很多 NV 的 H800。在 DeepSeek 訓練成本的計算上,應該是「深度求索公司跟母公司租用 GPU 的時數費用」(成本價)在計算。
  • 2,048 塊 H800,訓練 1,440 小時,算下來的成本大約就是 600 萬美元(以每小時 2 美元計算,訓練 2 個月,成本大約是 5,898,240 美元)。
  • 很多人在說「買伺服器花了幾個億,成本怎麼可能才 600 萬」,恐怕都是誤會了:

資本支出是資本支出,租用成本是租用成本。

DeepSeek 都把模型、訓練方式、訓練環境、成本全部公開,誰都可以用一樣的環境去驗證,這不存在什麼騙不騙的問題。

Written by
黃郁棋

《科技人》站長,在科技業打滾十年的老屁股,每天都覺得自己要被新技術取代了,完了完了。

公開留言

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

打賞科技人|祝您有個美好的一天