Anthropic 7 月 2 日公開 Fable 5 的 cyber safeguards 與 jailbreak framework,延續前一天 Fable 5 重新全球開放的脈絡。公司說明,美國政府 6 月 12 日曾對 Claude Fable 5 與 Claude Mythos 5 套用出口管制,因 Anthropic 無法即時可靠驗證使用者國籍,最後暫停兩個模型供所有使用者存取。6 月 30 日管制解除後,Fable 5 自 7 月 1 日重新開放。
這次補充說明的重點,不只是模型回到市場,而是 Anthropic 試圖把高能力模型的資安風險拆成可討論、可檢測、可分級的問題。當模型能力接近或超過專業安全工具,發布節奏就不再只由產品團隊決定,還會受到政府、雲端平台、企業客戶與安全研究社群共同牽動。

Anthropic 把 Fable 5 與 Mythos 5 切成不同風險路徑
Anthropic 文件顯示,Claude Fable 5 是廣泛發布的高能力模型,Claude Mythos 5 則與 Fable 5 共享能力但不含同樣的 safety classifiers,僅提供給 Project Glasswing 的核准客戶。這種設計讓 Anthropic 可以把一般推理與長程代理任務提供給更廣泛市場,同時把更高風險的資安能力留在受控環境。
這種分層發布方式,反映前沿模型已經接近基礎設施產品。模型不只是聊天介面,也會進入 Claude API、Claude Code、雲端平台與企業工作流。只要某些能力可能協助漏洞利用或惡意自動化,供應商就必須證明自己有方法把防禦研究、一般開發與高風險攻擊能力分開處理。

Fable 5 新分類器把特定繞過手法封鎖在九成九以上
Anthropic 在說明中提到,出口管制事件與一份 Amazon 研究人員的繞過報告有關。該報告讓 Fable 5 在特定提示下辨識多個軟體漏洞,並在一個案例中產生可展示漏洞利用方式的程式碼。Anthropic 認為這沒有暴露 Mythos 級的獨特攻擊能力,但仍訓練了改良版安全分類器。
公司表示,新分類器可以在超過 99% 的情況下阻擋報告描述的特定技術;代價是 routine coding 與 debugging 中的良性請求更可能被誤擋。這是高能力模型安全最難平衡的地方:防線太鬆會放大濫用風險,防線太緊會傷害正常工程工作。
Jailbreak 分級框架將成為模型供應鏈共同語言
Anthropic 主張,產業需要一致方法評估 jailbreak 的嚴重度,協助模型開發商分類、修補並和政府及產業夥伴溝通風險。這個方向很務實,因為所有高能力模型都可能被測試、繞過或誤用;沒有共同語言時,外界很難判斷某次繞過究竟是產品瑕疵、政策問題,還是足以引發監管介入的安全事件。

對企業採用者來說,Fable 5 事件也提供了一個採購提醒。前沿模型的能力、可用地區、雲端供應、資料留存與拒答邏輯都可能快速改變。未來企業導入模型,不只要看效能,也要看供應商面對政府要求、研究通報與安全修補時的治理能力。
消息來源:Anthropic – Fable 5 safeguards、Anthropic – Redeploying Fable 5、Claude Platform Docs。