DeepSeek-V3

DeepSeek V3
開發者	深度求索
首次發佈	2024年12月26日，17個月前
目前版本	2025年3月24日，15個月前
原始碼庫	{{URL\|example.com\|可选的显示文本}}; Module:EditAtWikidata第29行Lua錯誤：attempt to index field 'wikibase' (a nil value)
引擎	Module:EditAtWikidata第29行Lua錯誤：attempt to index field 'wikibase' (a nil value)
前任	DeepSeek-V2.5-1210
類型	大型語言模型; 基於轉換器的生成式預訓練模型; 基礎模型;
許可協定	MIT許可證
網站	www.deepseek.com

DeepSeek-V3是深度求索於2024年12月16日發佈的人工智能大型語言模型，專門適用於數學、編碼和中文等任務，效能對標GPT-4o等競爭產品^[1]。

開發[編輯]

DeepSeek-V3於2024年12月26日發佈。

效能[編輯]

在效能方面，DeepSeek-V3展現出卓越實力。它不僅超越了Qwen2.5-72B和Llama-3.1-405B等知名開源模型，更在多項測試中與GPT-4和Claude-3.5-Sonnet不相上下。特別是在數學能力測試中，該模型以優異成績超越了所有現有開源和閉源模型。^[2]

最引人注目的是DeepSeek-V3的低成本優勢。根據開源論文和DeepSeek披露，該大模型的訓練系基於2,048塊輝達H800型GPU（針對中國大陸市場的低配版GPU）叢集上執行55天完成；按每GPU小時2美元計算，模型全部訓練成本僅為557.6萬美元，這個數字只有（據估計投資超過5億美元）前者的1%。^[3]

訓練[編輯]

DeepSeek表示該大模型的訓練系基於2,048塊輝達H800型GPU（針對中國大陸市場的低配版GPU）叢集上執行55天完成，訓練耗資557.6萬美元^[4]。

為了提高訓練效率，研究採用了 FP8 混合精度訓練技術並對訓練框架進行了全面優化。低精度訓練作為一種高效率的訓練方案，其發展與硬件效能的提升密切相關。

本研究首次在超大規模模型上，成功驗證了 FP8 混合精度訓練架構的有效性。透過採用 FP8 運算和儲存技術，顯著提升了訓練速度並降低了 GPU 記憶體佔用。^[5]

評測結果[編輯]

DeepSeek-V3在所有模型中排名第七，在開源模型排第一；而且，DeepSeek-V3是全球前十中性價比最高的模型。^[6]

DeepSeek-V3的評測成績超越Qwen2.5-72B（阿里自研大模型）和LLaMA 3.1-405B（Meta自研大模型）等開源模型，能與GPT-4o、Claude 3.5-Sonnet（Anthropic自研大模型）等閉源模型相抗衡^[7]。

這款採用MoE（混合專家）架構的模型，不僅在效能上媲美頂級閉源模型，其低成本高效率的特點更是引發業界關注。相較於前代產品，新模型的生成速度提升了3倍，每秒鐘可處理60個token，顯著提升了實際應用效率。

使用[編輯]

DeepSeek-V3使用MIT協定開源，意味着任何人都可以自由使用該模型，包括商業用途。用戶可以在DeepSeek官方網站和App使用官方提供的服務。

DeepSeek-V3上線時提供的API服務優惠定價為每百萬輸入tokens 0.1元（快取命中）或1元（快取未命中），每百萬輸出tokens 2元。

2025年2月9日，DeepSeek-V3 API服務優惠期結束，價格變為輸入token每百萬兩元，輸出token每百萬八元，漲幅明顯。^[8]

外界反應[編輯]

DeepSeek-V3發佈後，英偉達股價下跌了2%，被指與此模型有關。^[6]^[可疑]

OpenAI創始團隊成員、高級研究科學家Andrej Karpathy表示，DeepSeek僅用了280萬小時的GPU算力，就訓練出了比Llama-3 405B（使用3080萬小時GPU）更強的前沿模型，整體成本節省了11倍左右；這表明，即便在計算力有限的情況下，即使使用高質素的數據模型，更好的演算法同樣能訓練出高效能大模型。^[9]

Scale AI創辦人亞歷山大•王表示，中國領先的大型語言模型實驗室DeepSeek選擇在聖誕節發佈其最新型號V3，這項舉措頗具深意。效能與GPT-4o和Claude 3.5 Sonnet不相上下，但訓練所使用的算力資源僅為前者的十分之一。

中國科技界的辛酸教訓是：當美國休息時，中國正在工作，以更低的成本、更快的速度迎頭趕上，變得更強。^[10]

版本迭代[編輯]

2025年3月24日，DeepSeek發佈版本更新V3-0324，該版本在所有基準測試中都有明顯進步，尤其以編程能力提升為一大亮點，可能為迄今最強大的非推理模型。^[11]

2025年12月1日，DeepSeek發佈版本更新V3-2，強化了代理能力與融入思考推理。^[12]

參見[編輯]

GPT-4o

參考資料[編輯]

^ Module:Cite_Q第13行Lua錯誤：attempt to index field 'wikibase' (a nil value)
^ DeepSeek-V3 正式发布 | DeepSeek API Docs. api-docs.deepseek.com. [2025-03-07]. （原始內容存檔於2025-01-23）（中文（中國大陸））.
^ 騰訊網. Deepseek v3正式发布：用557.6万美金比肩Claude 3.5_腾讯新闻. news.qq.com. 2024-12-27 [2025-03-07]. （原始內容存檔於2025-01-09）（中文（中國大陸））.
^ DeepSeek. DeepSeek-V3 Technical Report (PDF). github. 2024-12-26 [2025-01-24]. （原始內容存檔 (PDF)於2025-02-01）（English）.
^ 幻方量化重磅发布DeepSeek-V3：性能媲美GPT-4，训练成本创新低. www.aibase.com. [2025-03-07] （中文）.
^ ^6.0 ^6.1 “DeepSeek或彻底改变游戏规则”！中国大模型“搅动”硅谷，巨头进入恐慌模式，外媒刷屏，大佬发声：中国AI已追上美国. 每日經濟新聞. [2025-01-29]. （原始內容存檔於2025-01-30）.
^ 量化巨头幻方创始人梁文锋参加总理座谈会并发言，他还创办了“AI界拼多多”. 新浪財經. 2025-01-22 [2025-01-22]. （原始內容存檔於2025-01-26）（中文）.
^ DeepSeek-V3收费加价. 聯合早報. 2025-02-10 [2025-03-02] （中文（簡體））.
^ Andrej Karpathy (@karpathy) on X. X (formerly Twitter). [2025-03-07]. （原始內容存檔於2025-03-09）（English）.
^ 騰訊網. DeepSeek V3获众多AI大佬赞誉：高性能低成本是智慧和实用主义的体现_腾讯新闻. news.qq.com. 2024-12-27 [2025-03-07]. （原始內容存檔於2024-12-27）（中文（中國大陸））.
^ DeepSeek发布V3模型更新提升编程能力. 聯合早報. 2025-03-25 （中文（中國大陸））.
^ DeepSeek V3.2 正式版：强化 Agent 能力，融入思考推理 | DeepSeek API Docs. api-docs.deepseek.com. [2026-01-25] （中文（中國大陸））.

外部連結[編輯]

DeepSeek-V （頁面存檔備份，存於互聯網檔案館）效能與GPT-4o和Claude 3.5 Sonnet不相上下，並且訓練所使用的算力資源僅為前者的十分之一正式發佈 | DeepSeek API Docs （頁面存檔備份，存於互聯網檔案館）
deepseek-ai/DeepSeek-V3 （頁面存檔備份，存於互聯網檔案館）

[1] Module:Cite_Q第13行Lua錯誤：attempt to index field 'wikibase' (a nil value)

[2] DeepSeek-V3 正式发布 | DeepSeek API Docs. api-docs.deepseek.com. [2025-03-07]. （原始內容存檔於2025-01-23）（中文（中國大陸））.

[3] 騰訊網. Deepseek v3正式发布：用557.6万美金比肩Claude 3.5_腾讯新闻. news.qq.com. 2024-12-27 [2025-03-07]. （原始內容存檔於2025-01-09）（中文（中國大陸））.

[4] DeepSeek. DeepSeek-V3 Technical Report (PDF). github. 2024-12-26 [2025-01-24]. （原始內容存檔 (PDF)於2025-02-01）（English）.

[5] 幻方量化重磅发布DeepSeek-V3：性能媲美GPT-4，训练成本创新低. www.aibase.com. [2025-03-07] （中文）.

[:0-6] 6.0 ^6.1 “DeepSeek或彻底改变游戏规则”！中国大模型“搅动”硅谷，巨头进入恐慌模式，外媒刷屏，大佬发声：中国AI已追上美国. 每日經濟新聞. [2025-01-29]. （原始內容存檔於2025-01-30）.

[v421-7] 量化巨头幻方创始人梁文锋参加总理座谈会并发言，他还创办了“AI界拼多多”. 新浪財經. 2025-01-22 [2025-01-22]. （原始內容存檔於2025-01-26）（中文）.

[8] DeepSeek-V3收费加价. 聯合早報. 2025-02-10 [2025-03-02] （中文（簡體））.

[9] Andrej Karpathy (@karpathy) on X. X (formerly Twitter). [2025-03-07]. （原始內容存檔於2025-03-09）（English）.

[10] 騰訊網. DeepSeek V3获众多AI大佬赞誉：高性能低成本是智慧和实用主义的体现_腾讯新闻. news.qq.com. 2024-12-27 [2025-03-07]. （原始內容存檔於2024-12-27）（中文（中國大陸））.

[11] DeepSeek发布V3模型更新提升编程能力. 聯合早報. 2025-03-25 （中文（中國大陸））.

[12] DeepSeek V3.2 正式版：强化 Agent 能力，融入思考推理 | DeepSeek API Docs. api-docs.deepseek.com. [2026-01-25] （中文（中國大陸））.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

DeepSeek-V3

目次

開發[編輯]

效能[編輯]

訓練[編輯]

評測結果[編輯]

使用[編輯]

外界反應[編輯]

版本迭代[編輯]

參見[編輯]

參考資料[編輯]

外部連結[編輯]

導覽菜單

DeepSeek-V3

開發[編輯]

效能[編輯]

訓練[編輯]

評測結果[編輯]

使用[編輯]

外界反應[編輯]

版本迭代[編輯]

參見[編輯]

參考資料[編輯]

外部連結[編輯]

導覽菜單

搜尋