DeepSeek-V3

維基百科,自由的百科全書
跳至導覽 跳至搜尋
DeepSeek V3
開發者深度求索
首次發佈2024年12月26日,​17個月前​(2024-12-26
目前版本2025年3月24日,​15個月前​(2025-03-24
原始碼庫
  • {{URL|example.com|可选的显示文本}}
Module:EditAtWikidata第29行Lua錯誤:attempt to index field 'wikibase' (a nil value)
引擎
    Module:EditAtWikidata第29行Lua錯誤:attempt to index field 'wikibase' (a nil value)
    前任DeepSeek-V2.5-1210
    類型
    許可協定MIT許可證
    網站www.deepseek.com

    DeepSeek-V3深度求索於2024年12月16日發佈的人工智能大型語言模型,專門適用於數學、編碼和中文等任務,效能對標GPT-4o等競爭產品[1]

    開發[編輯]

    DeepSeek-V3於2024年12月26日發佈。

    效能[編輯]

    在效能方面,DeepSeek-V3展現出卓越實力。它不僅超越了Qwen2.5-72B和Llama-3.1-405B等知名開源模型,更在多項測試中與GPT-4和Claude-3.5-Sonnet不相上下。特別是在數學能力測試中,該模型以優異成績超越了所有現有開源和閉源模型。[2]

    最引人注目的是DeepSeek-V3的低成本優勢。根據開源論文和DeepSeek披露,該大模型的訓練系基於2,048塊輝達H800型GPU(針對中國大陸市場的低配版GPU)叢集上執行55天完成;按每GPU小時2美元計算,模型全部訓練成本僅為557.6萬美元,這個數字只有(據估計投資超過5億美元)前者的1%。[3]

    訓練[編輯]

    DeepSeek表示該大模型的訓練系基於2,048塊輝達H800型GPU(針對中國大陸市場的低配版GPU)叢集上執行55天完成,訓練耗資557.6萬美元[4]

    為了提高訓練效率,研究採用了 FP8 混合精度訓練技術並對訓練框架進行了全面優化。低精度訓練作為一種高效率的訓練方案,其發展與硬件效能的提升密切相關。

    本研究首次在超大規模模型上,成功驗證了 FP8 混合精度訓練架構的有效性。透過採用 FP8 運算和儲存技術,顯著提升了訓練速度並降低了 GPU 記憶體佔用。[5]

    評測結果[編輯]

    DeepSeek-V3在所有模型中排名第七,在開源模型排第一;而且,DeepSeek-V3是全球前十中性價比最高的模型。[6]

    DeepSeek-V3的評測成績超越Qwen2.5-72B(阿里自研大模型)和LLaMA 3.1-405B(Meta自研大模型)等開源模型,能與GPT-4oClaude 3.5-Sonnet(Anthropic自研大模型)等閉源模型相抗衡[7]

    這款採用MoE(混合專家)架構的模型,不僅在效能上媲美頂級閉源模型,其低成本高效率的特點更是引發業界關注。相較於前代產品,新模型的生成速度提升了3倍,每秒鐘可處理60個token,顯著提升了實際應用效率。

    使用[編輯]

    DeepSeek-V3使用MIT協定開源,意味着任何人都可以自由使用該模型,包括商業用途。用戶可以在DeepSeek官方網站和App使用官方提供的服務。

    DeepSeek-V3上線時提供的API服務優惠定價為每百萬輸入tokens 0.1元(快取命中)或1元(快取未命中),每百萬輸出tokens 2元。

    2025年2月9日,DeepSeek-V3 API服務優惠期結束,價格變為輸入token每百萬兩元,輸出token每百萬八元,漲幅明顯。[8]

    外界反應[編輯]

    DeepSeek-V3發佈後,英偉達股價下跌了2%,被指與此模型有關。[6][可疑]

    OpenAI創始團隊成員、高級研究科學家Andrej Karpathy表示,DeepSeek僅用了280萬小時的GPU算力,就訓練出了比Llama-3 405B(使用3080萬小時GPU)更強的前沿模型,整體成本節省了11倍左右;這表明,即便在計算力有限的情況下,即使使用高質素的數據模型,更好的演算法同樣能訓練出高效能大模型。[9]

    Scale AI創辦人亞歷山大•王表示,中國領先的大型語言模型實驗室DeepSeek選擇在聖誕節發佈其最新型號V3,這項舉措頗具深意。效能與GPT-4o和Claude 3.5 Sonnet不相上下,但訓練所使用的算力資源僅為前者的十分之一。

    中國科技界的辛酸教訓是:當美國休息時,中國正在工作,以更低的成本、更快的速度迎頭趕上,變得更強。[10]

    版本迭代[編輯]

    2025年3月24日,DeepSeek發佈版本更新V3-0324,該版本在所有基準測試中都有明顯進步,尤其以編程能力提升為一大亮點,可能為迄今最強大的非推理模型。[11]

    2025年12月1日,DeepSeek發佈版本更新V3-2,強化了代理能力與融入思考推理。[12]

    參見[編輯]

    參考資料[編輯]

    1. ^ Module:Cite_Q第13行Lua錯誤:attempt to index field 'wikibase' (a nil value)
    2. ^ DeepSeek-V3 正式发布 | DeepSeek API Docs. api-docs.deepseek.com. [2025-03-07]. (原始內容存檔於2025-01-23) (中文(中國大陸)). 
    3. ^ 騰訊網. Deepseek v3正式发布:用557.6万美金比肩Claude 3.5_腾讯新闻. news.qq.com. 2024-12-27 [2025-03-07]. (原始內容存檔於2025-01-09) (中文(中國大陸)). 
    4. ^ DeepSeek. DeepSeek-V3 Technical Report (PDF). github. 2024-12-26 [2025-01-24]. (原始內容存檔 (PDF)於2025-02-01) (English). 
    5. ^ 幻方量化重磅发布DeepSeek-V3:性能媲美GPT-4,训练成本创新低. www.aibase.com. [2025-03-07] (中文). 
    6. ^ 6.0 6.1 “DeepSeek或彻底改变游戏规则”!中国大模型“搅动”硅谷,巨头进入恐慌模式,外媒刷屏,大佬发声:中国AI已追上美国. 每日經濟新聞. [2025-01-29]. (原始內容存檔於2025-01-30). 
    7. ^ 量化巨头幻方创始人梁文锋参加总理座谈会并发言,他还创办了“AI界拼多多”. 新浪財經. 2025-01-22 [2025-01-22]. (原始內容存檔於2025-01-26) (中文). 
    8. ^ DeepSeek-V3收费加价. 聯合早報. 2025-02-10 [2025-03-02] (中文(簡體)). 
    9. ^ Andrej Karpathy (@karpathy) on X. X (formerly Twitter). [2025-03-07]. (原始內容存檔於2025-03-09) (English). 
    10. ^ 騰訊網. DeepSeek V3获众多AI大佬赞誉:高性能低成本 是智慧和实用主义的体现_腾讯新闻. news.qq.com. 2024-12-27 [2025-03-07]. (原始內容存檔於2024-12-27) (中文(中國大陸)). 
    11. ^ DeepSeek发布V3模型更新 提升编程能力. 聯合早報. 2025-03-25 (中文(中國大陸)). 
    12. ^ DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理 | DeepSeek API Docs. api-docs.deepseek.com. [2026-01-25] (中文(中國大陸)). 

    外部連結[編輯]