LLaMA

維基百科,自由的百科全書
跳至導覽 跳至搜尋
Llama
開發者Meta AI
首次發布2023年2月24日,​3年前​(2023-02-24
目前版本
    Module:EditAtWikidata第29行Lua錯誤:attempt to index field 'wikibase' (a nil value)
    原始碼庫
    • {{URL|example.com|可选的显示文本}}
    Module:EditAtWikidata第29行Lua錯誤:attempt to index field 'wikibase' (a nil value)
    程式語言Python
    引擎
      Module:EditAtWikidata第29行Lua錯誤:attempt to index field 'wikibase' (a nil value)
      類型
      許可協定Meta Llama 3.2 Community License[1]

      LLaMA(英語:Large Language Model Meta AI)是Meta於2023年2月發布的大型語言模型。它訓練了各種模型,這些模型的參數從70億到650億不等。LLaMA的開發人員報告說,LLaMA運行的130億參數模型在大多數NLP基準測試中的效能超過了更大的、具有1750億參數的GPT-3提供的模型,且LLaMA的模型可以與PaLMChinchilla等最先進的模型競爭[2]。雖然其他強大的大語言模型通常只能通過有限的API訪問,但Meta在非商業許可的情況下發布了LLaMA的模型權重,供研究人員參考和使用[3][4][5]。2023年7月,Meta推出LLaMA 2,這是一種可用於商業應用的開源AI模型[6]

      LLaMA 2[編輯]

      2023年7月,Facebook母公司Meta推出了LLaMA2,LLaMA2是一種開源大型語言模型(LLM),旨在挑戰大型科技競爭對手的限制性做法。Meta免費發布LLaMA2背後的代碼和資料,使世界各地的研究人員能夠利用和改進該技術。 Meta的執行長馬克·祖克柏一直直言不諱地強調開源軟體對於刺激創新的重要性。[7][6]

      Meta訓練並發布了三種模型大小的LLaMA2:70、130和700億個參數。模型架構與LLaMA1模型基本保持不變,但用於訓練基礎模型的資料增加了 40%。隨附的預印本還提到了一個具有34B參數的模型,該模型可能在未來滿足安全目標後發布。

      LLaMA2包括基礎模型和針對對話進行微調的模型,稱為 Llama 2 - 聊天。與LLaMA1進一步不同的是,所有模型都附帶權重,並且對於許多商業用例都是免費的。然而,由於一些剩餘的限制,Llama開源的描述受到了開源倡議組織(以維護開源定義而聞名)的爭議。[8]

      Code Llama[編輯]

      2023年8月,Meta繼發布用於生成文字、翻譯語言和建立音訊的人工智慧模型之後,開源了 Code Llama。這是一個機器學習系統,可以用自然語言(特別是英語)生成和解釋代碼。 可以免費商用和研究。[9]

      Code Llama是從Llama-2基礎模型微調而來,共有三個版本:基礎版、Python版、以及指令遵循。 類似於 GitHub Copilot 和 Amazon CodeWhisperer,以及 StarCoder、StableCode 和 PolyCoder 等開源人工智慧碼產生器,Code Llama 可以跨多種程式語言完成代碼並除錯現有代碼,包括 Python、C、Java、PHP、 Typescript、C# 和 Bash。[10]

      在訓練 Code Llama 時,Meta 使用了與訓練 Llama 2 相同的資料集——來自網路的公開可用資源的混合。但可以說,它的模型「強調」了包含代碼的訓練資料的子集。從本質上講,Code Llama 比它的「父」模型 Llama 2 有更多的時間來學習代碼和自然語言之間的關係。每個 Code Llama 模型的大小從 70 億個參數到 340 億個參數不等,均使用 5000 億個代碼標記以及與代碼相關的資料進行訓練。多個 Code Llama 模型可以將代碼插入到現有代碼中,並且所有模型都可以接受大約 100,000 個代碼標記作為輸入,而至少一個(70 億個參數模型)可以在單個 GPU 上執行。(其他模型則需要更強大的硬體。)Meta 聲稱,340 億個參數的模型是迄今為止所有開原始碼生成器中效能最好的,也是參數數量最多的。[10]

      Llama 3[編輯]

      2024年4月18日,Meta發布了Llama-3,有兩種模型大小尺寸:8B和70B參數。[11]這些模型已經根據從「公開可用來源」收集的大約 15 萬億個文字標記進行了預訓練,並且指導模型根據「公開可用的指令資料集以及超過 1000 萬個人工注釋的範例」進行了微調。 計劃發布多模式模型、能夠以多種語言進行對話的模型以及具有更大上下文窗口的模型。

      於2024年7月23日增量更新至Llama-3.1。具有8B、70B、405B參數三種模型大小尺寸。[11]

      Meta AI 的測試表明,Llama 3 70B 在大多數基準測試中都擊敗了GeminiClaude[12][13]

      Llama 4[編輯]

      Llama-4系列於2025年4月5日發布。其架構已更改為混合專家模型。它們具備多模態(文字和圖像輸入,文字輸出)和多語言(12種語言)特性,[14] 包括基礎版本和指令調整版本:[15]

      • Scout:170 億個活躍參數模型,包含 16 位專家,上下文窗口為 1000 萬個,總共包含 1090 億個參數。
      • Maverick:170 億個活躍參數模型,包含 128 位專家,上下文窗口為 100 萬個,總共包含 4000 億個參數。
      • Behemoth(尚未發布):2880 億個活躍參數模型,包含 16 位專家,總共包含約2兆個參數。

      當時 Behemoth 版本仍在訓練中。Scout 是從零開始訓練的。Maverick 是從 Behemoth 中「共同提煉」而來的。需要注意的是,Scout 的訓練時間比 Maverick 更長,上下文長度也更長。

      訓練資料包括公開資料、授權資料以及 Meta 專有資料,例如Instagram和Facebook上公開分享的貼文以及人們與Meta AI的互動。資料截止日期為2024年8月。[16]

      Meta 在其發布公告中聲稱,Llama 4 在 LMArena AI 基準測試中的得分超過了GPT-4o[17] 該公司還表示,Llama 4的基準測試得分是使用未發布的「實驗性聊天版本」模型獲得的,該版本「針對對話性進行了最佳化」,與公開發布的 Llama 4 版本有所不同。[18] LMArena 表示將調整政策,以防止此類事件再次發生,並回應稱:「Meta對我們政策的解讀與我們對模型提供商的期望不符。Meta 應該更清楚地說明,『Llama-4-Maverick-03-26-Experimental』 是一個客製化模型,旨在根據人類偏好進行最佳化。」[19] 一些使用者在社群媒體上批評 Meta 使用專門為基準測試而客製化的模型版本,還有一些使用者指責 Meta 在測試集上訓練 Llama 4 以進一步提高其基準測試分數——Meta 對此予以否認。[20]

      模型比較[編輯]

      對於訓練成本列,唯寫出最大模型的成本。例如,「21,000」是 Llama 2 69B 的訓練成本,單位為 petaFLOP-day。另外,1 petaFLOP-day = 1 petaFLOP/秒 × 1 天 = 8.64×1019 FLOP

      名稱 發布日期 參數 訓練成本 (petaFLOP-day) 上下文長度 語料庫大小 商業可行性?
      LLaMA 2023-02-24
      • 6.7B
      • 13B
      • 32.5B
      • 65.2B
      6,300[21] 2048 1–1.4T
      Llama 2 2023-07-18
      • 6.7B
      • 13B
      • 69B
      21,000[22] 4096 2T
      Code Llama 2023-08-24
      • 6.7B
      • 13B
      • 33.7B
      • 69B
      Llama 3 2024-04-18
      • 8B
      • 70.6B
      100,000[23][24] 8192 15T
      Llama 3.1 2024-07-23
      • 8B
      • 70.6B
      • 405B
      440,000[25][26] 128,000
      Llama 3.2 2024-09-25
      • 1B
      • 3B
      • 11B
      • 90B
      128,000
      Llama 4 2025-04-05

      架構與訓練[編輯]

      資料集[編輯]

      2023年4月17日,GitHub的Together啟動了一個名為RedPajama的專案,以複製和分發LLaMA資料集的開源版本。[27][28]

      反響[編輯]

      連線》 (Wired) 雜誌稱Llama 3的 8B 參數版本「能力出奇地強」,考慮到它的大小。[29]

      Meta將Llama整合到Facebook後,人們的反應褒貶不一,一些使用者在Meta AI告訴家長群它有一個孩子後感到困惑。[30]

      根據2023年第四季度的收益記錄,Meta採用了開放權重的策略來提高模型安全性、迭代速度,增加開發人員和研究人員的採用率,並成為行業標準。未來計劃推出 Llama 5、6 和 7。[31]

      自我審查[編輯]

      LLaMA會拒絕的話題包括:操縱、圖形暴力、自我傷害、自殺、成人與露骨內容、仇恨言論、非法或有害活動、人身攻擊等。[32]

      參見[編輯]

      參考資料[編輯]

      1. ^ llama3/LICENSE at main · meta-llama/llama3. GitHub. [2024-05-25]. (原始內容存檔於2024-05-24) (English). 
      2. ^ Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume. LLaMA: Open and Efficient Foundation Language Models. 2023. arXiv:2302.13971可免費查閱 [cs.CL]. 
      3. ^ Introducing LLaMA: A foundational, 65-billion-parameter large language model. Meta AI. 2023-02-24 [2023-06-14]. (原始內容存檔於2023-03-03). 
      4. ^ Vincent, James. Meta's powerful AI language model has leaked online — what happens now?. The Verge. 2023-03-08 [2023-06-14]. (原始內容存檔於2023-11-03). 
      5. ^ 差一步称霸AI:历史进程中的扎克伯格, 远川研究所, 澎湃. [2023-06-28]. (原始內容存檔於2023-06-28). 
      6. ^ 6.0 6.1 Meta launches Llama 2, a source-available AI model that allows commercial applications. [2023-07-21]. (原始內容存檔於2023-11-07). 
      7. ^ LLaMA 2: How to access and use Meta’s versatile open-source chatbot right now. [2023-07-20]. (原始內容存檔於2023-11-03). 
      8. ^ Maffulli, Stefano. Meta’s LLaMa 2 license is not Open Source. Voices of Open Source. 2023-07-20 [2023-08-29]. (原始內容存檔於2023-10-10) (en-US). 
      9. ^ Code Llama: Open Foundation Models for Code. AI at Meta. [2025-01-14]. (原始內容存檔於2023-11-01). 
      10. ^ 10.0 10.1 Wiggers, Kyle. Meta releases Code Llama, a code-generating AI model. TechCrunch. 2023-08-24 [2025-01-14]. (原始內容存檔於2023-11-11) (en-US). 
      11. ^ 11.0 11.1 Introducing Meta Llama 3: The most capable openly available LLM to date. ai.meta.com. 2024-04-18 [2024-04-21]. (原始內容存檔於2024-05-15) (English). 
      12. ^ Wiggers, Kyle. Meta releases Llama 3, claims it's among the best open models available. TechCrunch. 2024-04-18 [2024-04-19]. (原始內容存檔於2024-09-18). 
      13. ^ Mann, Tobias. Meta debuts third-generation Llama large language model. www.theregister.com. [2024-07-25]. (原始內容存檔於2024-08-25) (English). 
      14. ^ meta-llama/Llama-4-Maverick-17B-128E · Hugging Face. huggingface.co. 2025-04-05 [2025-04-06]. 
      15. ^ The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation. ai.meta.com. [2025-04-05]. (原始內容存檔於2025-04-05) (English). 
      16. ^ meta-llama/Llama-4-Maverick-17B-128E · Hugging Face. huggingface.co. 2025-04-05 [2025-04-06]. 
      17. ^ Robison, Kylie. Meta got caught gaming AI benchmarks. The Verge. 2025-04-08 [2025-04-08]. 
      18. ^ Wiggers, Kyle. Meta's benchmarks for its new AI models are a bit misleading. TechCrunch. 2025-04-06 [2025-04-08]. 
      19. ^ Robison, Kylie. Meta got caught gaming AI benchmarks. The Verge. 2025-04-08 [2025-04-08]. 
      20. ^ Franzen, Carl. Meta defends Llama 4 release against ‘reports of mixed quality,’ blames bugs. VentureBeat. 2025-04-08 [2025-04-08]. 
      21. ^ The Falcon has landed in the Hugging Face ecosystem. huggingface.co. [2023-06-20]. (原始內容存檔於2023-06-20). 
      22. ^ llama/MODEL_CARD.md at main · meta-llama/llama. GitHub. [2024-05-28]. (原始內容存檔於2024-05-28) (English). 
      23. ^ Andrej Karpathy (@karpathy) on X. X (formerly Twitter). [2025-01-14]. (原始內容存檔於2024-08-17) (English). 
      24. ^ llama3/MODEL_CARD.md at main · meta-llama/llama3. GitHub. [2024-05-28]. (原始內容存檔於2024-05-21) (English). 
      25. ^ The Llama 3 Herd of Models. AI at Meta. [2025-01-14]. (原始內容存檔於2024-07-24) (English). 
      26. ^ llama-models/models/llama3_1/MODEL_CARD.md at main · meta-llama/llama-models. GitHub. [2024-07-23]. (原始內容存檔於2024-07-23) (English). 
      27. ^ RedPajama-Data: An Open Source Recipe to Reproduce LLaMA training dataset. GitHub. Together. [2023-05-04]. (原始內容存檔於2023-11-07). 
      28. ^ RedPajama-Data-1T. Hugging Face. Together. [2023-05-04]. (原始內容存檔於2023-11-03). 
      29. ^ Knight, Will. Meta’s Open Source Llama 3 Is Already Nipping at OpenAI’s Heels. Wired. [2024-07-25]. ISSN 1059-1028. (原始內容存檔於2024-09-27) (en-US). 
      30. ^ Meta's amped-up AI agents confusing Facebook users. ABC News. 2024-04-19 [2024-07-25]. (原始內容存檔於2024-09-17) (en-AU). 
      31. ^ META Q4 2023 Earnings Call Transcript (PDF). [2024-07-25]. (原始內容存檔 (PDF)於2024-09-17). 
      32. ^ Can Rager; Chris Wendler; Rohit Gandikota; David Bau. Discovering Forbidden Topics in Language Models [發現語言模型中的禁忌話題]. arXiv. 2025-06-11 [2025-08-03] (English). 

      外部連結[編輯]

      • Module:Official_website第90行Lua錯誤:attempt to index field 'wikibase' (a nil value)