GPT Image

維基百科,自由的百科全書
跳至導覽 跳至搜尋
GPT Image
截圖
由GPT Image 2生成的英語維基百科「截圖」
由GPT Image 2生成的英語維基百科「截圖」
開發者OpenAI
首次發佈2025年3月25日,​14個月前​(2025-03-25
當前版本2(2026年4月21日,​2個月前​(2026-04-21
原始碼庫
  • {{URL|example.com|可选的显示文本}}
Module:EditAtWikidata第29行Lua錯誤:attempt to index field 'wikibase' (a nil value)
引擎
    Module:EditAtWikidata第29行Lua錯誤:attempt to index field 'wikibase' (a nil value)
    前任DALL-E
    類型圖像生成編輯
    許可協議
      Module:EditAtWikidata第29行Lua錯誤:attempt to index field 'wikibase' (a nil value)
      網站ChatGPT Images 2.0

      GPT Image是由OpenAI開發的一系列圖像生成編輯模型。GPT Image是GPT系列中文本轉圖像的一個變體,運用深度學習技術,能夠依據自然語言描述或現有圖像,精準地生成數字圖像。GPT Image是DALL-E的繼任者,已作為ChatGPT Images功能原生集成於ChatGPT中,同時也可通過API供外部調用。GPT Image於2025年3月發佈後迅速在社交媒體上走紅,尤以其能夠生成吉卜力工作室風格圖像的能力而備受矚目。此外,GPT Image也已集成至Microsoft CopilotApple Intelligence服務中。

      歷史[編輯]

      OpenAI 於2025年3月25日的部落格文章中公開了 GPT Image 的首個模型,稱之為「GPT-4o圖像生成」(GPT-4o image generation),該模型是基於 GPT-4o 模型開發以生成圖像。[1] 該功能最初僅開放給付費使用者,由於需求量極大,向免費使用者的推送被推遲。[2] 隨後該功能的使用受到限制,薩姆·奧爾特曼表示由於使用量過大,GPU「快融化了」。[3] OpenAI 隨後表示,在發佈首週內,全球超過1.3億名使用者已生成了超過7億張圖片。[4] 該模型被命名為 GPT Image 1gpt-image-1),並於4月23日導入至 API 中。一款具備成本效益的版本 GPT Image 1 Minigpt-image-1-mini)於10月6日(即2025年 OpenAI 開發者大會)發佈,其 API 費用比 GPT Image 1 便宜 80%。[5][6]

      名為 GPT Image 1.5gpt-image-1.5)的新模型於12月16日推出,該模型以「ChatGPT Images」之名向全球所有使用者推送,並隨即開放 API 存取。[7] OpenAI 聲稱該新模型能夠在保持細節完整的同時進行精確編輯,且生成圖像的速度最高可達原先的四倍。與 GPT Image 1 相比,GPT Image 1.5 的 API 圖像輸入與輸出費用降低了 20%。[8]

      2026年4月,OpenAI 發佈了 GPT Image 2gpt-image-2),在其生成過程中引入了推理模型。[9]

      功能[編輯]

      不同於 DALL-E 2 與 DALL-E 3 等基於擴散模型的先前版本,GPT Image 模型屬於自我迴歸模型,並具備多項新功能,包含影像編輯轉換、先進的照相寫實主義,以及精確遵循指令的能力。[10] GPT Image 能夠生成三種尺寸的圖像,分別為 1024 × 1024(1:1,正方形)、1536 × 1024(3:2,橫向)以及 1024 × 1536(2:3,直向)像素[11]

      GPT Image 1.5 解決了先前模型中存在的過早裁切(premature cropping)以及偏暖色調的問題,[1] 但在生成特定藝術風格時出現了退步的情況。此外,最新的模型在處理多張人臉以及包含中文、阿拉伯文、希伯來文等特定語言時,依然存在弱點。[7]

      評價[編輯]

      科技評論家普遍認為 GPT Image 是圖像生成領域的重大進展。TechRadar 強調 GPT Image 1 展現了令人印象深刻的效能,能夠生成從寫實場景到風格化插圖等廣泛的作品,並指出與早期工具相比,其在文字渲染與多模態整合方面有着顯著的提升。然而,Heise Online 報導指出,GPT Image 1 仍存在一些技術弱點,例如過度銳化產生的偽影(artifacts)、偏暖色調的偏差,以及在渲染人體姿勢與物件重疊時常見的錯誤,這表明儘管整體表現強勁,其輸出成果的逼真度仍有局限性。[12]

      參考來源[編輯]

      1. ^ 1.0 1.1 Introducing 4o Image Generation. OpenAI. 25 March 2025 [17 December 2025]. (原始內容存檔於5 October 2025). 
      2. ^ Roth, Emma. ChatGPT's new image generator is delayed for free users. The Verge. March 26, 2025 [March 26, 2025]. 
      3. ^ Welch, Chris. OpenAI says "our GPUs are melting" as it limits ChatGPT image generation requests. The Verge. March 27, 2025 [March 28, 2025]. 
      4. ^ Introducing our latest image generation model in the API. OpenAI. 23 April 2025 [30 April 2025]. 
      5. ^ OpenAI DevDay 2025. OpenAI. 6 October 2025 [17 December 2025]. (原始內容存檔於21 October 2025). 
      6. ^ Matthias Bastian. Developers can now build and deploy both apps and agents directly on the ChatGPT platform. The Decoder. 6 October 2025 [17 December 2025]. (原始內容存檔於7 October 2025). 
      7. ^ 7.0 7.1 The new ChatGPT Images is here. OpenAI. 16 December 2025 [17 December 2025]. (原始內容存檔於17 December 2025). 
      8. ^ Pricing. OpenAI Platform. OpenAI. [17 December 2025]. 
      9. ^ Silberling, Amanda. ChatGPT's new Images 2.0 model is surprisingly good at generating text. TechCrunch. 2026-04-21 [2026-04-21] (en-US). 
      10. ^ Addendum to GPT-4o System Card: Native image generation (PDF). OpenAI. 25 March 2025 [17 December 2025]. (原始內容 (PDF)存檔於20 August 2025). 
      11. ^ Image generation. OpenAI Platform. OpenAI. [17 December 2025]. 
      12. ^ Volker Zota. Image generator from GPT-4o: what is probably behind the technical breakthrough. Heise Online. 8 April 2025 [17 December 2025]. (原始內容存檔於17 December 2025). 

      外部連結[編輯]

      Module:Authority_control第183行Lua錯誤:attempt to index field 'wikibase' (a nil value)