GPT Image

维基百科,自由的百科全书
跳转到导航 跳转到搜索
GPT Image
截图
由GPT Image 2生成的英语维基百科“截图”
由GPT Image 2生成的英语维基百科“截图”
开发者OpenAI
首次发布2025年3月25日,​14个月前​(2025-03-25
当前版本2(2026年4月21日,​2个月前​(2026-04-21
源代码库
  • {{URL|example.com|可选的显示文本}}
Module:EditAtWikidata第29行Lua错误:attempt to index field 'wikibase' (a nil value)
引擎
    Module:EditAtWikidata第29行Lua错误:attempt to index field 'wikibase' (a nil value)
    前任DALL-E
    类型图像生成编辑
    许可协议
      Module:EditAtWikidata第29行Lua错误:attempt to index field 'wikibase' (a nil value)
      网站ChatGPT Images 2.0

      GPT Image是由OpenAI开发的一系列图像生成编辑模型。GPT Image是GPT系列中文本转图像的一个变体,运用深度学习技术,能够依据自然语言描述或现有图像,精准地生成数字图像。GPT Image是DALL-E的继任者,已作为ChatGPT Images功能原生集成于ChatGPT中,同时也可通过API供外部调用。GPT Image于2025年3月发布后迅速在社交媒体上走红,尤以其能够生成吉卜力工作室风格图像的能力而备受瞩目。此外,GPT Image也已集成至Microsoft CopilotApple Intelligence服务中。

      历史[编辑]

      OpenAI 于2025年3月25日的部落格文章中公开了 GPT Image 的首个模型,称之为“GPT-4o图像生成”(GPT-4o image generation),该模型是基于 GPT-4o 模型开发以生成图像。[1] 该功能最初仅开放给付费使用者,由于需求量极大,向免费使用者的推送被推迟。[2] 随后该功能的使用受到限制,萨姆·奥尔特曼表示由于使用量过大,GPU“快融化了”。[3] OpenAI 随后表示,在发布首周内,全球超过1.3亿名使用者已生成了超过7亿张图片。[4] 该模型被命名为 GPT Image 1gpt-image-1),并于4月23日导入至 API 中。一款具备成本效益的版本 GPT Image 1 Minigpt-image-1-mini)于10月6日(即2025年 OpenAI 开发者大会)发布,其 API 费用比 GPT Image 1 便宜 80%。[5][6]

      名为 GPT Image 1.5gpt-image-1.5)的新模型于12月16日推出,该模型以“ChatGPT Images”之名向全球所有使用者推送,并随即开放 API 存取。[7] OpenAI 声称该新模型能够在保持细节完整的同时进行精确编辑,且生成图像的速度最高可达原先的四倍。与 GPT Image 1 相比,GPT Image 1.5 的 API 图像输入与输出费用降低了 20%。[8]

      2026年4月,OpenAI 发布了 GPT Image 2gpt-image-2),在其生成过程中引入了推理模型。[9]

      功能[编辑]

      不同于 DALL-E 2 与 DALL-E 3 等基于扩散模型的先前版本,GPT Image 模型属于自我回归模型,并具备多项新功能,包含影像编辑转换、先进的照相写实主义,以及精确遵循指令的能力。[10] GPT Image 能够生成三种尺寸的图像,分别为 1024 × 1024(1:1,正方形)、1536 × 1024(3:2,横向)以及 1024 × 1536(2:3,直向)像素[11]

      GPT Image 1.5 解决了先前模型中存在的过早裁切(premature cropping)以及偏暖色调的问题,[1] 但在生成特定艺术风格时出现了退步的情况。此外,最新的模型在处理多张人脸以及包含中文、阿拉伯文、希伯来文等特定语言时,依然存在弱点。[7]

      评价[编辑]

      科技评论家普遍认为 GPT Image 是图像生成领域的重大进展。TechRadar 强调 GPT Image 1 展现了令人印象深刻的效能,能够生成从写实场景到风格化插图等广泛的作品,并指出与早期工具相比,其在文字渲染与多模态整合方面有着显著的提升。然而,Heise Online 报导指出,GPT Image 1 仍存在一些技术弱点,例如过度锐化产生的伪影(artifacts)、偏暖色调的偏差,以及在渲染人体姿势与物件重叠时常见的错误,这表明尽管整体表现强劲,其输出成果的逼真度仍有局限性。[12]

      参考来源[编辑]

      1. ^ 1.0 1.1 Introducing 4o Image Generation. OpenAI. 25 March 2025 [17 December 2025]. (原始内容存档于5 October 2025). 
      2. ^ Roth, Emma. ChatGPT's new image generator is delayed for free users. The Verge. March 26, 2025 [March 26, 2025]. 
      3. ^ Welch, Chris. OpenAI says "our GPUs are melting" as it limits ChatGPT image generation requests. The Verge. March 27, 2025 [March 28, 2025]. 
      4. ^ Introducing our latest image generation model in the API. OpenAI. 23 April 2025 [30 April 2025]. 
      5. ^ OpenAI DevDay 2025. OpenAI. 6 October 2025 [17 December 2025]. (原始内容存档于21 October 2025). 
      6. ^ Matthias Bastian. Developers can now build and deploy both apps and agents directly on the ChatGPT platform. The Decoder. 6 October 2025 [17 December 2025]. (原始内容存档于7 October 2025). 
      7. ^ 7.0 7.1 The new ChatGPT Images is here. OpenAI. 16 December 2025 [17 December 2025]. (原始内容存档于17 December 2025). 
      8. ^ Pricing. OpenAI Platform. OpenAI. [17 December 2025]. 
      9. ^ Silberling, Amanda. ChatGPT's new Images 2.0 model is surprisingly good at generating text. TechCrunch. 2026-04-21 [2026-04-21] (en-US). 
      10. ^ Addendum to GPT-4o System Card: Native image generation (PDF). OpenAI. 25 March 2025 [17 December 2025]. (原始内容 (PDF)存档于20 August 2025). 
      11. ^ Image generation. OpenAI Platform. OpenAI. [17 December 2025]. 
      12. ^ Volker Zota. Image generator from GPT-4o: what is probably behind the technical breakthrough. Heise Online. 8 April 2025 [17 December 2025]. (原始内容存档于17 December 2025). 

      外部链接[编辑]

      Module:Authority_control第183行Lua错误:attempt to index field 'wikibase' (a nil value)