GPT Image
截图 由GPT Image 2生成的英语维基百科“截图” 由GPT Image 2生成的英语维基百科“截图” | |
| 开发者 | OpenAI |
|---|---|
| 首次发布 | 2025年3月25日 |
| 当前版本 | 2(2026年4月21日) |
| 源代码库 |
|
| 引擎 | |
| 前任 | DALL-E |
| 类型 | 图像生成与编辑 |
| 许可协议 | |
| 网站 | ChatGPT Images 2.0 |
GPT Image是由OpenAI开发的一系列图像生成与编辑模型。GPT Image是GPT系列中文本转图像的一个变体,运用深度学习技术,能够依据自然语言描述或现有图像,精准地生成数字图像。GPT Image是DALL-E的继任者,已作为ChatGPT Images功能原生集成于ChatGPT中,同时也可通过API供外部调用。GPT Image于2025年3月发布后迅速在社交媒体上走红,尤以其能够生成吉卜力工作室风格图像的能力而备受瞩目。此外,GPT Image也已集成至Microsoft Copilot和Apple Intelligence服务中。
历史[编辑]
OpenAI 于2025年3月25日的部落格文章中公开了 GPT Image 的首个模型,称之为“GPT-4o图像生成”(GPT-4o image generation),该模型是基于 GPT-4o 模型开发以生成图像。[1] 该功能最初仅开放给付费使用者,由于需求量极大,向免费使用者的推送被推迟。[2] 随后该功能的使用受到限制,萨姆·奥尔特曼表示由于使用量过大,GPU“快融化了”。[3] OpenAI 随后表示,在发布首周内,全球超过1.3亿名使用者已生成了超过7亿张图片。[4] 该模型被命名为 GPT Image 1(gpt-image-1),并于4月23日导入至 API 中。一款具备成本效益的版本 GPT Image 1 Mini(gpt-image-1-mini)于10月6日(即2025年 OpenAI 开发者大会)发布,其 API 费用比 GPT Image 1 便宜 80%。[5][6]
名为 GPT Image 1.5(gpt-image-1.5)的新模型于12月16日推出,该模型以“ChatGPT Images”之名向全球所有使用者推送,并随即开放 API 存取。[7] OpenAI 声称该新模型能够在保持细节完整的同时进行精确编辑,且生成图像的速度最高可达原先的四倍。与 GPT Image 1 相比,GPT Image 1.5 的 API 图像输入与输出费用降低了 20%。[8]
2026年4月,OpenAI 发布了 GPT Image 2(gpt-image-2),在其生成过程中引入了推理模型。[9]
功能[编辑]
不同于 DALL-E 2 与 DALL-E 3 等基于扩散模型的先前版本,GPT Image 模型属于自我回归模型,并具备多项新功能,包含影像编辑转换、先进的照相写实主义,以及精确遵循指令的能力。[10] GPT Image 能够生成三种尺寸的图像,分别为 1024 × 1024(1:1,正方形)、1536 × 1024(3:2,横向)以及 1024 × 1536(2:3,直向)像素。[11]
GPT Image 1.5 解决了先前模型中存在的过早裁切(premature cropping)以及偏暖色调的问题,[1] 但在生成特定艺术风格时出现了退步的情况。此外,最新的模型在处理多张人脸以及包含中文、阿拉伯文、希伯来文等特定语言时,依然存在弱点。[7]
评价[编辑]
科技评论家普遍认为 GPT Image 是图像生成领域的重大进展。TechRadar 强调 GPT Image 1 展现了令人印象深刻的效能,能够生成从写实场景到风格化插图等广泛的作品,并指出与早期工具相比,其在文字渲染与多模态整合方面有着显著的提升。然而,Heise Online 报导指出,GPT Image 1 仍存在一些技术弱点,例如过度锐化产生的伪影(artifacts)、偏暖色调的偏差,以及在渲染人体姿势与物件重叠时常见的错误,这表明尽管整体表现强劲,其输出成果的逼真度仍有局限性。[12]
参考来源[编辑]
- ^ 1.0 1.1 Introducing 4o Image Generation. OpenAI. 25 March 2025 [17 December 2025]. (原始内容存档于5 October 2025).
- ^ Roth, Emma. ChatGPT's new image generator is delayed for free users. The Verge. March 26, 2025 [March 26, 2025].
- ^ Welch, Chris. OpenAI says "our GPUs are melting" as it limits ChatGPT image generation requests. The Verge. March 27, 2025 [March 28, 2025].
- ^ Introducing our latest image generation model in the API. OpenAI. 23 April 2025 [30 April 2025].
- ^ OpenAI DevDay 2025. OpenAI. 6 October 2025 [17 December 2025]. (原始内容存档于21 October 2025).
- ^ Matthias Bastian. Developers can now build and deploy both apps and agents directly on the ChatGPT platform. The Decoder. 6 October 2025 [17 December 2025]. (原始内容存档于7 October 2025).
- ^ 7.0 7.1 The new ChatGPT Images is here. OpenAI. 16 December 2025 [17 December 2025]. (原始内容存档于17 December 2025).
- ^ Pricing. OpenAI Platform. OpenAI. [17 December 2025].
- ^ Silberling, Amanda. ChatGPT's new Images 2.0 model is surprisingly good at generating text. TechCrunch. 2026-04-21 [2026-04-21] (en-US).
- ^ Addendum to GPT-4o System Card: Native image generation (PDF). OpenAI. 25 March 2025 [17 December 2025]. (原始内容 (PDF)存档于20 August 2025).
- ^ Image generation. OpenAI Platform. OpenAI. [17 December 2025].
- ^ Volker Zota. Image generator from GPT-4o: what is probably behind the technical breakthrough. Heise Online. 8 April 2025 [17 December 2025]. (原始内容存档于17 December 2025).
外部链接[编辑]
- ChatGPT Images 2.0
- OpenAI image models - including GPT Image 1, 1.5 and 2
- 4o ImageGen - the official custom GPT for GPT Image 1
Module:Authority_control第183行Lua错误:attempt to index field 'wikibase' (a nil value)