跳到主要内容

GPT Image 2

OpenAI 的旗舰图像模型 —— 提示词忠实度高、支持参考图像编辑，最高可达 4K，并提供三档画质。

能力

特性	支持情况
文生图	支持
图生图（编辑）	支持
最高分辨率	4K (3840 x 3840)
参考图像	支持
画面比例	1:1、1:3、2:3、3:1、3:2、3:4、4:3、4:5、5:4、9:16、16:9、21:9
画质档位	low、medium、high
尺寸档位	1K、2K、4K
反向提示词	不支持
局部重绘 / 蒙版	支持

提示词忠实度

GPT Image 2 的强项是严格按提示词执行 —— 文字排版、画面布局、明确指定的视觉元素，比基于扩散的图像模型更稳定。当提示词直接点出元素时效果最好（"一张海报，标题 'Summer Festival' 居中，在青色背景上采用 Art Deco 风格"）。

画质与成本

每个尺寸档（1K / 2K / 4K）可在三档画质（low / medium / high）下渲染。积分消耗在两个维度上同时缩放。迭代阶段，1K + low 是最便宜的组合；构图敲定后再切到更高档。

提示词技巧

想出现的文字按你期望的字面写出来。 GPT Image 2 会逐字读取引号里的字符串。
描述布局，而不只是主体。 "三栏信息图，每栏有标题"比"一张信息图"更可控。
用参考图像做风格迁移。 把你想要的画面感作为参考传入，而不是用文字描述。
多张参考存在歧义时使用 @ 提及。 输入 @ 把参考图像在行内插入，让模型清楚每张图扮演什么角色。详见在提示词里引用图像。

局限

不支持反向提示词
上游 API 速率限制为每分钟 3 次请求

能力
提示词忠实度
画质与成本
提示词技巧
局限