- AI 视频提示词博客 - 教程、技巧与指南
- GPT Image 2 提示词完全指南:技巧、模板与 X 高赞案例(2026)
GPT Image 2 提示词完全指南:技巧、模板与 X 高赞案例(2026)
OpenAI 在 2026 年 4 月 21 日发布了 GPT Image 2(API 模型 ID:gpt-image-2,营销名 ChatGPT Images 2.0),上线 12 小时就以 +242 分的领先冲上 Image Arena 榜首——这是该榜单有史以来最大的领先幅度。如果你给 AI 图像模型写提示词,这是本季度必须掌握的一个模型。
这篇 GPT Image 2 提示词指南整合了三个来源:OpenAI 官方 cookbook、首发一周内 X 上 viral 的 gpt-image-2 prompt 案例、以及和 GPT Image 1.5、DALL-E 3 的对比测试。读完你将掌握一套可复用的 GPT Image 2 提示词结构、10 条复制即用的模板,以及让这个模型与众不同的文字渲染和编辑技巧。
什么是 GPT Image 2 (ChatGPT Images 2.0)
GPT Image 2 是 OpenAI 第一个在架构层面内置推理(thinking)能力的图像模型——它可以联网搜索、思考请求、从一条提示词生成最多 8 张一致性变体。改变提示词写法的几个关键参数:
- 分辨率:最高 4K(4096×4096),2K 段(2560×1440)是稳定性最佳的甜点
- 文字渲染:拉丁、CJK、印地、孟加拉语字符级准确率约 99%——这是 gpt-image-2 最突出的差异点
- 多图输入:可以同时塞多张参考图,gpt-image-2 会推理它们如何组合
- 底座:GPT-5.4,同时替换 DALL-E 3 和 GPT Image 1.5
实际意义:GPT Image 2 对具体、结构化、多子句的提示词奖励特别高,这是大多数旧模型做不到的。模糊的提示词产出模糊的结果。长、密集、组织良好的提示词产出准确度惊人的图像。
真正有效的 GPT Image 2 提示词结构
OpenAI 官方 cookbook 推荐的 gpt-image-2 提示词结构只有一个,而我反向工程过的所有 viral GPT Image 2 prompt 都遵循它:
Scene(场景)→ Subject(主体)→ Important details(关键细节)→ Use case(用途)→ Constraints(约束)
按这个顺序写你的 gpt-image-2 提示词。用换行或带标签的段落分隔,不要写成一长串逗号关键词——gpt-image-2 的推理步骤更可靠地解析结构化提示词。
弱版 gpt-image-2 提示词:
一个东京夜晚的女孩。
强版 gpt-image-2 提示词(Scene → Subject → Details → Use case → Constraints):
Scene: 新宿一条狭窄小巷,晚上 11 点,潮湿路面反射红色和青色霓虹灯。
Subject: 22 岁日本女性,穿宽松米色风衣,手持透明伞,目光略偏离镜头。
Details: 35mm 胶片质感,轻微颗粒,f/1.8 浅景深,主体清晰,背景虚化,画面左侧画外纸灯笼提供柔和补光。
Use case: 编辑类街头摄影肖像,杂志封面气质。
Constraints: 写实风格,不要动漫化,不要 logo 或可读招牌,画面内不要其他人。
第二条提示词不是为了长而长。每一段对 gpt-image-2 提供不同维度的约束:场景固定地点和光线,主体固定身份,细节固定相机和质感,用途定调精修级别,约束消灭失败模式。
文字渲染:GPT Image 2 的杀手级特性
GPT Image 2 是第一个能在图像里放置真实、多行、多语种文字并产出可信结果的主流图像模型。要拿到 OpenAI 承诺的约 99% 准确率,遵守四条规则。
1. 把字面文字放进引号。 这告诉 gpt-image-2 这串字符要原样渲染:
Headline reads: "2026 夏季胶囊系列"
2. 把字体细节写出来。 不要只说"干净的字体"。告诉 gpt-image-2 字重、颜色、对齐和位置:
粗体无衬线,白色,居中放在底部三分之一处,约 80px 等效字号,宽字距。
3. 关键文字加 verbatim 守卫。 当准确性至关重要——品牌名、日期、价格——追加:
Render verbatim. No extra characters, no substitutions, no creative reinterpretation.
4. 提高 quality。 含小字、多字体布局或密集信息板的 gpt-image-2 prompt,把 quality 设为 medium 或 high。low 在大尺寸海报上还行,但小到字幕级文字就崩。
X 上的 viral 例子,@BubbleBrain(4 月 22 日)的 35mm 日系肖像 prompt 显式写了:"Analog 35mm film photography, soft airy Japanese-style aesthetic, gentle diffused natural window light, slight overexposure, pastel tones, low contrast." 没涉及文字渲染,但同样的密度+具体性逻辑成立——gpt-image-2 把每个子句都做出来了,因为每一个都很具体。
Change / Preserve 编辑模式
用 gpt-image-2 做编辑是大多数人浪费时间的地方。OpenAI cookbook 和所有 awesome-gpt-image-2 GitHub 仓库共同认证的有效模式有三段:
Change: [具体要改什么]
Preserve: [face, identity, pose, lighting, framing, background, geometry, text, layout]
Constraints: [no extra objects, no redesign, no logo drift, no watermark]
关键是 Preserve 这一行。gpt-image-2 会在你没显式锁定的任何东西上悄悄漂移。想保留脸——在 Preserve 里写 "face"。想保留光照——写 "lighting"。想换背景但保留所有图上原有文字——在 Preserve 里写 "all on-image text verbatim"。
一次只改一处。一条试图同时改 5 件事的长 edit prompt,5 件都会漂移。一条 Change 只有一句、Preserve 列表很长的短 edit prompt,会得到你想要的结果。
多图输入:跨参考图的推理
GPT Image 2 能做但旧模型不能的一件事:跨多张参考图推理。规则:用编号引用每一张图,并说明它们如何交互。
Image 1: 一只透明香水瓶在白色无缝背景上的产品照。 Image 2: 编辑级风格参考,黄昏阳光从窗户透进来。 Image 3: 姿势参考,从上往下握住瓶子的手。
把 Image 2 的光线和色调应用到 Image 1。使用 Image 3 的手部姿势。最终比例 4:5。
@icreatelife(Kris Kashtanova)在首发周分享了相同逻辑的一个 GPT Image 2 教程——用 "make equirectangular panorama of [PLACE]" 生成 360° 等距全景图,然后把它喂给 Codex 做一个鼠标控制的 3D 浏览器。同样的多图语法可以处理合成、风格迁移和姿势迁移。
5 条 X viral GPT Image 2 提示词解读
以下是发布首周内 X 上爆火的 5 条 GPT Image 2 提示词,逐一标注它们生效的原因。
1. 时代广场写实 — 爆火是因为 gpt-image-2 渲染了 150+ 行人、黄色出租车、湿滑路面、镜面高光,而且所有招牌文字拼写正确。提示词是密集的 Scene → Subject → Details,并在 Constraints 里显式写了 "all signage text remains accurate, no garbled letters"。
2. @hasantoxr 的 Lovart 工作流 — 一条提示词,30 个营销资产,可编辑文字图层。诀窍:他在提示词里塞了一份品牌简报而不是单图描述,并在一次请求中要求一整套资产。gpt-image-2 的推理模式处理了多资产规划的步骤。
3. @junwatu 的 UI mockup — 一次性产出移动电商 App 首页 UI 图。提示词把状态栏、顶部 tab、hero 卡片、商品网格、底部 nav 全部列为显式元素。gpt-image-2 产出了被设计师误认为真实截图的 mockup。
4. "一大堆米,其中一颗米上有一行小字写着 'wOw'" — 微细节炫技。两个洞察:(1) gpt-image-2 能在大约占整图 3% 的区域里渲染可读文字;(2) 反差量级(一大堆 vs 单一颗)产生易于传播的视觉冲击。
5. @icreatelife 的等距全景 — "make equirectangular panorama of [PLACE]." 提示词很短,但它利用了 gpt-image-2 不需进一步解释就能理解的特定格式。然后他把结果喂给 Codex 提示词做了一个鼠标 3D 浏览器。这种两步工作流是早期 gpt-image-2 重度用户正在搭建的东西。
10 条复制即用的 GPT Image 2 提示词模板
用作起点,填进方括号里的内容。每条模板都遵循 Scene → Subject → Details → Constraints 结构。
1. 编辑级肖像
Scene: [地点、时间、光源]。Subject: [年龄/外形],穿 [服饰],[姿势]。Details: 35mm 胶片,浅景深,柔和自然光。Constraints: 写实,不要其他人,无可读文字。
2. 带标题的海报
一张 [风格] 海报,[比例]。Headline reads: "[精确文本]",[字重 + 颜色],居中。Body: [布局描述]。Render text verbatim, no substitutions.
3. UI mockup
像素级精确的 [设备] 截图,[产品类型] App。顶部:[状态栏 + nav]。中部:[hero + 内容]。底部:[tab bar]。风格:[iOS / Material / 极简]。Constraints: 真实 UI,无 Lorem Ipsum,所有文字英文。
4. 信息图
一张信息图,标题:"[精确标题]",主题 [话题]。布局:[分栏 / 流式]。风格:[扁平 / 3D / 手绘]。给 [列表项] 配图标。所有文字原样渲染。
5. 产品图
[产品] 在 [背景] 上的影棚级产品照,[灯光设置],[角度]。反射、阴影、材质准确至关重要。无文字,无 logo。
6. 角色三视图
[角色描述] 的角色卡。三个姿势:正面、四分之三、侧面。同套服装、同种光线贯穿三格。参考风格:[工作室]。Constraints: 三格脸部完全一致。
7. 社交广告
[比例] 的社交广告,主题 [品牌/产品]。Headline: "[文本]"。Subtext: "[文本]"。CTA button: "[文本]"。背景:[场景]。风格:[调性]。所有文字原样渲染。
8. 游戏截图
[游戏风格] 第一人称视角,[场景]。HUD 元素:[列表]。光照:[描述]。分辨率:4K。Constraints: 无真实世界 logo,无水印。
9. 故事板分镜
故事板分镜 #[编号],[场景]。镜头类型:[远 / 中 / 近]。机位:[角度]。Subject: [动作]。风格:[黑白草图 / 彩色]。下方说明文字:"[场景描述]"。
10. 编辑保留
[附件图]。Change: [具体要改什么]。Preserve: face, identity, pose, lighting, framing, background, all on-image text verbatim。Constraints: no extra objects, no redesign, no logo drift.
常见的 GPT Image 2 提示词错误
- 省略 Constraints。 模型漂移比想象的多。不写 "no extra people",经常会多出几个人。
- 一条提示词改五件事。 单点迭代永远赢长篇巨改。
- 关键文字没加 verbatim 守卫。 "Summer" 可能变成 "Sumer" 如果你不锁。
- 风格描述太虚。 "Cinematic" 单独一个词对 gpt-image-2 没意义。"Anamorphic 2.39:1, teal and orange grade, soft halation on highlights" 才有。
- 比例只在文字里说,没传 size 参数。 用
size参数传(如 1024×1536)——光靠文字未必锁得住画布。
GPT Image 2 是 OpenAI 第一款「提示词工程对结果有显著影响」的图像模型。Scene → Subject → Details → Constraints 结构、verbatim 文字模式、Change / Preserve 编辑格式是要先掌握的三件事。其余都是变体。
不想每次都手写完整结构?试试我们的 GPT Image 2 提示词生成器——输一句话,拿回一条结构化的 gpt-image-2 prompt,可以直接粘到 ChatGPT 或 OpenAI API。
