GPT Image 2 プロンプトガイド:コツ、テンプレート、バズる事例 (2026)

VideoToPrompton 3 hours ago12 min read

OpenAIは2026年4月21日にGPT Image 2(モデルID gpt-image-2、ChatGPT Images 2.0として販売)をリリースしました。そして、12時間以内にImage Arenaで1位を獲得し、+242ポイント差という、そのリーダーボードでこれまでに記録された最大のリードを築きました。AI画像生成モデルのプロンプトを書くなら、今期中に習得すべき唯一のモデルです。

これは、OpenAI公式のクックブック、リリース初週にXで話題になった gpt-image-2 のプロンプト例、そしてGPT Image 1.5やDALL·E 3といった以前のモデルとの比較テストという3つの情報源に基づいて構築された、実用的なGPT Image 2プロンプトガイドです。読み終える頃には、再利用可能なGPT Image 2プロンプト構造、10種類のコピペ用テンプレート、そしてこのモデルを特徴づけるテキストレンダリングと編集パターンを明確に理解しているでしょう。

GPT Image 2 (ChatGPT Images 2.0) とは?

GPT Image 2は、OpenAI初の、アーキテクチャにネイティブな推論機能が組み込まれた画像モデルです。ウェブを検索し、リクエストを検討し、単一のプロンプトから最大8つの矛盾のないバリエーションを生成できます。プロンプトの書き方を変える主要な仕様:

  • Resolution: 最大4K(4096×4096)、信頼性の高いスイートスポットは2Kレンジ(2560×1440)
  • Text rendering: ラテン文字、CJK、ヒンディー語、ベンガル語で約99%の文字レベルの精度 — gpt-image-2の際立った特徴
  • Multi-image input: 複数の参照画像を供給すると、gpt-image-2はそれらがどのように組み合わされるかを推論します
  • Backbone: GPT-5.4、DALL·E 3 と GPT Image 1.5 の両方を置き換える

実際にはどういうことかというと、GPT Image 2は、ほとんどの古いモデルとは異なり、具体的で構造化された、複数の節を持つプロンプトに報います。曖昧なプロンプトは曖昧な結果を生む。長く、密度の高く、よく整理されたプロンプトは、驚くほど正確な出力を生成します。

機能するGPT Image 2プロンプト構造

公式のOpenAIクックブックは、gpt-image-2に1つのプロンプト構造を推奨しており、私がリバースエンジニアリングしたすべての話題になったGPT Image 2プロンプトがそれに従っています。

Scene → Subject → Important details → Use case → Constraints

その順序で gpt-image-2 のプロンプトを記述してください。長い1つの段落ではなく、改行やラベル付きのセグメントを使用してください。gpt-image-2の推論ステップは、コンマ区切りのキーワードの羅列よりも、構造化されたプロンプトをより確実に解析します。

弱い gpt-image-2 プロンプト:

A girl in Tokyo at night.

強力な gpt-image-2 プロンプト (Scene → Subject → Details → Use case → Constraints):

Scene: a narrow Shinjuku alley at 11pm, light rain on wet pavement reflecting neon signage in red and cyan.

Subject: a 22-year-old Japanese woman in a oversized beige trench coat, holding a clear umbrella, looking slightly off-camera.

Details: shot on 35mm film with mild grain, shallow depth of field at f/1.8, subject in focus and background bokeh, soft fill from a paper lantern off-screen left.

Use case: editorial street photography portrait, magazine cover potential.

Constraints: photorealistic only, no anime stylization, no logos or readable signage, no extra people in frame.

2番目のプロンプトは、単に長くするために長くしているわけではありません。各セグメントは gpt-image-2 に異なる種類の制約を与えます。sceneは場所と照明を固定し、subjectはアイデンティティを固定し、detailsはカメラと見た目を固定し、use caseは完成度を設定し、constraintsは失敗モードを排除します。

テキストレンダリング:GPT Image 2のキラー機能

GPT Image 2は、画像内に実際の複数行、多言語のテキストを配置し、その結果を信頼できる最初の主要な画像モデルです。OpenAIが約束する約99%の精度を得るには、4つのルールに従ってください。

1. リテラルテキストを引用符で囲む。 これにより、gpt-image-2にその文字列を逐語的にレンダリングすべきであることを伝えます。

Headline reads: "Summer 2026 Capsule Collection"

2. タイポグラフィを具体的に指定する。 「きれいなフォント」と言うだけでなく、gpt-image-2に太さ、色、配置、位置を伝えます。

Bold sans-serif, white, centered in the bottom third, ~80px equivalent, generous letter spacing.

3. 重要なテキストには逐語的なガードを追加する。 精度が重要な場合(ブランド名、日付、価格など)は、以下を追加します。

Render verbatim. No extra characters, no substitutions, no creative reinterpretation.

4. 品質を上げる。 小さなテキスト、複数フォントのレイアウト、または情報が密集したパネルを含むプロンプトには、quality: medium または high を使用します。low 品質は大きなポスターでは問題ありませんが、字幕サイズのテキストでは崩れます。

Xで話題になった例 (@BubbleBrain、4月22日):35mmの日本的な美学のポートレートプロンプトで、「Analog 35mm film photography, soft airy Japanese-style aesthetic, gentle diffused natural window light, slight overexposure, pastel tones, low contrast.」と明示的に指定されました。テキストレンダリングは含まれていませんが、同じ密度と具体性のロジックが適用されます。gpt-image-2は、各節が具体的であったため、すべてを正確に捉えました。

Change / Preserve 編集パターン

gpt-image-2での編集は、多くの人が時間を費やす部分です。OpenAIクックブックとすべてのawesome-gpt-image-2 GitHubリポジトリの両方で推奨されている、一貫して機能するパターンには3つのブロックがあります。

Change: [exactly what should change]
Preserve: [face, identity, pose, lighting, framing, background, geometry, text, layout]
Constraints: [no extra objects, no redesign, no logo drift, no watermark]

秘訣は Preserve の行です。gpt-image-2は、明示的にロックしないものについては、静かにドリフトします。顔を同じに保ちたい場合は、Preserveに「face」と記述します。照明を維持したい場合は、「lighting」と記述します。背景を入れ替える際に元のテキストをそのままにしたい場合は、Preserveに「all on-image text verbatim」と記述します。

一度に1つの変更を繰り返します。一度に5つの変更を試みる長い編集プロンプトは、5つすべてにドリフトを生じさせます。1つのChange節と長いPreserveリストを持つ短い編集プロンプトは、望む結果を生成します。

マルチ画像入力:参照間での推論

gpt-image-2が以前のモデルではできなかったことの1つは、複数の参照画像間で推論することです。ルール:各画像をインデックスで参照しそれらがどのように相互作用するかを記述することです。

Image 1: product shot of a glass perfume bottle on white seamless. Image 2: editorial style reference, golden hour light through a window. Image 3: pose reference, hand holding the bottle from above.

Apply Image 2's lighting and color grade to Image 1. Use Image 3's hand pose. Final aspect ratio 4:5.

@icreatelife (Kris Kashtanova) は、リリース週に最も共有されたGPT Image 2チュートリアルの1つで同じロジックを使用しました。「make equirectangular panorama of [PLACE]」というプロンプトで正距円筒図法の360°パノラマを生成し、それを3Dビューア構築の参照としてフィードバックしました。同じマルチ画像文法が、合成、スタイル転送、ポーズ転送を処理します。

話題になったGPT Image 2プロンプト5選、解読

リリース初週にXで話題になった5つのGPT Image 2プロンプトを、それぞれ成功の理由とともに解説します。

1. タイムズスクエアのリアリズム — gpt-image-2が150人以上の歩行者、黄色いタクシー、濡れた舗装、鏡面ハイライトをレンダリングし、さらにすべての看板のスペルを正しく保ったため、話題になりました。プロンプトは、Scene → Subject → Details の詳細な記述であり、Constraintsに「all signage text remains accurate, no garbled letters」と明示的に指定されていました。

2. @hasantoxrのLovartワークフロー — 1つのプロンプト、30のキャンペーンアセット、編集可能なテキストレイヤー。秘訣は、単一の画像記述ではなく、ブランドのブリーフをプロンプト内にgpt-image-2に渡し、一度にアセットのシステムを要求したことです。gpt-image-2の推論モードが、マルチアセットの計画ステップを処理しました。

3. @junwatuのデザインモックアップ — モバイルeコマースのホームページのワンショットUIモックアップ。プロンプトは、ステータスバー、上部のタブ、ヒーローカード、製品グリッド、下部のナビゲーションを明示的な要素として指定しました。gpt-image-2は、デザイナーが実際のスクリーンショットだと思ったような、ピクセル単位で信じられるモックアップを生成しました。

4. 「A massive pile of rice, and on one single grain there is tiny text that reads 'wOw'」 — 微細なディテールの柔軟性。2つの洞察:(1) gpt-image-2は、画像の約3%程度の領域内に読み取り可能なテキストをレンダリングできること、(2) 対照的なスケール(巨大な山 vs 一粒)が、共有されやすい記憶に残る画像を生成すること。

5. @icreatelifeの正距円筒図法パノラマ — 「make equirectangular panorama of [PLACE]」。短いプロンプトですが、gpt-image-2が追加の説明なしに理解する特定のフォーマットを活用しています。その後、彼はその結果をマウス制御の3Dビューア用のCodexプロンプトにフィードしました。このような2段階のワークフローは、初期のgpt-image-2パワーユーザーが構築しているものです。

10種類のコピペ用GPT Image 2プロンプトテンプレート

これらを開始点として使用し、括弧内のスロットを埋めてください。すべてのテンプレートは、Scene → Subject → Details → Constraints の構造に従っています。

1. エディトリアルポートレート

Scene: [location, time of day, light source]. Subject: [age/look], wearing [outfit], [pose]. Details: shot on 35mm, shallow depth of field, soft natural light. Constraints: photorealistic, no extra people, no readable text.

2. ヘッドライン付きポスター

A [style] poster, [aspect ratio]. Headline reads: "[exact text]" in [font weight + color], centered. Body: [layout description]. Render text verbatim, no substitutions.

3. UIモックアップ

A pixel-perfect [device] screenshot of a [product type] app. Top: [status bar + nav]. Middle: [hero + content]. Bottom: [tab bar]. Style: [iOS / Material / minimal]. Constraints: realistic UI, no Lorem Ipsum, all text in English.

4. インフォグラフィック

An infographic titled "[exact title]" explaining [topic]. Layout: [columns / flow]. Style: [flat / 3D / hand-drawn]. Use icons for [list items]. All text rendered verbatim.

5. 製品写真

Studio product shot of [product] on [background], [lighting setup], [angle]. Reflections, shadows, and material accuracy are critical. No text, no logos.

6. キャラクターシート

Character sheet of [character description]. Three poses: front, three-quarter, side. Same outfit, same lighting across all three. Reference style: [studio]. Constraints: identical face across panels.

7. ソーシャル広告クリエイティブ

A [aspect ratio] social ad for [brand/product]. Headline: "[text]". Subtext: "[text]". CTA button: "[text]". Background: [scene]. Style: [tone]. Render all text verbatim.

8. ゲームスクリーンショット

A first-person [game style] screenshot of [scene]. HUD elements: [list]. Lighting: [description]. Resolution: 4K. Constraints: no real-world logos, no watermark.

9. ストーリーボードパネル

Storyboard panel #[N] for [scene]. Shot type: [wide / medium / close]. Camera: [angle]. Subject: [action]. Style: [grayscale sketch / color]. Caption beneath: "[scene description]".

10. 編集 / 維持

[Attached image]. Change: [exactly what changes]. Preserve: face, identity, pose, lighting, framing, background, all on-image text verbatim. Constraints: no extra objects, no redesign, no logo drift.

よくあるGPT Image 2プロンプトの間違い

  • Constraintsを省略する。 モデルは人々が予想する以上にドリフトします。「no extra people」と言わないと、しばしば余分な人が生成されます。
  • 1つのプロンプトに5つの編集を詰め込みすぎる。 1つの英雄的なメガプロンプトよりも、単一変更の反復の方が優れています。
  • テキストの逐語的なガードを忘れる。 ロックしないと、「Summer」が「Sumer」になることがあります。
  • 曖昧なスタイル。 「Cinematic」は、それだけではgpt-image-2にとって意味がありません。「Anamorphic 2.39:1, teal and orange grade, soft halation on highlights」は意味があります。
  • アスペクト比を言葉で要求するが、sizeパラメータで指定しない。 sizeとして渡してください(例:1024×1536)。言葉だけでは常にキャンバスをロックするわけではありません。

GPT Image 2は、プロンプトエンジニアリングが意味のある形で出力を変える最初のOpenAI画像モデルです。Scene → Subject → Details → Constraints の構造、逐語的なテキストパターン、そして Change / Preserve の編集フォーマットが、最初に習得すべき3つのことです。それ以外はすべてバリエーションに過ぎません。

毎回手作業で構造を書くのを避けたいですか?当社のGPT Image 2 プロンプトジェネレーターをお試しください。一行のアイデアを入力するだけで、ChatGPTまたはOpenAI APIに貼り付ける準備ができた構造化されたgpt-image-2プロンプトが返されます。