AI画像生成の基礎知識

AI画像生成の基礎編

この記事では、美麗な画像を生成したい私がStable DiffusionやSeaArt系のAI画像生成サービスを使い始めたい方向けに、「Text to Image」と「Image to Image」の基礎、そしてモデル・プロンプト・パラメータといった重要な用語をメモ感覚で解説します。

AI画像生成の基礎知識

AIで画像はどうやったらできる?

最近では多くのAI画像生成サービスが登場していますが、その基本的な生成方法は大きく分けて以下の2種類です。

  • Text to Image:テキスト(プロンプト)で指示を与えて画像を生成する
  • Image to Image:参考にする画像とテキスト(プロンプト)を組み合わせて新しい画像を生成する

Text to Imageとは

プロンプト(指示文)を入力して、それに沿った画像を生成する方法です。
ただし細かい指定をしないと思い通りのものは作ってくれないので注意です。
例:「海岸に佇みワンピースを着ている可愛い女性の画像を生成して。」など、 文章生成AIに慣れている方には直感的かもしれません。

出展:ChatGPTのイメージ生成

Image to Imageとは

既存の画像とプロンプト(指示文)を組み合わせて、元画像を参考に新しい画像を生成する方法です。
元画像の構図や雰囲気を活かしつつ、テキストの指示で生成される画像の変更や追加ができます。

プロンプト(指示文)以外の要素

高品質なAI画像を作るには、プロンプト(指示文)以外にも大事な要素があります。
基本の流れは以下の通りです。

  1. モデル(Model)を選択
  2. プロンプト(Prompt)を入力
  3. パラメータ(Parameters)を設定
  4. 生成

ここからは、この3つの重要要素について解説します。

1. モデル(Model)とは?

AIが画像を生成するための「設計図」や「ルール」のようなものです。
どんな画像をどんな画風でどんな絵柄のクセで作るかを決める中核部分となり、モデルによって得意なテイストや描写の傾向が異なります。

2. プロンプト(Prompt)とは?

生成したい画像の内容を指定する指示文です。
肯定的なプロンプト(含めたい要素)と、否定的なプロンプト(除外したい要素)の両方を使い分けることで、より狙い通りの画像を作りやすくなります。

3. パラメータ(Parameters)とは?

画像の特徴や品質を調整するための設定項目です。主なものは以下の通りです。

  • Steps(ステップ数):生成の精度。ステップ数が多いほど詳細だが時間がかかる(目安20〜50)
  • CFG Scale:プロンプトへの忠実度。高いほど指示通りだが不自然になりやすい(目安7〜15)
  • Seed(シード値):同じ値なら同じ画像を再生成できる乱数の起点。パターンの幅のようなもの。
  • Sampler:生成アルゴリズムの種類(例:Euler a、DDIMなど)
  • Image Size:欲しい画像の縦横サイズのピクセル値
  • Batch Size:一度に生成する画像の枚数

これらを理解して調整できるようになると、思い通りの画像に近づけやすくなります。

今回のまとめ

  • AI画像生成には「Text to Image」と「Image to Image」の2種類がある
  • 画像生成の基本要素は「モデル」「プロンプト」「パラメータ」の3つ
  • パラメータ調整で品質や雰囲気が大きく変わる
  • 今日すべて覚えられなくてもOK! 少しずつ慣れていけば大丈夫

次回は「モデル」についてもう少し深く掘り下げていきます💡