徹底比較!生成AI(ジェネレーティブAI)サービス12選

テキストやデータを入力することで、AIが自動的に文章や画像を生成する「生成AI」が話題になっています。
この記事では、テキスト生成AI「ChatGPT」や画像生成AI「DALL・E2」など代表的な生成AIサービスの解説をします。

生成AI(ジェネレーティブAI)とは

生成AI(ジェネレーティブAI)は人工知能(AI)の一分野であり、学習したデータを元に新しいコンテンツやデザインを生成するために使用される技術です。

生成AIの種類

生成AIは画像生成、文章生成、音楽生成、ビデオ生成などさまざまなアプリケーションで利用されています。
パターンやトレンドを抽出し、それに基づいて新しいデータを生成することができるため、クリエイティブな活動やデザインプロセスを支援するツールとして有用です。

テキスト生成AIサービス 4選

ChatGPT

ChatGPTはOpenAIによって開発された大規模な言語モデルで、人間のように対話を行うことができます。
巨大なデータセットを用いてトレーニングされ、文章のパターンや文脈を理解する能力を獲得しています。
そのため、ユーザーが投入するテキストに対して自然な形で応答を生成することができます。

【解説】今話題のChatGPTが7分でわかる!始め方や使い方、知って得する豆知識など

Bing AI

Microsoft社は検索エンジン「Bing」をサービス提供しています。このBingに搭載された最新機能が「Bing AI」です。

Bing AIは自然言語処理(NLP)、機械学習、画像認識、音声認識など様々なAI技術を組み合わせて構築されています。
Bing AIの特徴的な機能として次のような「3つの会話スタイル」があります。

  1. より創造的に
  2. よりバランスよく
  3. より厳密に
MicrosoftのチャットAI「Bing AI」とは?使い方やChatGPTとの違いを解説

Google Bard

Googleアカウントを持っていればGoogle Bardはとても簡単に利用することができます。

ChatGPTは2021年9月までの情報を元に学習を行っているため最新の情報に関する回答をすることはできませんが、Bardは検索エンジン最大手のGoogleが開発を行っていることもあり、インターネット上の様々なデータにリアルタイムにアクセスして回答をすることができます。

ChatGPTは様々なAPIを提供敷いているのに対して、Google Bardは現在はあくまでも研究用プロトタイプとして提供されているため、APIなどは用意されていません。

GoogleのチャットAI「Bard」とは?使い方やChatGPTとの違いを解説

Amazon Titan

Amazonの20年にわたる機械学習の経験を基に開発されたとされるChatGPTのようなテキストAIで、不適切な入力や出力を検出し拒否するように設定されています。
Amazon BedrockのAPIにアクセスすることで、アプリケーションにジェネレーティブAIの機能を組み込むことが可能です。

画像生成AIサービス 3選

DALL・E2

「DALL·E 2(ダリ ツー)」は入力されたテキストデータをもとに画像を生成するAIツールであり、ChatGPTを開発するOpenAIから2022年4月に発表されました。

DALL·E2はトランスフォーマーネットワークと呼ばれるディープラーニングモデルを使用しています。
このモデルは、学習データセットに基づいて画像生成のパターンや特徴を学習し、それを元に新しい画像を生成することができます。
ユーザーは、テキストの説明を与えることで、DALL·E2に特定のイメージを生成させることができます。

後述する2つの画像生成AIである「Midjourney」や「Stable Diffusion」には生成時に調整できる様々なパラメータがあり細かい調整が可能となる一方、それぞれのパラメータの意味を理解するだけでも一苦労ですし、どのパラメータを動かすとどのような変化が起きるかは非常に複雑です。
一方、「DALL·E 2」では命令テキストのみで画像が生成されるため初心者でも簡単に画像生成をすることができます。

OpenAI社の画像生成AI「DALL·E 2」の使い方とChatGPTで画像生成する方法

Stable Diffusion

「Stable Diffusion」を開発したAI研究企業のStability AIは、2023年4月に従来の画像生成AIを大幅に強化した「Stable Diffusion XL(SDXL)」のベータ版をリリースしました。
そして6月22日、SDXLベータ版から画像と構図のディテールが大幅に改善された新モデル「SDXL 0.9」がリリースされました。
「Stable Diffusion」は時間スケールを設定することで生成プロセスを制御し、途中段階の画像を取得できることが可能です。
このため、ユーザーは生成プロセスの途中経過を観察し、必要に応じて修正や調整を行うことができます。

画像生成のほかにも画像編集にも応用されます。例えば、特定の画像の属性や要素を変更するために使用することができます。例えば、特定の物体を画像から削除する、画像の色調を変える、顔の表情を変化させるなど、さまざまな編集操作が可能です。

画像生成AI「Stable Diffusion」徹底解説!使い方からプロンプトのコツまで

Midjourney

「Midjourney」は、チャットアプリである「Discord」のルームへ参加しプロンプトを入力することで、手軽に画像の生成が可能なサービスです。
2023年6月26日現在は無料版は停止されているため、有料版のみの提供となっています。

動画生成AIサービス 3選

Runway gen2

Runway MLは、機械学習モデルを使用して、ビジョン、音声、テキストなどのさまざまなクリエイティブなプロジェクトを実現するためのプラットフォームです。
Runway gen2では一般的な機械学習モデルの使用だけでなく、GAN(Generative Adversarial Networks)やモデルの蒸留(distillation)などの高度な技術もサポートしています。これにより、画像生成、スタイル変換、音声合成、テキスト生成などの幅広いクリエイティブなプロジェクトを実現することができます。
開発者がカスタムモデルを作成してプラットフォームに統合することも可能です。

kaiber

kaiberは画像とプロンプトを入力すれば、簡単なアニメーションを作ってくれるサービスです。

Phenaki

Phenakiは連続したテキストから、従来よりも長いストーリーのある動画を生成できるサービスです。

音声生成AIサービス 2選

VALL-E

Microsoftは2023年1月5日、人間が話す声の3秒分のデータを与えるとその人のようにテキストを読み上げられるようになるAI「VALL-E」を発表しました。
GitHubで公開されたVALL-Eのサンプルによると、「怒っている様子」や「眠そうな様子」などのトーンも追加できるようです。

Voicebox

FacebookやInstagramなどのサービスを展開するMeta AIは2023年6月16日、音声用ジェネレーティブAIモデル「Voicebox」を発表しました。
Voiceboxを使えば入力した文章を読み上げさせるだけでなく「音声の一部を編集する」「他人の声で文章を勝手に読ませる」といった悪用されそうな操作も可能なため、MetaはVoiceboxのモデルデータやコードの一般公開を控えています。

以上、代表的な生成AIサービスの紹介でした。