GPT-4とは?GPT-3.5と何が違う?【徹底比較】

ChatGPTの性能を決める重要な要素に「モデル」があります。そして、現在公開されている最新のモデル「GPT-4」は現在、ChatGPT plusと呼ばれる有料版でしか利用することができませんが、非常に高い性能を博しています。逆に、現在ChatGPTの無料版で使える「モデル」は「GPT-3.5」と呼ばれる一世代前のモデルです。

今回は、ChatGPTの課金版であるChatGPT plusで使える「GPT-4」と無料版の「GPT-3」でどのような差があるかについて徹底比較解説していきます。

GPT-4とGPT-3.5の機能比較表

手っ取り早くGPT-4とGPT-3.5の差を知りたい人のために一番最初に機能比較表を掲載します。

GPT-4GPT-3.5
リリース日2023年3月14日2022年11月30日
データ鮮度2021年9月まで2021年9月まで
パラーメータ数1.75兆個100兆個(推定)
機能文章作成文章作成
画像入力による文章作成
画像、音楽、動画の生成
最大トークン数2,048(5,000文字)32,768(約25,000字)
利用方法無料有料

解説:パラメータ数が1.75兆個→100兆個(推定)

GPTなどの大規模言語モデルは大量のテキストデータ(ビックデータ)を学習することで回答精度を高めますが、それを語る上で欠かせない要素が「モデルパラメータ数」です。大規模言語モデルなどのディープラーニング技術ではパラメータと呼ばれる確率計算を行うための係数の集合体であり、人間で例えると脳みそのシナプスのような存在があります。

モデルパラメータ数が多いとそれだけモデルが持つ知識や表現力が増すため、基本的には「多ければ多いほど」優れたモデルになります。(同時に計算コストやメモリ使用量が増加するなどのデメリットもあります)

GPT-4のパラメータ数については非公開ですが、100兆個と言われおり、それがGPT-4の高度な回答精度に大きく影響していると考えられます。

解説:最大トークン数2,048→32,768

トークンとは入力可能な言語の最小単位のことを指します。最大トークン数が増えるということは、単純化して説明すると「ChatGPTへの入力文字数やChatGPTの出力文字数が増える」ということに繋がります。その結果として、より複雑な指示を出すことができたり、より長文の出力ができるようになったりができるようになりました。

GPT-4 vs GPT-3.5 進化した4つのポイント

上記のような機能変化の結果、GPT-4はGPT-3.5と比較して次のような特徴を持ちます。

  1. 回答精度がUP(頭が良くなった)
  2. 画像入力(ビジュアル入力)が可能に
  3. テキスト以外の画像や音楽、動画の生成ができる
  4. 回答の安全性が高まった

①回答精度がUP(頭が良くなった)

最も大きな変化は回答精度が大幅に向上した点です。パラメータ数の増加などの影響により、回答の精度が大幅に向上しています。これはGPT-3.5とGPT-4のそれぞれに、米国における有名な試験を受けさせた結果を表していますが、GPT-4のほうが大幅に高いスコアを獲得できていることがわかります。

画像出典:OpenAI

回答精度の向上は次のような点で感じることができます。

  • 事実に即した回答がよりできるようになっている
  • 抽象度の高い指示に対しても、利用者の意図を汲み取った回答が実現可能になっている
  • その質問以前の質問の内容(コンテキスト)を踏まえた回答の精度が上がっている

特に、GPT-3.5では不正確な情報をさも事実であるかの通り堂々と返答する例が多く見られ課題になっていました。これはAIの幻覚(ハルシネーション)と呼ばれる問題です。もちろん、GPT-4でもそれを100%防げるわけではありませんが、GPT-4のテクニカルレポートによるとハルシネーションの発生を19〜29%抑えられるとのことです。

②画像入力(ビジュアル入力)が可能に

これまでChatGPTへの指示はテキストのみでしたが、画像での入力も可能になっています。テキストと画像を組み合わせた指示(マルチモーダルインプット)も可能です。具体的な用途としては次のような用途が考えられます。

  • 問題集を写真で撮影しアップロードすることで、その問題文の文字を読み取り回答を求める
  • 冷蔵庫の中身を写真撮影し、写っている食材から今日の献立を考えてもらう
  • 写真に写っているモノや生き物について調べてもらう

③テキスト以外の画像や音楽、動画の生成ができる

ChatGPTへのインプットはテキストと画像が可能となりましたが、逆にアウトプット(ChatGPTからの返答)はテキストだけでなく、画像や音楽、動画などを生成することができるようになりました

④回答の安全性が高まった

人間には備わっている倫理観のようなものはAIにはありません。しかしそれでは困るので、OpenAI社は回答の安全性について改良を加えています。具体的には「RLHFという強化学習アルゴリズムの改良」「ルールベースの判定機の新設」という2つが加わった結果、GPT-4のテクニカルレポートによると有害な回答の生成率はGPT-3.5が6.48%であるのに対して、GPT-4は0.73%と非常に低くなっています。