AIの進化が加速する中、最先端AIモデルであるChatGPTとGeminiが注目を集めています。しかし、どちらを選ぶべきか、各モデルの特徴や強みを理解するのは容易ではありません。本記事では、ChatGPTとGeminiの機能や性能を比較します。
ChatGPT・Geminiとは?
ChatGPTとは?開発元や主な機能を解説
ChatGPTは、アメリカの企業であるOpenAI社が開発した人工知能(AI)です。
自然言語処理※1 の分野で革新的な進歩をもたらし、2022年11月のリリース以来、瞬く間に世界中で注目を集めています。
※1 人が書いたり話したりする言葉をコンピュータで処理する技術。
主な機能として、テキスト生成と対話が挙げられます。また、文章の要約や翻訳、コード生成なども得意としています。膨大な量のテキストデータを学習しているため、ビジネス、教育、エンターテインメントなど、さまざまな分野で活用されています。
【GPTのバージョンによる学習データ量】
・ GPT-3:約570GBのデータを学習。この量は、Word文書(1ページ500単語程度)約1億9000万ページ分に相当します。
・GPT-3.5:約3410億トークン※2 を学習したと推定されています。
・GPT-4o: 学習データ量は公開されていませんが、GPT-3.5よりも多くのデータを使用していると考えられます。
※2 自然言語処理モデルがテキストを処理する際の基本単位。日本語では1文字が約1.5〜2トークンに相当するので、約1950億文字(平均的な小説(20万文字)の約975万冊分)に相当。
Geminiとは?開発元や主な機能を解説
Geminiは、Googleが開発した次世代の人工知能(AI)です。2023年12月に発表されたこのAIは、テキスト、画像、音声、動画など複数のデータ形式を同時に処理できるマルチモーダル機能を備えています。ChatGPTにもマルチモーダル機能がありますが、開発したGoogle社が専門的な回答や知的推理が得意である点にあります。
学習データ量は2024年8月現在、Google社が情報を公開していないため詳細は不明です。
Geminiには3つのサイズバリエーションがあり、用途に応じて選択できます。最小の「Nano」は主にモバイルデバイス向け、中間の「Pro」は汎用的な用途に、最大の「Ultra」は最高性能を求める場合に適しています。
ChatGPTとGeminiの機能比較
ここで、ChatGPTとGeminiの機能を比較してみます。
ChatGPTは、先ほども述べた通り主にテキストデータを大量に学習し、文章生成や対話に特化しています。そのため、自然な文章生成や、与えられた指示に基づいた文章作成に優れています。
Geminiは、 テキストデータだけでなく、画像、音声、多様なデータを学習しています。これにより、文章生成だけでなく、画像の説明など、幅広いタスクに対応できる汎用性の高いモデルとなっています。
文章生成の差
では、文章生成能力の違いを見てみましょう。
例として以下のプロンプトを入力します。
プロンプト例: 「太郎くんは、昨日公園で遊んでいるときに、赤いボールを見つけた。太郎くんはボールをどうしたと思いますか?その後、太郎くんはどういう気持ちになったと思いますか?」
【Chat GPT】
太郎くんが公園で赤いボールを見つけたとき、きっととても興奮したと思います。彼はそのボールを拾い上げて、まずは手に取って転がしたり、投げたりして楽しんだのではないでしょうか。もしかしたら、他の子どもたちと一緒に遊んでみたり、一人で夢中になって遊んだりしたかもしれません。
その後、太郎くんはボールを持ち帰るかどうか迷ったかもしれません。もし持ち帰ることにしたなら、新しいおもちゃが増えたことに喜びを感じたでしょうし、もし公園に置いてきたとしたら、「また遊びに来て使おう」と思って少しさみしいけれど楽しみな気持ちになったかもしれません。どちらにしても、赤いボールとの出会いが太郎くんの一日を特別なものにしたと思います。
ChatGPTは、太郎くんの行動と感情を自然な文章で生成しています。
【Gemini】
太郎くんが公園で赤いボールを見つけたという状況ですね。太郎くんがその後どうしたか、どう感じたかは、様々な可能性が考えられます。いくつか例を挙げますね。
・太郎くんがボールを見つけてからの行動
拾って遊ぶ: ボールを拾って、他の子供たちとサッカーをしたり、一人でキャッチボールをしたりするかもしれません。
放置する: ボールに興味を示さず、そのままにしておくかもしれません。
誰かに渡す: ボールを拾って、近くにいた大人に渡したり、迷子になっている子がいれば渡したりするかもしれません。
隠す: ボールを気に入って、誰かに取られないように隠してしまうかもしれません。
・太郎くんの気持ち
嬉しい: 綺麗な赤いボールを見つけて、嬉しくて飛び跳ねているかもしれません。
好奇心: ボールの中に何か入っているのではないかと、好奇心いっぱいにボールをじっと見ているかもしれません。
寂しい: ボールを誰かに渡してしまった後、少し寂しい気持ちになっているかもしれません。
安心感: 迷子の子にボールを渡して、良いことをしたという気持ちで安心しているかもしれません。
状況によって、太郎くんの行動や気持ちは大きく変わります。 例えば、
ボールの状態: ボールが新しいのか、古いか。
周りの状況: 他の子供がいるか、いないか。
太郎くんの性格: 積極的な子か、内向的な子か。
これらの要素を考慮することで、より具体的なストーリーを想像することができます。
もし、もっと具体的な状況がわかれば、より詳細な答えを出すことができます。 例えば、
太郎くんは普段どんな遊びが好きですか?
公園には他にどんな人がいましたか?
太郎くんは一人遊びが得意ですか?などの情報があると、よりリアルなストーリーを想像できます。
Geminiは、行動と感情にいくつかの例を挙げています。
どちらも文脈を正確に理解していますが、生成される回答には違いがあります。
画像認識の差
次に、ChatGPTとGeminiの画像認識能力を比較します。
例として、次の計算式「5×(30+5×20)」をマウスで書いた画像を読み取り、解を求めます。
【ChatGPT】
問題なく画像を読み取り、計算手順まで説明しています。
【Gemini】
同様に問題なく画像を読み取り、より詳細に説明しています。
他、5行程の英文や日本語の文章で試してみましたが、両方とも読み取れました。
検証結果では、画像認識においてどちらにも大きな差は見られませんでした。
ChatGPTとGeminiの料金プラン比較
最後に、ChatGPTとGeminiのの料金プランを比較します。
【ChatGPTの料金プラン】
無料版(ChatGPT4)
- 文章生成: 日常の質問応答や情報提供、多言語翻訳、コード生成が可能です。
- 画像認識: 画像を入力して関連するテキストを生成できます。
- 画像生成: DALL-Eを使用して画像生成が可能です。
- 音声読み込み: 音声ファイルからテキストを生成できます。
- ファイル読み込み: テキストファイル、スプレッドシート、プレゼンテーション、ドキュメントなどの一般的なファイル形式を読み込み可能です。
有料版
- カスタマイズ可能なGPTs: 独自のGPTsを作成し無料公開ができます。また、他の人が作成したGPTsも利用できます。
- GPT-4oモデルの使用: GPT-4をベースに性能と効率を向上させたモデル。画像解析や応答速度などが上がったため高度なタスクに対応可能です。
- 優先接続: 混雑時でも安定して利用できる優先的なサーバ接続が保証されています。
- 料金:ChatGPT Plus: 20ドル/月、ChatGPT Team: 25ドル/人月(ChatGPT Plusの機能に加え、小規模チーム向けの機能が利用可能)
【Geminiの料金プラン】
無料版
- 文章生成: 自然な文章生成や多言語翻訳、コード生成が可能です。
- 画像認識: 画像を入力して関連するテキストを生成できます。(人物は不可(今後対応))
- 画像生成: 画像生成が可能です。(プロンプトは英語で入力する必要があります)
- 音声読み込み: 音声からテキストを生成できます。
有料版 (Gemini Advanced)
- Gemini Ultraモデルの使用: Geminiシリーズの中で最も高性能なモデルが使用できます。
- Google Workspaceとの連携: Google Docs、スプレッドシートなどとの連携が可能です。
- 料金:Google One AIプレミアム(Gemini Advanced): 2,900円/月
まとめ:ChatGPTとGeminiどちらを選ぶべきか
ChatGPTとGeminiは、それぞれ得意分野が異なるため、用途に応じて使い分けることが重要です。
ChatGPTは自然言語処理に優れ、柔軟な対話や文章生成が得意です。一方、Geminiは複数のデータ形式を同時に処理できる強みがあります。
両モデルの特徴を理解し、用途に応じて使い分けることで、より効果的にAIを活用できます。また、複数のAIモデルを組み合わせる戦略も検討する価値があります。
最終的な選択は、コストや使いやすさ、セキュリティ面なども考慮して総合的に判断しましょう。AIの進化は急速なので、最新の情報をチェックすることも大切です。