【生成AIの進化と多様化】ゼロショット学習、LLM/VLM/LVM/LMM/MLLMまで網羅

【生成AIの進化と多様化】ゼロショット学習、LLM/VLM/LVM/LMM/MLLMまで網羅 AI_活用術
この記事は約4分で読めます。

AI技術の最前線を徹底解説!生成AIの急成長から、ゼロショット学習、拡散モデル、LLM、基盤モデル、さらにVLM、LVM、LMM、MLLMまでの多様なアプローチを一挙紹介します。

Generative AI(生成AI)

概念自体は古くから存在しますが、2010年代から具体的な手法が急速に発展しました。新しいデータを生成するAI技術全般を指し、画像、テキスト、音声、動画などを生成します。GAN(生成敵対ネットワーク)やVAE(変分オートエンコーダ)などが含まれます。

主な用途: 画像生成、文章生成、音声合成、動画生成、ゲーム開発、アートの創作など。

Zero-shot Learning(ゼロショット学習)

訓練データに含まれないクラスのデータに対しても、学習済みのモデルの表現空間にマッピングすることで、そのクラスの属性を推定して対応するAI技術です。共通の表現空間にデータをマッピングすることで、既知の情報から未知のタスクに対する予測を行います。

主な用途: テキスト分類、画像認識、音声認識、自然言語処理における新規トピックの理解、異なるドメイン間でのタスク適用など。

Diffusion Models(拡散モデル)

ノイズからデータを生成する新しい手法で、特に画像生成タスクでノイズに徐々に情報を加えていき、高品質な画像を生成して高い性能を示しています。

主な用途: 高解像度画像生成、ノイズ除去、画像の修復・編集、画像生成アートなど。

Transformer

Vaswaniらが提案した自己注意機構に基づくニューラルネットワークアーキテクチャで、自然言語処理(NLP)の分野で大きな影響を与えました。これにより、後のLLMなど多くのモデルが登場しました。GPT、BERT、PaLMといったさまざまな最先端モデルのベースとなっています。

主な用途: 自然言語処理(翻訳、要約、質問応答)、テキスト生成、音声認識、画像認識、時系列予測など。

LLM(Large Language Model)

大量のデータとディープラーニング(深層学習)技術によって構築された言語モデルで、GPTシリーズ(特にGPT-2、GPT-3など)の登場により、LLMの概念が普及しました。これらのモデルは大規模なデータセットで訓練され、広範な自然言語処理タスクに対応できます。

主な用途: テキスト生成、翻訳、要約、チャットボット、質問応答、文章の校正、コード生成など。

基盤モデル(Foundation Model)

大規模で汎用的なAIモデルであり、さまざまなタスクに対応できるように設計されています。GPT-3やBERTのようなモデルがこれに該当します。

主な用途: 多様なNLPタスク(翻訳、要約、質問応答など)、画像処理タスク、音声認識、マルチモーダルデータの解析など。

VLM(Vision-Language Model)

CLIPやDALL-Eなど、視覚情報(画像や映像)とテキスト情報(言語データ)を統合して処理するモデルが開発されました。

主な用途: 画像キャプション生成、画像検索、画像生成、テキストから画像生成、ビデオ理解、視覚質問応答など。

LVM(Language Vision Model)

VLMとほぼ同義で使われることが多く、言語と視覚の統合に焦点を当てたモデルです。

主な用途: 画像キャプション生成、画像検索、テキストから画像生成、ビデオ理解、視覚質問応答など。

LMM(Language Multimodal Model)

テキスト、画像、音声などの複数のモダリティを統合して処理するモデルが登場しました。これにより、より多様なデータを統合して処理できるようになりました。

主な用途: 統計学おけるデータ解析、マルチモーダル検索、音声とテキストの統合理解、画像キャプション生成、ビデオ理解、マルチモーダルチャットボットなど。

MLLM(Multimodal Large Language Model)

 2023年以降に登場した、複数のモダリティを組み合わせた大規模言語モデルで、最新の技術です。テキストと画像だけでなく、音声や動画など、異なる形式のデータを統合的に理解し、生成することができます。これにより、AIはより人間に近いレベルで、複雑なタスクをこなせるようになる可能性を示しています。
例えば、テキストの説明から画像を生成したり、画像の内容を文章で説明したりといったことが可能です。

MLLMは、AIがさまざまなタスクをこなせるようになる可能性を示しており、今後、AIが私たちの生活にますます深く関わってくることが期待されます。

主な用途: テキストから画像生成、画像キャプション生成、マルチモーダル検索、多言語音声認識と翻訳の統合、ビデオ内容の解析と生成など。

【関連記事】マルチモーダルとは→