なぜ画像生成AIはテキストを正確に出力できないのか?

AI_活用術
この記事は約4分で読めます。

「画像生成AIはなんでも生み出せる」「誰でもクリエイターになれる!」

と一部界隈では盛り上がっていますが、ちょっと待ってください。

実はまだまだ生成AIには弱点が存在していて、文字に関連する部分もその一つなのです。

こちらの記事ではそんな、なぜ画像生成AIはテキストを認識できないのかという点に着目して解説してきます。

AIはテキストを正確に理解しているわけではない

AIはものすごいスピードで進化して、我々もその恩恵を受けていますが、この実力の飛躍に対して、実は画像生成AIの文字認識はそこまで劇的に進化しているとは言えません。

例えば下記の用の画像をDALL-Eで生成してみます。

すると以下のようなものができます。

一見大丈夫そうに見えますが、「APPPLE」と右側の看板には入っています。

ここから言えることは、小文字と大文字は相互に互換できていそうだが、スペルをそのまま採用しているわけではないということです。

もう一つ実験してみましょう。

Midjourneyに以下のようなプロンプトを送ってみます。

揃っているように見えて実は正確に出せているのは右下だけという具合です。

画像生成AIの問題点

実は上記の様な状態は画像生成に限らずテキスト生成のAIでも同様の事例が起こります。

「○○を使った文章を生成してください」や「○○を使った短い文章を複数提案してください」「指定したアルファベットを使った単語を提案してください」といった依頼を出した場合、しばしば違和感のある文章や単語選出を行うことがあります。

この傾向についてはAI業界でも比較的有名です。

文章生成AIと画像生成AIは実は基盤となっている大本が異なっているのですが、それでもAIのテキスト生成時のルールが人間と違うという点は同じです。特に「小さい単位」「一文字単位」などの間違いは、両者に共通している課題なのです。

文章生成に関して言えば、あたかも人間の脳のようにプロンプ​​トを読んで応答しているように見えるかもしれませんが、実際には複雑なロジックを使用してプロンプトのパターンを潜在空間内のパターンと照合しています。答えのあるパターンを継続させることで会話のように見せているのです。

画像生成は通常、ノイズから画像を再構築する拡散モデルを使用します。「与えられた入力を再構築する」この状態が肝なのです。

そしてこの再構築が解釈を伝える時にしばしば邪魔をしているのではと考えることができます。

我々はリンゴのスペルは「Apple」である。あるいは「人間の指は5本である」というのは通常の認識としてありますが、生成AIにはそれらの「決まったルール」「決まった情報」を基に生成するという手順が含まれていないのです。

これは実際の物とは違いますが、以下のような状態を想像してください。

「apple」という文字を命令としてとりこむ→画像として構築するために一回ばらばらにする→元の命令に近しくするために集める。といったようなイメージです。※実際はこんなに単純ではありません。

だから、文字同士がくっついていたり、存在しない文字が出力されたりするのです。

現在体の部位に関する内容に関しては、2022年より2023年が、そして2024年は圧倒的に進化しました。手や指専用の強化学習を与えることで、問題を劇的に改善したのです。

しかし、ことテキストを画像にするということに関してはそこまで進まないのでないかという専門家の知見があります。

画像と文字は別のアプローチが必要?

Adobe Firefly などの一部のモデルは、テキストをまったく生成しないように作られています。通常では看板であろうがメニューであろうが文字が入らないのです。

このアプローチは、Adobe独自のもので、あらかじめこういった設定をすることにより、文字による不具合を回避する。

また、Adobeユーザーは加工前提の作業としてこれらを捉えることができます。

実はアスキーアートを用いて訓練すると効果があるのではないかといった試みも存在しています。これは、ChatGPTのような言語モデルの訓練において、アスキーアートが用いられなかったことに起因しています。

つまり、文字と形の関連付けの訓練が不足しているという仮定です。

将来的に、画像生成において文字を正確に出力するには、従来のロジックではなく。「これはテキスト出力の指定です」という切り分けと、テキストをそのまま作ろうとする動作が必要になってきます。

現在はこれができていません。

これらは人間側のプロンプトの問題ではなく、画像生成AIの成り立ちの問題という点に着目し、今はこの状態なんだという理解を、使う側が持っていることが重要というわけです。

関連記事:AIは記号を認識しているのか? 確かめてみる→