「AIで作ってきた文章は大体わかります」。
AIが急速に普及する中で、あなたは上記の様に思ったことがありませんか。
実際に、資料制作、キャッチコピー製作、あるいはこういった記事制作において生成AIが活用される場面は非常に多くあります。
しかし、現実的な部部において、どのような生成AIを用いても「違和感」が拭い去れないことが多々あります。
こちらの記事ではそのような生成AIの文章品質に関する内容を掘り下げていきます。
関連記事:AIばっかり使っていると人間の頭が悪くなってしまう可能性→
技術的制約とAI文章生成の現状とその限界
AI文章生成の技術は目覚ましい進化を遂げていますが、まだまだ、人間のソレには遠く及ばないことも事実です。
先日芥川賞の受賞場面に生成AIという言葉が登場したことで話題となりましたが、これは生成AIに小説を書かせたというわけではなく、補助ツールで使っていたという意味合いになります。
関連記事:芥川賞の受賞者が生成AIを使っていた!進化する制作→
現在直面している文章の品質の問題は、技術的な限界に根ざしていることが多く課題となっています。
AI文章生成モデルは、大量のテキストデータから言語のパターンを学習し、これを基に新しい文章を生成します。
このプロセスは、データセット内の情報を組み合わせ、模倣することで行われますが、この方法には明確な問題点も存在しています。
例えば、モデルが不適切な情報を学習すると、生成される文章の品質に直接影響します。
品質のよくない文章を沢山学習した結果、良い文章ができないというのは想像に難くないでしょう。
つまり、学習基の品質や傾向に依存してしまうという利点と弱点を伴ったものがあります。
次に、現在のAIモデルでは「ハルシネーション」と呼ばれる問題が頻繁に発生します。関連記事:AIの嘘ハルシネーションとは→
これは、モデルが実際には存在しない情報や事実を生成してしまう現象を指します。つまり「悪気の無い嘘」です。
これは、AIが実際の知識や事実を理解しているわけではなく、単にデータのパターンを模倣しているために起こります。
AIが言葉の意味を真に理解していればつながりを検証する為おかしな情報に対しては検証することができます。
しかし、実際は「次にくる確率の高い言葉」を生成するモデルの場合は情報の正確性や検証が欠落しています。
このため、特に細かな事実やデータに基づく文章を生成する場合、不正確な情報を含むリスクが高まります。
そして、AIは文脈の深い理解や論理的な繋がりを完全に把握することが難しいのも品質低下の要因になっています。
そのため、長い文章や複雑な議論を展開する場合、途中で話が飛んだり、論点がずれたり、同じ内容を繰り返してしまうことがよくあります。
これらの問題は、AI文章生成の品質に直接影響し、読者にとって混乱や誤解を招く原因となります。
いずれの場合も模倣パターンから始まる問題ですが、現在の構築ではこれらをうまく制御することには限界があることがわかるでしょう。
データの質と量の問題
先ほど触れたように、AIによる文章生成の品質は、AIが学習するデータの質と量に大きく依存しています。
したがって、学習データの質が高ければ高いほど、生成される文章の品質も向上する傾向があります。もちろん「何が」「よい物か」というのは非常に判断が難しいです。
しかし、実際には、学習データには偏りがあったり、誤情報が含まれていたりすることがあります。そもそも超大量のデータを読ませる必要があるので現段階では選ぶ工程が困難にあることが事実です。
当然、品質の悪い物や嘘が含まれているものは前述のハルシネーション(嘘)を引き起こす一つの要因にもなります。
例えば学習段階のデータの偏りを考えてみましょう。
特定の主題やジャンルに関するデータが偏っている場合、AIはその分野に関する言語パターンしか学習できません。
これにより、他のトピックについての文章を生成しようとした時に品質がまったく伴わない可能性はあります。音楽の教授にスポーツのことを詳しく解説してといっても専門が違うようなものです。
もちろんジャンルだけではなく、常識や文章体系も変わってきます。あるいは、抑々単語の持っている意味が違うかもしれません。
例えばマージンという言葉は金融的に言うと保証金や利益を指すことが多いです。
しかし、デザイン的には空白を指します。あるいは締め切りまでの余力期間の可能性もあります。
こういった違いも勘案し良質なデータを収集や選別、AIの学習に使用することは、今後の技術的な課題であるといえます。
つまり、現在の生成AIの質の悪さの一端は「ネット上に存在する平均的な文章の質の悪さ」の反映であるとも言えるのです。
言語の複雑さも要因の一つ
言語の複雑さは、AIにとって大きな課題です。
自然言語は非常に複雑で、文脈やニュアンス、文化的背景によって意味が大きく変わることがあります。
当然、前後の文脈、発信者のコミュニティなどにも依存します。
人間はこれらの微妙な違いを直感的に理解し、適切な表現を選んで使用することができますが、AIにとってはこれが大黄な障壁となるのです。
AIはパターンを学習することは得意ですが、文脈の深い理解や感情の表現、文化的背景などを完全に把握することはまだまだ困難です。それをするには例えば成人と同じ年数を生きた分の「生の」情報が必要になるでしょう。
同じ言葉の意味合いを別の意味合いに置き換えるというのは、確率的な導きやパターンの導きを得意とするAIにとってはむしろ不得手な領域です。
それらを考えるということは、パフォーマンスの低下にもつながりますし、そもそもそれだけの容量が必要になってくるからです。
また、サンプルが少ないこと自体も学習妨げの要因になり、理解までの壁となります。
このように、生成AIに寄る文章生成は人間との学習方法の違い、関連付けの違い、そして生成方法の違いなどから、まだまだ模倣することが困難な領域にいるということです。
「AIで作ってきた文章は大体わかります」。
是非頭の片隅に置いておいてください。