テキスト生成AIは、コンテンツ作成やカスタマーサービスの自動化、さらには個別化されたコミュニケーションの提供など、特に大量の情報を処理する企業に大きな可能性をもたらします。
しかし、便利さとは裏腹に、情報漏洩という大きなリスクも存在しています。
特に機密情報が組み込まれたトレーニングデータや、悪意あるクエリによる不正な情報抜き出しなど、さまざまな形でのリスクが考えられます。
こちらの記事では、テキスト生成AIを安全に利用するために企業が直面する情報漏洩のリスクはどの様なものがあるかを詳しく解説し、それらのリスクを軽減または回避するための実践的な対策を紹介します。
どのような対策が有効か、そしてその対策をどのように実装すべきか、一緒に確認していきましょう。
テキスト生成AIにおける情報漏洩の主なリスク
トレーニングデータの漏洩
テキスト生成AIは、大規模なデータセットから学習するため、トレーニングに使用されるデータに機密情報が含まれている場合、その情報が意図せずに漏洩するリスクがあります。
たとえば、社内文書やメール、プロジェクトの報告書がトレーニングデータに誤って含まれると、AIはこれらの情報を出力する可能性があります。
これは、AIが生成するテキストの中に機密データが露見する形で現れることがあり、外部に公開された場合に重大なセキュリティ違反となります。
また、これらのリスクで良く確認される点が、現在やり取りしている生成AIとのやりとりがトレーニングデータとして扱われるリスクです。
これらは基本的な生成AIで共通しており、生成AI側はよりユーザー満足度の高い体験を提供する為、随時トレーニングデータを吸い上げているのです。利用規約にももちろん記載してあります。
つまり、生成AIを使う場合基本的に入力した情報は大本の運営会社に送られて、そのデータはまた学習に使用されていると思ってほぼ間違いないです。
これが、大企業が生成AIの基本導入に二の足を踏む原因となっています。
データの永続性と不適切なデータ処理
これはトレーニングデータの続きの様な状況です。
AIのトレーニングデータは永続的に保存されることが多く、不適切なデータ処理と処理方法によって漏洩するリスクがあります。
古いデータが適切に管理されずに残っている場合、未承認のアクセスやデータ漏洩の原因となる可能性があります。
これはどの程度で発生し、またどのような状況で露出するか予見できません。
また、AIの制作元からのデータの削除ポリシーが不明確だと、不要なデータが永久に残り続ける懸念があります。
いずれにせよ学習に使われて困る様なデータはAIを通した送信や、ネット上に残しておくのは不適切だと言えます。
悪意のある入力による情報抽出
攻撃者がAIに悪意のあるクエリを送信することで、機密情報を引き出す試みがあります。
AIが適切なフィルタリングや制限なしに応答すると、このような情報抽出攻撃に対して脆弱になります。
これらはプロンプトインジェクションと呼ばれる行為です。
この標的になるのは例えばお客様対応のチャットbotなどがあります。
チャットボットはお客様対応の為、その会社のデータを保管し必要に応じてお客様の問い合わせ窓口に提供します。そして伝えてはならないデータには通常プロテクトがかかっています。
プロンプトインジェクションはこのプロテクトを破り、会社の機密情報を故意に盗んでいきます。
AIに寄る応答で柔軟性を持たせた結果、持ち出し負荷の情報を言葉巧みに引き出されてしまう可能性があるということです。
これは、自らデータを登録する形式ですので、前述のAI本体に入っているトレーニングデータとは別軸の問題です。
関連記事:AIセキュリティの新たな課題:プロンプトインジェクションとは何か→
第三者とのデータ共有リスク
AI開発のために第三者のプラットフォームやサービスを利用する際、これらのサービスプロバイダがデータをどのように扱っているかが重要です。
不適切なデータ管理は情報漏洩につながる可能性があります。
ただし、これらはすべてのWEBやITに潜むリスクとも言えるので、AIに限った話ではありません。
OpenAIのプライバシーポリシー【ChatGPT】
ChatGPTを提供するOpenAIのプライバシーポリシーが=AI業界のスタンダードポリシーと捉えることもできます。
サンプルとして確認していきましょう。
当社は、ChatGPTを動かすモデルをトレーニングするためなど、本サービスを改善するために、お客様から提供されたコンテンツを利用することがあります。
https://openai.com/ja-JP/policies/privacy-policy
これは前述した、トレーニングデータとしてChatGPTなどの個人チャットで送信された内容も収集して再利用しているという内容を指しています。
また、トレーニングデータはChatGPTだけではなく、同社が開発する別のAI事業にも流用する可能性があることにも触れています。
例えばデータ上で会社や個人関係なく保存されるデータは普通の会員サービスと同じデータがあります。
例えば…
- ログイン情報
- 端末情報
- 接続時間
- プロフィール
- 連携情報
- 決済履歴
- 決済情報(ただし当然暗号化されています)
まだまだありますが、これはログイン(会員登録)をする形式のサービスでは基本的に同じように収集されています。
当社は、以下の目的のために個人情報を利用することがあります。
https://openai.com/ja-JP/policies/privacy-policy
- 本サービスの提供、管理、維持及び/又は分析のため
- 本サービスを改善し、調査を行うため
- お客様とのコミュニケーションのため、これには当社の本サービスやイベントについての情報を送りすることが含まれます
- 新しいプログラム及びサービスを開発するため
- 本サービスの詐欺、犯罪行為又は不正使用を防止し、当社のITシステム、アーキテクチャ、及びネットワークのセキュリティを確保するため
- 事業譲渡を行うため
- 法的義務及び法的手続を遵守するとともに、当社及び/又は当社の関連会社、お客様又はその他の第三者の権利・プライバシー・安全・財産を保護するため
例えばこの項では事業譲渡について触れています。
アルトマン氏の解任劇では顛末としてMicrosoftとの提携というオチを見せましたが、仮にMicrosoftがOpenAI社を吸収するという運びになった場合、トレーニングデータの管理はMicrosoft社に移管されていました。
また、データ開示自体は関連会社への開示が含まれていますので、使用データ自体はMicrosoft社が既に取得できる状態にあります。
ChatGPTの出力に、あなたに関する事実上不正確な個人情報が含まれていることに気づき、その不正確さを訂正することを希望する場合、privacy@openai.com.又はdsar@openai.comに訂正のリクエストを提出することができます。ChatGPTのモデルは技術的に複雑なため、不正確な情報を修正できない場合があります。
https://openai.com/ja-JP/policies/privacy-policy
そして「GPTから出力されたデータで個人の変な情報が出た場合、一応申し立てはできるけど、直せるかはわからないよ」とのことです。
ですので「一回でも学習されてしまうととても面倒、現実的には削除できない」というリスク管理をする必要があります。
生成AIに対する情報漏洩対策
では、生成AIに対する情報漏洩対策を考えていきましょう。
情報漏洩には以下の様なシチュエーションが考えられます。
- AI使用を介したAI運営側のトレーニングデータとしての吸い上げ
- ネット閲覧を介したAI運営側のトレーニングデータとしての吸い上げ
- bot運用などに対するプロンプトインジェクション
- サーバーやソフトウェアなどの環境依存の脆弱性
- いずれかを偶発的に行ってしまうヒューマンエラー
大別すると上記のいずれかに属することになるでしょう。
また、これらに対する一般的な対策は以下の様に考えられます。
トレーニングデータの制限
設定→データコントロール→モデルの改善を選択することで、チャットがデータトレーニングに使用するデータの送信を拒否することができるようになります。
こういった対抗措置が実装されている生成AIではトレーニングデータの制限かそれに近い措置ができるようになります。
実際に生成AIを使用する際に、プロンプトデータを収集しているかどうか規約や設定から確認をしてみてください。
できれば、学習bot制限をかけておきましょう。
チームチャットによるデータ制限
ChatGPTのチーム機能に代表されるような大型の機能には、あらかじめ入力データを取り扱わない措置が施されています。
以下はOpenAIの声明です。
ChatGPT チームは、GPT-4 や DALL·E 3 などの高度なモデルや、高度なデータ分析などのツールへのアクセスを提供します。さらに、チーム専用の共同ワークスペースとチーム管理用の管理ツールも含まれています。 ChatGPT Enterprise と同様に、お客様はビジネス データを所有および管理します。当社はお客様のビジネス データや会話に基づいてトレーニングすることはなく、当社のモデルはお客様の使用状況から学習しません。当社のデータプライバシー慣行の詳細については、当社のプライバシーページとトラストポータルをご覧ください。(新しいウィンドウで開きます)。
https://openai.com/index/introducing-chatgpt-team#fn-1
この様に、チーム機能による運用を利用すればトレーニングデータによるピックアップでの流出は防ぐことができます。
ただし、チーム機能は個人利用より月当たり5$高く設定されています。
機能も増えますので環境に合わせて試してみてください。
機密情報を書き込まない
こちらはヒューマンエラー対策の筆頭ですが、そもそも漏れたら困る情報はどの様なシチュエーションでもAIに書き込まないのが原則です。
考えられるシチュエーションは以下の通りです。
- ChatGPTの様な生成AIに対抗措置の無い状態で入力した
- WEBサイトに情報として載せている
- 顧客対応AIの学習データに入れてしまった
- 顧客対応AIの追加データ・外付けデータに入れてしまった
いずれの場合もAIに機密情報を持たせている、読ませていることが漏洩の原因となりますので、そもそもデータ学習をさせる場合でも、そういった機密データはあらかじめ削除しておくことが対策になります。
これをデータクレンジングと言います。
また、万が一これらが取り込まれてしまっている場合でも、強力なマスキングや命令を書けることで機密データにアクセスしないように二重に対策することも大切です。
重要なのは情報を書き込まない、万が一書き込んであっても表に出ないようにするという二重対策です。
ただし、解析用のAIとして安全運用している場合はこの限りではないでしょう。
漏洩対策を厚めにかけたうえで、データ解析専用AIとして運用するという目的があるからです。
技術体系が進むとリスクも増える
管理事項が増えると仕事が増えていくように、AIという新ジャンルの台頭、そしてそれらをベースにした新しいコンテンツやツールの提供などによりリスクの漏出口は常に増えていきます。
でずが、それは漏出していくきっかげが増えただけで、根本的には我々人間が管理することには変わりありません。
正しく、リスク範囲を把握し、許容範囲を知ることで現実的な対策ができる事になりますので、これからも新技術に対して常にアンテナを立てていけるようになるとよいでしょう。