パナソニックHD：画像認識向けマルチモーダル基盤モデルHIPIEを開発

パナソニックHDは、画像認識AIを現場実装する際の作業負荷を大幅に削減する画像認識向けマルチモーダル基盤モデル「HIPIE」を開発しました。このモデルにより、必要なアノテーションなどの作業が大幅に削減されます。

アノテーションとは、例えば画像学習であれば「ここからここまでに映っているものは犬だよ」例えば音の学習であれば「今のは｛あ｝の音だよ」といったタグ付けを行うことです。

学習元を提供する側が「このデータのこの部分はどういった意味か？」を与えることで、AIの学習効率を向上させるのが目的です。

今回の発表ではこの作業の労力が1/10程度まで削減できる支援が可能という発表をしたという内容となります。

HIPIEとは

パナソニックHDと米カリフォルニア大学バークレー校が共同で開発した「HIPIE（Hierarchical Open-vocabulary Universal Image Segmentation）」は、階層的な画像認識を実現するマルチモーダル基盤モデルです。

大規模言語モデル（LLM）の事前知識を活用し、テキスト入力による任意の階層の画像認識やセグメンテーションが可能です。つまり「この画像の中から猫を探して」といった操作です。

このモデルは、新たな認識対象に対しても、基盤モデルを再学習することなく人間の命令から対応でき複数のタスクにも対応することが特徴です。

従来のAIでは、人物全体から顔、さらには鼻や口などの顔のパーツを識別するために、各階層ごとに複数のAIモデルが必要でした。鼻なら鼻。口なら口といった具合の見分けです。

しかしHIPIEは、これら異なる階層の言語関係性を学習し、1つのAIモデルで複数の階層的な表現を理解できるように設計されています。

階層的な表現というのは例えば、「ノートを取っている座っている女性」というテキスト入力により、映像内で該当する部分をセグメンテーションし、人物の頭や胴体などを識別できます。

階層が異なっていた場合、ノートも椅子も右手も髪の毛も別々でしたが、これらがちゃんと結びついて認識できるようになったのです。

HIPIEは、画像AIと言語AIの特徴量を結びつけ、学習していない未知のラベルでもテキストによって認識できます。

ちなみにこの特微量とは分野ごとの構成要素のことで画像の特微量であれは色味や大きさ、テクスチャなど。言語の特微量であれば文の構造やある単語の頻出度合いなどが特微量になります。

このシステムは、GoogleのBERTを活用しており、ウェブ上の大量の言語データを学習しています。その為学習外のデータでもスムーズに活用することができるようになります。

HIPIEは、2024年度からパナソニックグループの工場や倉庫での利用を進め、その後、サプライチェーンマネジメントソリューション事業での活用も検討されています。

この技術は、将来的に自動運転車やロボットなどの高度な画像認識が必要な場面での利用も見込まれており、時間とコストを節約しながら高品質なAI構築に貢献できるとされています。

また、パナソニックはBerkeley AI Researchと連携しており、今後の発展にも注目が集まります。

ゆくゆくは全ての小型AIが顔認証ができることがデフォルトになるかもしれません。

HIPIEの開発目的は、画像認識AIの現場実装作業を大幅に効率化することにあります。

このアノテーション技術は、40以上の公開データセットを対象とした評価実験で、世界最高性能を達成。

従来の画像認識AIモデルは、入力画像を特徴量に変換するエンコーダーと、特徴量を認識結果に変換するデコーダーの組み合わせで構成されていました。

しかし認識対象は学習データを決めた時点で固定され、学習していない物体は認識できないという問題がありました。

これを克服するのがHIPIEで、先に紹介したようにBERTベースの言語AIとトランスフォーマーモデルで構築した画像AIの2つのエンコーダーを持ち、物体検出やセグメンテーションなどの複数の認識タスクに対応したデコーダーを有しています。

これにより、言語AIと画像AIによるマルチモーダル、複数デコーダーによるマルチタスクが可能になりました。

つまり、未知の対象を認識する場合に、認識対象に関するテキストから得られた言語AIの特徴量を参照して画像AIの特徴量とマッチングさせるなど双方向からの検証で、再学習せずに認識できるように設計されています。

また、複数タスクへの対応では8種類のタスクで高い認識性能を確認しており、これまでの最高性能を上回る結果が得られています。

この研究開発は、パナソニック本体の研究開発部門が進めている、海外トップ大学や海外研究拠点との「バーチャルラボ体制」に基づくもので、UCバークレー傘下のBAIR（Berkley AI Research）との連携により進められています。

この体制は、次々と新しい技術が出てくるAI業過において、早晩陳腐化してしまうAI技術を早期に実用化するために、事業会社も加わっている点が特徴です。

この技術の発展は、自動運転やロボティクス、工場など幅広い分野において、より高度な画像理解を実現するし、そのニーズに応えるものです。

特に車載センサにおける危険検知や、ロボットにおける操作対象の認識、ドローンの地形分析、医療画像などの階層的な画像理解が必要とされる様々な場面でのアノテーションの負担削減が期待されます。

現在のHIPIEの状況として、今後サプライチェーンマネジメント（SCM）ソリューションに採用される予定であり、2024年度からパナソニックグループ内での工場や倉庫での利用が計画されています。

その後、SCMソリューション事業での活用も検討されているとのことです。

HIPIEのお披露目として、12月10日から米ニューオーリンズで開催されるAIおよび機械学習のトップカンファレンス「NeurIPS 2023」で発表される予定です。

今後の展望に関して、HIPIEはパナソニックのAI戦略「Scalable AI」の一環として展開されており、工場や倉庫の活用のほか、将来的には自動運転車やロボットなどの高度な画像認識が必要な場面でも、時間とコストを節約しつつ高品質なAI構築に貢献できるとされています。