2024年3月13日、テック企業のFigure社はOpenAIの提供する生成AIChatGPTをヒューマノイドに搭載したという声明を発表しました。
喋って動く「ロボット」が実現しています。
まずは下のポストを見てください。
OpenAIと連携して、Figure 01は人々との完全な会話が可能になりました。OpenAIのモデルは高度な視覚と言語の知能を提供し、Figureのニューラルネットワークは迅速で正確なロボットの動作を実現します。この動画のすべてがニューラルネットワークによって制御されています。
Figure
ニューラルとはニューロンのことで、つまり人間の脳を模倣した作りのことです。
人間みたいなロボットを作ったよ、期待してね。
ということです。
ではこの声明を発表した「Figure」について解説します。
関連記事:GPT-4oで音声アシスタント会話機能を使う方法【ほとんど人間】→
Figureとは
Figure社は、人間のように働くヒューマノイドロボットを開発しているAIロボティクス企業です。
同社が掲げる目標は、労働力不足の解消や危険な職場での作業者数の削減など、社会的な課題に対応することにあります。
社名と同じロボットの「Figure 01」は、人間のような形状をしており、開ける、持ち上げる、歩くなどの機能を有しています。これにより、製造から物流、小売まで幅広い分野での支援が可能になります。
今回このFigure 01にChatGPTが搭載されたデモ動画が公開されて大きな話題となっています(前述のポスト参照)。
もともとChatGPTの開発元であるOpenAIとFigure社はこの発表の二週間程度前に共同開発声明を出していました。
いままでのロボットと一線を画すところでは以下のようなことが挙げられます。
- 物をつかむことができる
- 両手を使い丁寧に運ぶ判断ができる
- 物を見分けることができる
- 人と会話ができる
- 会話と目の前の資格情報から行動を取ることができる
人と共存できる、あるいは人の仕事を代替できるロボットが既に存在しているということになります。
動画ではFigure 01に目の前の食材をとるように要求して実際にりんごが手渡しされる様子が映っています(36秒頃)。
この時Figure 01はテーブルの上にのっているものを判定し、食べ物はりんごだけだったと読み取っています。
そして被験者に食べ物はこれだけなのでりんごを渡しましたといった説明をしています。
これだけでも凄まじい進化内容ですね。
何故SFの様なロボットが実現できるのか?
今回Figureに搭載されたChatGPTはバージョン4.0で「画像の読み取り機能」が新規に実装されています。
この機能はChatGPT上で画像をGPTに送ると、内容を読み取ってくれるというもので、細かいところでは日々チューニングが入っており、平たく言うとバージョン4.0発表当初よりもパワーアップしているように見えます。
この機能を応用しFigureのカメラでとらえた現実の風景をGPTの解析機能通して「理解」しているということです。
さらに、音声認識機能も追加アップデートが入っており、これが会話機能を支援しています。
映像と会話音声を理解できる情報に置き換え、GPTの生成機能を通して状況把握。行動を実行するというプロセスを取っているようです。
今後これらの研究がさらに進めば、一般商用化は先になるかもしれませんが、2024年の終わりには家事仕事をするロボットというデモが発表されていてもおかしくないところまで来ています。
この時点の発表はありませんが、ChatGPTも既にバージョン5.0の用意をしているというウワサや、Microsoft側の検証も存在しています。
今後ますますAI市場、ロボット市場が活発になっていくことが予想されています。