【InkSight】手書きノートをデジタル化！AI-OCRとの違いと可能性

Google Researchが開発した「InkSight」は、従来の紙とペンの手書きメモや写真からスタイルを維持したままデジタル化できる技術です。

InkSightの最大の目的は、手書きの文字や図形を正確にデジタル化することで、物理的なノートの魅力を残しつつ、デジタルインクとして活用できるのが特徴です。それだけではなく、実際に書いたであろう書き順も解読。

InkSightの特徴と技術の詳細

InkSightは、単に文字認識（OCR）を行うだけではなく、「オフラインからオンライン」への変換を目指しています。これを「デレンダリング（derendering）」と呼び、手書きの内容をそのままペンで描いたような形で再現する技術。具体的には、以下の要素が特徴となります。

すべての単語で、文字の色が虹のシーケンス ROYGBIV に従って赤から紫に変化します。
各ストローク内で、色合いは暗い色から明るい色へと変化します。

デジタルインクの視覚言語モデル
5 つの異なるタスクタイプで構成されるトレーニングミックスを作成

レンダリング解除タスク（デジタルインク出力を生成）
　①画像のみ
　②画像と、OCR モデルによって認識された付随テキストの両方を使用

テキスト出力を生成する認識タスク
　③実際の画像を活用
　④合成画像を活用

⑤認識とレンダリング解除の組み合わせ（テキストとインクの出力を伴う混合タスク）

単一ストロークのインクのインクトークン化の図

各ポイントは、座標 x (影付きのボックスの左半分) と y (右半分) をエンコードする 2 つのトークンで表されます。
このインクのトークンシーケンスは、ストロークの開始を示す b で始まり、その後にサンプリングポイントの座標のトークンが続きます。

従来のAI-OCR（Optical Character Recognition）とInkSightの主な違いは、その技術的アプローチと用途の広さにあります。

AI-OCRは、画像に含まれる文字を検出し、テキストデータとして変換する技術です。
主に印刷物やドキュメントの文字を対象とし、画像内の文字列を認識してデジタルテキストに変換。

InkSightは、単なる文字認識を超えて、手書きの筆跡をそのまま「ペンの軌跡」として再現します。
これにより、物理的なノートの筆致やスケッチを、あたかもデジタルで描いたかのように変換できるのです。
これを「デレンダリング（derendering）」と呼び、手書き特有の不規則な形状や多様な背景にも対応。

AI-OCRの用途は、主にドキュメント管理やデジタルアーカイブ向けで、印刷文字やフォントベースのデータに強みがあります。
請求書やパスポートの自動読み取りなど、構造化されたデータの処理が中心です。

InkSightは、教育、クリエイティブなデザイン、学習ノートのデジタル化など、より自由度の高い応用に対応します。
手書きの図形、グラフ、そしてスケッチなどもデジタル化することで、デザインやアイデアの整理に使えるのが強みです。
また、InkSightのトークナイズ技術により、デジタルインクは座標ベースで記録され、さらに大規模言語モデルと連携して分析や処理が可能です。