GPU + Python 利用の深層学習OCRと比較して2倍-10倍超高速実行。デスクトップで7000文字超/秒が可能。2倍高速実行の深層学習対応OCRプロセスをPC上で20プロセス同時実行することが可能(ノートPCでは4～8プロセス程度)

深層学習の概略

大量の文字フォント画像によるCNN深層学習

	開発プロセス
学習	74,000ファイル、200GBのフォントパターン＋ラベルをオンメモリ処理不可能な巨大データ学習用のTFRecord形式に統合、変換。 TFRecord形式は、TensorFlow固有のファイルフォーマットである。メモリに乗り切らない巨大なデータや数万ファイルに分散格納された学習データを効率よく処理することができる。 TFRecord形式のファイル化した学習データをTensorFlow / Keras上のモデルで学習(560万パラメータ)。	モデル　CNN 　MobileNet-I 　MobileNet-II ハイパーパラメータ　層数　各層のノード数　ミニバッチ　正規化　損失関数　活性化関数等を切り替えつつパラメータ数が少なくて精度が高いものを選択。	モデルをPython / Numpy上で動作するように移植　移植は比較的簡単　途中経過を細かく出力する	GPU必須 SSD必須 64bit動作マルチスレッド不可
推論	モデルをC++上で動作するように移植　移植は比較的難しい　途中経過を細かく出力して、Python / Numpy上の出力と比較して同じ動作をするようにデバッグ/調整)。	さらにチューニングして　省メモリ化　高速化　マルチスレッドによる並列処理対応を行う。	深層学習対応OCRを従来型OCRライブラリから呼び出せるように組み込み	GPU不要 SSD不要 32bit/64bit動作マルチスレッド可能

学習はPython/TensorFlow/Kerasにより行った

推論部はTensorFlowからPython+NumPyに移植

推論部をC++へ移植

学習データをTensorFlowのTFRecordというフォーマットのファイルに変換

MobileNetは、I～IIIまでのモデルがあり、モバイル機器での実行、GPUやメモリ量に期待できない組み込み用途での実行を目的としたモデルである。
メモリの負荷、計算量が下がる代わりに、多少の精度を犠牲にする。今回はIとIIを試した。
言語処理で使っているAI推論は、自然言語AI処理の基礎になる入り口の部分である。
自然言語処理分野でも省メモリの軽量モデルが存在している。BERTに対するMobile BERT、画像認識にTransformerを使ったViTに対するMobile ViTのように、精度を犠牲にして少メモリ/ローカルマシンで実行するようにカスタマイズしたモデルはいろいろと提案されている。中にはモデルを軽量化しすぎて精度的に実用レベルに達しないケースも多い。

word2vecを文字に対して適用したchar2vecのCBOWモデルによる学習

従来型OCRと深層学習OCRの言語処理
従来型OCR
3-gramモデルでは日本語のコーパスから連続する3文字の頻度を全てカウントしてデータベース化したものを使う。上の例では正解の"System"のはずが"Sy5tem"と誤認識しているが、3文字目の第2候補には"s"が入っている。 "ste"の頻度1209は"5te"の頻度0よりも高く、"Sys"の頻度78は"Sy5"の頻度1よりも高いという情報をデータベースから取得することができる。その情報を使うことで、第1候補の"5"は下位に移動して、第2候補の"s"の方を採用する。
深層学習OCR
word2vecには、周辺の文字から中央の文字を推測するCBOWモデルと、逆に中央の文字から周辺の文字を推測するskip-gramモデルがある。今回は前後2文字から推測するCBOWモデルを使っている。1文字前の"y"との関連だけ見ると、"5"である確率0.0000001よりも"s"である確率0.006の方が高い。そこで候補を入れ替えることで"System"という正解に変更することができる。

前に戻る