GPU + Python 利用の深層学習OCRと比較して2倍-10倍超高速実行。デスクトップで7000文字超/秒が可能。2倍高速実行の深層学習対応OCRプロセスをPC上で20プロセス同時実行することが可能(ノートPCでは4～8プロセス程度)

他の深層学習対応OCRとの共通の効果

深層学習対応による精度向上

(従来型OCRでは600フォントパターン、800MB(モノクロ)のパターンデータを統計的に情報圧縮したもの)

(従来型OCRはモノクロ2値対応。ライブラリ呼び出し前に２値化して利用)

当社の深層学習対応が他と異なるところ

高速認識

ノートPCで3倍～4倍程度の認識速度(2000文字/秒超)

条件 python+TensorFlow(GPU利用)	速度
学習時の推論処理元から48ピクセル×48ピクセルの文字画像ミニバッチサイズ1024	7000文字/秒マルチスレッド、マルチプロセス不可
1文字単位で推論処理を呼び出すケース元から48ピクセル×48ピクセルの文字画像ミニバッチサイズ1	700文字/秒マルチスレッド、マルチプロセス不可
1文字単位で推論処理を呼び出すケース(当社ライブラリとほぼ同一条件(言語処理なし)) 段落抽出/行抽出/文字抽出/48×48ピクセルへの正規化ミニバッチサイズ1	350文字/秒マルチスレッド、マルチプロセス不可
1行(平均17文字)単位で推論処理を呼び出すケース(言語処理なし) 段落抽出/行抽出/文字抽出/48×48ピクセルへの正規化ミニバッチサイズ17	1200文字/秒マルチスレッド、マルチプロセス不可

条件 c++版深層学習対応OCRライブラリ	速度
python+TensorFlow(GPU利用)での学習結果を利用
当社ライブラリの動作(1文字単位) 段落抽出/行抽出/文字抽出/48×48ピクセルへの正規化/言語処理あり	シングルスレッドの深層学習OCRで650文字/秒(ノートPC条件 32bit版)、デスクトップ条件&64bit版では1300文字/秒以上マルチスレッドで2000文字～10,000文字/秒まで高速化可能 2スレッド利用で1.8倍の高速化が可能、秒速1200文字(ノートPC条件)でpython + TensorFlow(GPU利用)の3倍強の認識速度 4スレッド利用で3.5倍の高速化が可能。秒速2200文字(ノートPC条件)の深層学習利用OCR。python+TensorFlow(GPU利用)の6倍強の認識速度 (4スレッドで4倍の高速化にならないのはCPUキャッシュを利用できないスレッドが生じるためだと思われる) マルチプロセス可能。速度低下無しに4～(ノートPC)、8～(デスクトップPC)プロセスの同時実行

条件 c++版深層学習対応OCRライブラリ

速度

python+TensorFlow(GPU利用)での学習結果を利用

当社ライブラリの動作(1文字単位)
段落抽出/行抽出/文字抽出/48×48ピクセルへの正規化/言語処理あり

シングルスレッドの深層学習OCRで650文字/秒(ノートPC条件 32bit版)、デスクトップ条件&64bit版では1300文字/秒以上
マルチスレッドで2000文字～10,000文字/秒まで高速化可能
2スレッド利用で1.8倍の高速化が可能、秒速1200文字(ノートPC条件)でpython + TensorFlow(GPU利用)の3倍強の認識速度
4スレッド利用で3.5倍の高速化が可能。秒速2200文字(ノートPC条件)の深層学習利用OCR。python+TensorFlow(GPU利用)の6倍強の認識速度
(4スレッドで4倍の高速化にならないのはCPUキャッシュを利用できないスレッドが生じるためだと思われる)
マルチプロセス可能。速度低下無しに4～(ノートPC)、8～(デスクトップPC)プロセスの同時実行

認識できないパターンの学習処理は瞬時(1ms以下)に完了。即認識結果に反映。
従来型OCRライブラリで登録したユーザーパターン辞書、ユーザー言語辞書といった過去資産を、そのまま利用可能

対応方針：従来型OCRライブラリとの互換性重視

ライブラリの既存ユーザーのため32bitでも動作

ライブラリの既存ユーザーのためGPUの無い環境での動作/マルチスレッド動作が必要となる

動作環境
従来型OCR	深層学習OCR	Python版の深層学習OCR
32bit/64bit	32bit/64bit	64bit
マルチスレッドによる並列動作可能	マルチスレッドによる並列動作可能	マルチスレッド動作不可
GPU不要	GPU不要	GPU必須(無いと非常に遅い)
C++による記述	C++による記述	Python/TensorFlow/Kerasによる記述

深層学習を利用することによる精度向上

推論ベースの言語処理(2023年第1四半期にリリース予定)

従来型OCRライブラリの資産継承

機能・性能比較
	従来型OCR	深層学習OCR(GPUなし、560万パラメータ)	深層学習OCR(GPU利用、560万パラメータ)
概略	2000年リリースの伝統的方式によるOCR C/C++ GPUなし	従来型OCRの資産を継承しつつ深層学習対応の恩恵も受けることができるモード C/C++ GPUなし	速度比較専用 python+TensorFlow＋Keras GPU利用
認識精度	高画質99.0%～低画質95.0%～	高画質99.5%～(誤認識が従来型OCRの1/2) 低画質98%～(低画質で顕著な効果) AI言語処理によりさらに誤認識が減少精度優先・速度優先の調整が可能	高画質99.5%～(誤認識が従来型OCRの1/2) 低画質98%～(低画質で顕著な効果)
認識速度(段落抽出、行抽出、文字抽出を含む)	1300文字～/秒マルチスレッドで2～10倍以上高速化可能(CPUコア数による) シングルスレッドでpython+TensorFlow GPU利用の4倍弱の速度	650文字～/秒マルチスレッドで2～10倍以上高速化可能(CPUコア数による) 同時多重実行可能マルチスレッド化したプロセスの同時多重実行も可能シングルスレッドでもpython+TensorFlow GPU利用の2倍弱の速度	350文字/秒マルチスレッド不可/同時多重実行不可
従来型OCRでユーザー登録したパターン辞書	優先して参照	優先して参照	利用不可
言語処理	3gram辞書(連接頻度辞書) 専門用語辞書	3gram辞書(連接頻度辞書) 専門用語辞書 AI辞書	なし
従来型OCRで登録したユーザー登録言語辞書	優先して参照	優先して参照	利用不可
対応画像	モノクロ2値グレイスケール/カラーはライブラリ外でモノクロ2値化することで利用	モノクロ2値/グレイスケール/カラー	グレイスケールのみ

上に戻る

条件 python+TensorFlow(GPU利用)	速度
学習時の推論処理元から48ピクセル×48ピクセルの文字画像ミニバッチサイズ1024	7000文字/秒マルチスレッド、マルチプロセス不可
1文字単位で推論処理を呼び出すケース元から48ピクセル×48ピクセルの文字画像ミニバッチサイズ1	700文字/秒マルチスレッド、マルチプロセス不可
1文字単位で推論処理を呼び出すケース(当社ライブラリとほぼ同一条件(言語処理なし)) 段落抽出/行抽出/文字抽出/48×48ピクセルへの正規化ミニバッチサイズ1	350文字/秒マルチスレッド、マルチプロセス不可
1行(平均17文字)単位で推論処理を呼び出すケース(言語処理なし) 段落抽出/行抽出/文字抽出/48×48ピクセルへの正規化ミニバッチサイズ17	1200文字/秒マルチスレッド、マルチプロセス不可