テロップOCR

2016年度の受託開発案件の紹介です。
盲点を突くようなアイデアで実用レベルのテロップ認識を実現してしまいました。

テロップ認識の精度を高めることは非常に困難です。ニュース番組はともかくバラエティ番組となるとさらに困難に拍車がかかります。
多くの研究者がテロップの文字部分だけを抜き出すためのアルゴリズムを研究・開発してきましたがそれでも実用化には程遠いのが現状です。

アートロジックはテロップを含む画像に対して、テロップの文字部分の一部を認識できるカラー画像の2値化アルゴリズムを 14個組み合わせて、「下手な鉄砲も数撃ちゃ当たる」方式で対応しています。

カラー画面から文字を抽出する異なるアルゴリズムを12通り組み合わせて、CPUのコア数に任せて並列処理
12通りのアルゴリズムは、できるだけ独立性の高いものを選んでいます
反転文字、イタリック体は全てのアルゴリズムで自動処理
12通りのアルゴリズムそれぞれで、反転文字、イタリック体を処理しています。反転文字やイタリック体を別スレッドにすると36通りとなり、いくらなんでも多すぎるためです。
縁取り文字を処理するアルゴリズムをさらに2通り追加して並列処理単純なカラー画像の2値化アルゴリズムでは縁取り文字には対応できません。縁取り文字専用のアルゴリズムを２つ開発して追加しました。

といった14の文字認識プロセスを並列実行します。個々のプロセスの認識精度は従来のテロップ認識精度よりもはるかに低いのですが、全ての結果を確信度と言語情報を元に統合することで、従来のテロップ認識よりも高い精度の出力を得ることができます。

2コア4HT程度のPCでは画像1枚で、4秒程度処理時間がかかるという欠点があります。1フレーム/秒の速度を出すには 8コア/16HTのCPUが必要となります。当然のことならが64bitOSでの運用推奨となります。

下図のような、低認識率の認識処理を14プロセス並列実行して、結果を統合することで高い精度を実現します。著作権の関係で、画面の隅だけの引用となります。ご了承ください。
色成分無視で低輝度部分に強い２値化	色成分無視で高輝度部分に強い２値化

黄色・オレンジ色を文字色とする２値化	縁取り文字(縁取りは低輝度)をターゲットとする2値化

彩度情報を使った２値化	カラー文書向けの一般的な2値化(テロップ用専用ではない)