2009年〜2016年に導入した新しいアルゴリズムです
2008年以前からあるアルゴリズム
  1. 高速ラべリングアルゴリズムを利用した2値化
    グレイスケール画像の2値化において、輝度値を1〜255のしきい値で2値化した画像を255枚用意する。その 全てについて高速ラべリング処理をして、ラベル付した領域の数のヒストグラムを得る。
    領域数が多い場合は「かすれ」、少ない場合は「つぶれ」と判断して、最適なしきい値を取得する2値化。
    速度が遅くても良好な2値画像を取得したい時に用いる、低速・高品質2値化。

  2. 入れ子段落抽出
    入れ子段落抽出
    異なる段組みの段落を一つの段落や行として抽出した場合に、段落内で入れ子の段落抽出を行うことができるようになりました。

  3. 新接触文字列処理
    新接触文字列処理
    以下のような3文字以上の接触文字列を認識することができるようになりました