【東芝】 OCR ExpressReader70J

ExpressReader70Jは,高速読取と高い認識精度を小型装置,低価格で実現した日本語ドキュメントリーダである.レイアウト指定を行う必要がなく,ドキュメントのレイアウト解析を自動で行い文字認識を実行でき,フォントの種類に制限のないオムニフォントを読取対象とする.日本語文章の単語知識,文法知識に基づいた知識処理による自動的な誤読修正機能を備えていた.

活字漢字読取の課題の1つは字種の多さから来る処理量の問題であり,ExpressReader70J はこれを「大分類技術」と専用ICチップ開発により克服した.「大分類」には2段階の絞り込みを行う技術を導入し,最終的な識別処理では「複合類似度法」が使われた.レイアウト解析では読取エリアを分割した後に,その読取順序を自動的に推定するレイアウトの論理構造理解技術が開発され,導入された.知識処理では,日本語文法に基づく形態素解析技術を用いた誤読修正方式が開発され,実装された.

ExpressReader70Jの基本仕様は次のとおりである.

  • 読取速度 70~100字/秒
  • 読取字種 英数カナ記号,平仮名,漢字,約4,000字種の活字,オムニフォント
  • 読取帳票サイズ A4(最大)
  • スキャナ フラットベッドスキャナ
  • 認識精度 99.5%(通常品質文書)

  
ExpressReader70J  

OCRの解説文では,一般社団法人電子情報技術産業協会発行の「OCRカタログ用語集(第2版)」の用語を使用しています.各用語の意味については,本用語集をご参照ください.