NTTデータ:OCR40/OCR400

金融分野等の実業務への適用拡大を目指し商用化したOCR40/OCR400は,従来にない高精度で手書き英数カナ等を読み取る端末用OCRであり,1991年に銀行業務のデータ通信システムの歳入金等受入に係る窓口業務に導入された.窓口処理向けの汎用ページ読取形のOCR40と,大量一括処理向けの超高速ドキュメント読取形のOCR400の2タイプが提供されている.

1980年代後半になり,金融分野において膨大な事務量に達している入金処理業務等の機械化への取り組みが活発化し,丁寧な記載に習熟した筆記者を特定せずに金額やID情報等の高精度に読み取る端末OCRへの期待が高まった.これに応えるOCR40/OCR400は,労働省,社会保険庁データ通信システムで実績のある端末用OCR:DT-OCR100シリーズの認識方式「位相構造化法」をベースに,文字パタンの輪郭形状に着目した新たな特徴抽出方式を相補的に併用することで,特に手書き数字の読取精度を従来OCRに比べて約1桁向上させている.(当時最高水準にあった当社DT-OCR100シリーズとの比較)

手書き英数カナの高精度読み取りを特徴とするOCR40/OCR400は,認識方式に加えて,文字切出し等の前処理の高度化,多様なデータチェック機能(数字文字列の検証)や,手書きフィールドのイメージ取得機能の追加等によって,伝票処理等の入力業務への実用性と汎用性を高めていることも大きな特徴であった.また,手書き高精度を活かした汎用ページ形OCR40の展開製品として,DT-OCR100シリーズの後継であるEA型文字読取装置が労働省システムに,CB型文字読取装置は社会保険庁システムに導入されている.

OCR40/OCR400の主要な実現技術:
  • 「位相構造化法」と「輪郭特徴抽出」を複合化による認識方式の高精度化:文字背景の大局的なパタン構造(位相情報)に着目したDT-OCR100シリーズで実績のある位相構造化法に,文字線の局所的な輪郭構造(凹凸)に着目した特徴抽出を複合化することで,文字パタンの文字背景部と文字線部の構造情報を相補的に用い,認識方式の高精度化を達成した.
  • 文字切出し等の前処理方式の高度化:記入枠をはみ出し/侵入している文字線素を適正配置する文字切出し,文字線の切れ・つぶれに強い多値パタンの濃度補正等により,自由手書き文字(OCR読取りを意識しないで記入された丁寧でない手書き文字)への高精度化を確保している.
  • 認識ユニットの並列実装による低価格化と高速読取りの実現:比較的低速な認識ユニットを1ボード化し,OCR40では前処理で切出された文字パタンを複数の認識ユニットに振り分けることで,価格と性能の両立を図っている.また,OCR400では文字読取行ごとにOCR40相当の行読取りユニット(走査光電変換,前処理,複数の認識ユニット)を設けることで超高速なドキュメント読取りを実現している.
  • 多様なデータチェック機能の追加:数値範囲,記述有無(存否),モジュラス値等チェックデジットのデータチェック等を行い,フィールド読取りエラーがあれば操作者修正を促し,誤読低減を図っている.
  • 手書きフィールドのイメージ取得機能の追加:ID情報に付随する住所・氏名等に対し,筆記者の便宜を鑑みカタカナでなく漢字記入に置き換え,当該読取りフィールドのイメージ取得を行う機能を追加した.
OCR40/OCR400の主な仕様
項  目 OCR40
(汎用ページ読取形OCR)
OCR400
(超高速ドキュメント読取形OCR)
認識方式 位相構造化法と輪郭特徴抽出の複合化方式
読取速度 文字読取 最大180字/秒 最大1,500字/秒
帳票処理 最大21枚/分(A4判,30字×10行) 最大180枚/分
読取字種 手書き

英数字,カナ,記号 (混在読取可),手書きマーク(指定記入枠)

印 字 数字,記号(OCR-Bサイズ I )
帳 票 大きさ,厚さ 縦横82.5×105~364×297mm
連量55~110kg
縦横102×185~240×230mm
連量70~110kg
紙 質 OCR用紙,上質紙(銘柄指定)
給紙方式 連続(自動)/1枚(手挿入) 連続(自動)
帳票容量 ホッパ 最大65 or 130mm(スイッチ切替) 最大280mm
スタッカ アクセプト: 130mm
リジェクト: 20mm
アクセプト1: 280mm
アクセプト2: 280mm
リジェクト: 28mm
その他の機能 イメージ取得: 任意領域の圧縮イメージ(OCR40のみ),読取フィールドイメージ
データチェック: チェックデジット,数値範囲,ダブル/ノーマーク
通番印字 数字6桁ナンバリング(帳票裏面,印字位置切換え可)
インタフェース GPIBインタフェースで操作卓(CWS110A)に接続
寸法,重量 63(W)×100(D)×105(H)cm,242kg
読取部:
140(W)×68(D)×140(H) cm,約325kg
認識部(2筐体分):
1,676(W)×68(D)×140(H) cm,約840kg
電 力 100±10V(単相),約1.6KVA 200±20V(単相),約11KVA

汎用ページ読取形:OCR40超高速ドキュメント読取形:OCR400 試作機(左:認識部,右:読取部) 超高速ドキュメント読取形:OCR400 商用機(左:認識部(1筐体分),右:読取部)

OCRの解説文では,一般社団法人電子情報技術産業協会発行の「OCRカタログ用語集(第2版)」の用語を使用しています.各用語の意味については,本用語集をご参照ください.