電電公社(NTTデータ):印刷漢字読取装置OCR50

印刷漢字読取装置OCR50は,日本語印刷文書を高速度で高精度に読み取り,日本語データベース構築のための原始データを効率的に作成する端末用OCRである.

1980年代に入り日本語情報処理の進展に伴い,既存の日本語文書のデータベース化への要求が高まったが,日本語文書には数千にもおよぶ文字種を含んでいるために情報処理装置等への入力には多くの人手と多大な時間をかかるという課題が顕在化した.これに応えるOCR50は,多様な日本語文書を高速度で読み取り,自由度の高い文章編集により,経済的な入力手段を実現している.

主な特徴:
  • 読取文字種の多さと高精度な読取性能を両立:文字の大きさが7~18ポイント(2.5~6.3mm角)であれば,漢字・ひらがな・カタカナ・英数字・記号等約4,000字種を読取対象としている.
  • 印刷文書で用いている書体対応の文字認識辞書を使用し,さらに単語抽出,文脈解析の知識処理技術の採用により,高精度な読取性能を確保している.
  • 多種多様な印刷物がそのまま入力できる柔軟性の確保:手持ちの印刷文書(A6判~B4判)をそのまま読み取ってコード化できる.また,用紙の大きさや行間,縦書き・横書き等の字並びが異なっていても,その場で読み取り方法を設定できる.
  • 高速度なデータベース化を実現:読取速度は約1,500 字/分で,人間の入力速度の約30倍に相当する.読み取り結果はフロッピーディスクまたは磁気テープに出力し,原子データを作成できる.
  • 読み取った文章の編集機能を具備:読み取った印刷文書を,キーボード走査により,削除・訂正・挿入等の編集を行うことができる.
印刷漢字読取装置OCR50の仕様
項  目 内   容
認識方式 位相特徴分布法
読取速度 文字読取 約1,500字/分
帳票処理 約 20枚/分(最大)
読取対象 字種 活字文字:約4,700種
JIS第1水準, 第2水準漢字,仮名,英数字,記号等
大きさ 7~8ポイント(2.5~6.3mm角)
文字間隔 固定ピッチおよび不定ピッチの読取可能,縦書き・横書き・段構成
帳 票 大きさ,厚さ 縦横148×105~364×257mm,連量45~90kg
紙 質 OCR用紙,上質紙,普通紙
給紙方式 連続(自動)/1枚(手挿入)
帳票容量 ホッパ 100枚(連量70kg相当)
スタッカ 100枚(連量70kg相当)
読取結果 修正機能 候補文字選択によるリジェクト修正
編集機能 カナ漢字変換,区点,漢字検索入力.挿入・削除・訂正等のワープロ機能
出力先 FDまたはMTへの出力(JIS-C-6226漢字コード)
RS-232Cインタフェースで他装置転送が可能
寸法,重量 認識部: 61(W)×96(D)×82(H)cm, 150 kg
走査機構部: 61(W)×71(D)×86(H)cm, 130 kg
制御部: 105(W)×71(D)×66(H)cm, 150 kg
操作部: 60(W)×80(D)×40(H)cm
磁気テープ部: 52(W)×36(D)×40(H)cm,42 kg
プリンタ部: 61(W)×50(D)×90(H)cm,65 kg
電 力 100±10V,約2.8KVA

  
※左からプリンタ部,磁気テープ部(卓上),操作部(卓上),制御部(操作部下),走査機構部,認識部  

OCRの解説文では,一般社団法人電子情報技術産業協会発行の「OCRカタログ用語集(第2版)」の用語を使用しています.各用語の意味については,本用語集をご参照ください.