公開日: 2015年6月1日
最終更新日: 2023年2月7日
1985年7月に発表された,イメージ文字読取装置(VIR : Versatile Information Reader)FACOM 6678A,同6678B(B1/B2)と手書き漢字認識ユニットFACOM 6679Aである.これらは,同社の日本語情報システムJEF(Japanese processing Extended Feature)のオンライン入力システムやイメージ処理システムを構築するコンポーネント群の一角を成した.
FACOM 6678A/Bはイメージデータの読取りと,文字(英数字,カタカナ,記号)の認識ができる装置である.処理速度は,FACOM 6678Aが約20枚/分(最大),FACOM 6678Bが約25枚/分(最大)であり,入力可能な原稿サイズは前者のA4に対し,後者は適用範囲の広いA3にまで拡大されていた.
手書き漢字認識ユニットFACOM 6679Aは,FACOM 6678A/Bから送られてくるイメージデータを受け取り,そこから手書き漢字を認識するオプションユニットである.主な特徴は次のとおり.
- 約3,000字種の漢字(常用漢字と住所・氏名のための追加)および非漢字(英数字,カナ,記号)を合わせて,約3,200字種を認識.
- 認識方式として「多元圧縮法」(注1)と「部分パターン法」(注1)を採用.
- 認識専用ハードウェアの搭載により40字/秒の高速認識を実現.
- 高認識率を達成するため,内蔵した辞書(住所,姓,名)との単語照合を行う方式を採用.
- 利用者固有の辞書を用意することで,企業名や製品名などとの単語照合も可能.
(注1)「多元圧縮法」と「部分パターン法」は対象物の類似性を識別する技法の1つであり,複雑性の高い漢字の認識のために用いられた.
漢字は数が多いことに加え,共通部首のため著しく類似した字形を持つ異なる漢字が存在する.その上に手書きによる変動が加わるため,手書き漢字の識別は容易ではない.
多元圧縮法は,文字の識別のために有効な文字画像情報(線分の傾きと本数,画素の分布など)を適切に絞り込み,それらの要素の特徴量を用いて漢字辞書と照合する方法である.要素の選び方が認識率と処理スピードの向上の鍵を握る.部分パターン法は,共通部首以外の部分の差異を際立たせる方法であり,多元圧縮法と併用された.