OCR仮想マシンの話

 本当のところを申しますと、もう1年以上も前から、誰かが言い出さないかなあ、とじっと見守っていました。ところが、テレビを観ていても、ネット上を検索してみても、私のまさに空虚な発想によるこの言葉は見当たりませんでした。「ファックスなんて時代遅れだ。」と言ってはばからない若い皆様方だからこそ、OCRなんていう古いコンピュータ技術とその知識なんて知らなくても困らないと、ゴミ箱へたやすくポイして下さっているのでしょう。
 そんな皆様のご意思に反して申し上げるならば、OCRとは、『光学的文字認識(Optical Character Recognition)』のことです。手書き文字の認識として、ハガキの郵便番号や、マークシート方式などでこれまでの日本人の私たちが生活上お世話になってきた人工知能関連技術の一つでした。最近では、郵便局に設置されたATMに振込用紙をそのまま読み込むことに利用されていることにも、そのようなコンピュータ技術の傾向が見て取れます。そしてまた、最近では、『OCRエンジン』とか『AI-OCR』といった言葉で、ネット上で認識されているようです。
 そして、『仮想マシン』ですが、その言葉の意味は、次のようにネット上では説明されているようです。「仮想マシンとは、物理コンピューターと同じ機能をソフトウェアで実現したコンピューターです。」「通常物理的に存在しているマシンを、仮想的に作り出して動かしている。」例えば、ウィンドウズOSのマシン上で、Linux(リナックス)OSやMacOSが動作するマシン環境を作るなどということが、このコンピュータ技術の一般的な利用方法です。また、各種のパソコンなどでJavaというコンピュータ処理言語が利用できますが、それなども、Javaの言語処理プログラム本体とは別に、それぞれのパソコンのファームウェアに近い部分で動作するプログラムを組み込んで、『Javaの仮想マシン』を動作させているからできることなのです。さらに申せば、各種のエミュレータ(emulator)のプログラムなんかも、広義では仮想マシンのようなものと言えるかもしれません。あるいは、「仮想マシンとは、仮想的に作られたハードウェアのことだ。」という定義もありました。
 そこで、種明かしをいたしましょう。『OCR仮想マシン』とは、OCR機器がこれまでやってきたことを、ソフトウェア(あるいはプログラム)的にパソコンでもワークステーションでもスーパーコンピューターでも出来るようにしたもの(すなわち、プログラム)だと言えます。実は、『OCR』+『仮想マシン』で私が作った造語です。しかし、これまで誰もその言葉に言及することなく、行政のIT化やデジタル化という目的だけがメディアで注目されるのは、いかがなものかな、と私は思っていました。そのための手段が、これまでの紙データを民間か誰かに委託して、アナログの情報をデジタルの情報に人の手で打ち直しているというウワサも聞きます。せめてもの手段として、民間会社のOCRサービスを利用している可能性も考えられると言えましょう。
 しかしながら、私は、日本のSE(システムエンジニア)の方々への責任追及を主張いたします。ここ1年間、あなた方はいったい何を考えていたのでしょうか、と私は疑問視しています。ひょっとして、日本のSEって、システムエンジニアの略ではなくて、サービスエンジニアの略なんかじゃないかと疑いたくもなります。クライアント(すなわち顧客)の言いなりで、言われたことだけやっていれば、高い給料をいただけるなどと考えて欲しくないのが、私の本音です。独創性を発揮しても、成果が残せなかったならば、報酬は支払われない。それは常識です。しかし、これまでのコンピューター技術の知識の蓄積から提案できることには、もっと積極的になって欲しいと思います。
 もしも私が、たった今SEで、日本全国の保健所から大量のファックス(FAX)が送られてきて、デジタル化せよとクライアントから話を持ちかけられたとしたならば、OCR仮想マシンというソフトウェアを作って、そのアナログ情報をデジタル情報に一括変換することを考えます。それは、昨今外国人が開発して完成させたWEB技術とは、はるかに違うものなのかもしれません。しかし、少なくとも、それのサル真似にならないことは確かです。ファックス(FAX)のデータは、受信側メモリ上でイメージ展開した後で紙に印刷してしまうから、アナログデータに戻ってしまうのです。送られてきたデータをイメージ展開したメモリ上で、OCRエンジンやAI-OCRでそのままコード化してデジタル化してしまえばいいのです。パソコンやワークステーションスーパーコンピューターをそのためのOCR専用の仮想マシンにしてしまえば、どんなに大量のファックス情報が送られて来ようと、全てデジタル化してしまうことが可能になります。そして、今日までに大量に蓄積された情報によるデジタル集計ができるようにもなると考えられます。
 SEの方々によっては、そんなデータ変換をする発想なんかは馬鹿げていて、AI(人工知能)のディープラーニングを使うのは、もったいないと主張されるかもしれません。しかし、ファックスの情報とて、しょせんは数値データです。メモリ上にイメージ展開してアナログデータとして見なされようが、実質上は数値データです。AIのふるまいが微分解析にすぎないとするならば、イメージに展開しているアナログデータを、何度も微分解析していって、デジタルデータにコード化することは可能です。そのようなことを述べている私の日本語自体は、間違っていないと思いますが、いかがなものでしょうか。
 以上私が述べた事柄は、日本のSEの方々に対しては、かなり辛辣(しんらつ)なコメントだったかもしれません。科学技術というものは、過去の情報・知識・技術を超えることが常に必要です。けれども、過去のそれらをすっかり忘れ去ることが大切なのではないと、皆様方にはおわかりのことと思います。むしろ、過去のそれらを十分に学んで理解して、思考を発展させることが、新しいものを生み出して、過去のそれらの価値を超えることにつながると思うのです。ローマは1日にしてならず。コンピュータシステムを構成・構築していくのも、また然(しか)りということです。