フリートーク > 2000年7月1日バックナンバー
がんばれ! OCR
今回はちょっとした笑い話を。
「神々の黄昏」は、私がまだパソコンを購入するずっと前、家庭用ワープロでコツコツ打っていたときがありました。その後、初めてMacintoshを買い、ワープロで書いたデータはDOSフォーマットにしてMacに移行し、それを書き直したりしていました。
ところが! ところがいきなりMacintoshのハードディスクがぶっ飛んだのです。当時のMacintoshは500MBの内蔵ハードディスクしかないため、やむなく高い金払って外付けの2GBのハードディスクをぶら下げていたのですが、そいつが飛んだのです。もう目の前真っ暗。内蔵のハードディスクにはシステムしか入れておらず、アプリもデータもすべておしゃか。もちろん原稿のテキストデータもサルベージできず。残ったのはプリントアウトしたできかけの原稿のみでした。
さて、しばらく打ちひしがれて小説を書くことすら忘れていましたが、やがてスキャナーを買う機会がやってきました。純粋に下絵を取り込むためだったのですが、こいつにはいろいろなソフトが付属してきて、私が「これだ!!」と思ったのがOCR、つまり、文書読みとりソフトだったのです。
そろそろ話を進めたいときだったので、ワラをも掴む気持ちで手元のプリントアウトを読み込ませてみたわけです。
これが結構笑える! 性能は確かに上がっているものの、やはり画数の多い漢字などはつぶれてしまって読めないためか、とんでもないものに変換されてしまうことも。気がつけばその場で修正していますが、実はこのサイトの「プロローグ」と1章の序盤あたりまで、OCRで読みとったテキストに直接編集したものを使用しているのです。
自分でもひらがなとか漢字の間違いを結構よく見かけるのですが、先日小説の内容をすべてプリントアウトしてぶっ飛んでしまいました。
例えば、
つぷやいた
なんだよ、それ〜(^ ^;;。「ぶ」が「ぷ」になってしまっているのです。これが結構多い。モニタ上だと表示フォントのせいもあって(私はフォントサイズを小さくもしているので)気がつかないんですねぇ。似たようなもので、「ば」が「ぱ」になっているのがありました。濁音が読みとりにくいのですな。
あと、
悪ガキ仲聞
一見なんでもなさげに見えるけど、「間」という字が「聞」になってしまってる。いい線いってるけど惜しいぞ、OCR。
あとすごかったのが、
大償正リムトダール
償ってどーする。なんかえらく後悔している感じが伝わってくるけど……(^ ^;;。
まぁとにかく、この原稿(まだすべて校正し終わってないけど)のなかに結構おいしい間違いがあるので、見かけても笑って許してやってください。悪いのはOCRなので(ちゃんと校正しろって)。
OCRではありませんが、仕事の原稿でとんでもない誤変換をやらかし、いつも上司を楽しませているのは私です。とあるマニュアル的な原稿を書いていたときのこと、「新規画像を作成し」と打ったつもりが、
新規画像を作詞絵師
となっており、しかも読み直したのに間違いに気づかず上司に提出。戻ってきたのを見るとこの部分に線が引いてあり、「マルチなミュージシャン?」と赤が入れてありましたとさ。徹夜で疲れていたんだよ、きっと。