OCR処理されたテキストが画像として貼り付けられているPDFの文字を直接編集できるか?
この問題の意味を説明します。
ご存知の方は多いと思いますが、念のため…。
まず、「OCR処理されたテキスト」です。
OCRとはOptical Character Recognition/Readerの略で、日本語では光学的文字認識するという意味です。そのように処理されたものが何に役立つかというと、イメージとして存在していたテキストを考えた場合、そのままでは単なる画層としてでしか認識されません。なのでその中から特定の文字を検索で探すことはできません。
それが、OCR処理されることで文字として認識され、検索することができるようになるのです。
タイトルの答えは基本はここにあるだと思っていたんです。
どういう状況かを説明します。
何らかの文書をスキャンし、それにOCR処理をして保存します。
その時点で既に文字はテキストとして検索可能な状態になっています。
それならば、その文字を削除したり色を付けたりと編集できるのではないかという仮説を持っていたんです。
今のところ答えはNOなんですね。
まず、上述の通り、文字や文章が写真や画像としてPDF化されているだけだと、その文字は検索できません。だからその文字を削除して書き換えることは到底できないということは想像できます。
しかし、それがPDF化されたテキストや文章は、OCR処理されているにもかかわらず、選択はできても書き換えることができないのはなぜか?
そこを問うているんです。
まあ、なぜ?という理由を知りたいというより、それを克服する方法はないのかと言いたいがためにこのようなタイトルになっています。
さらに、ぼくはOCR処理されていさえすれば、それを編集できるかどうかはソフトの問題だと思っていました。
でもなんだかそれも違うような気がしてきています。
状況は分かってもらえたでしょうか。
問題提起の理由
なぜこのような問題を取り上げているかというと、今までPDFというと、Adobeのリーダーなどの無料バージョンを使って閲覧、検索、書き込みぐらいの用途でしか使っていませんでした。
それで十分だったわけです。
ところが、最近、仕事でPDFを直接処理して欲しいという要求が増えてきているのです。
PDFソフトの無料バージョンでは足りないこと
おそらく、PDFのもともとの存在目的として、契約書とか、見積書とか、そういう…なんて言うんですかね?
金銭が絡んだ書類で編集されては困るようなものに使っていたという傾向が強いかなと思っていました。
ところが、その読みやすさからか、普通の文書でもPDFを使うことが普通になって来て、そのうち、英語で書かれた何らかの取扱説明書を翻訳して欲しいという依頼が増えてきたんですね。
まあ、その傾向になってから、もう10年以上のかなり時間は立っていると思いますが。
その間、PDFというものはどちらかというと最終形で、触るものではないという立ち位置が強かったんです。
そう思っている人多くないですか?
つまりそれは上書きができないからです。いや、できなかったからです。
もし、英語のマニュアルがWordで作成されていて、それを日本語にして欲しいということであれば、Wordのソフトでそのまま英語部分を削除して日本語に書き換えればいいだけです。
しかし最終形として存在しているPDFに書かれている英語を日本語にして欲しいとなると、テキストボックスか何かを英語の文章の上に貼り付けて英語を隠しそのボックス内に日本語を書くという処理になります。
ただ、それだと、日本語と英語の文章の長さの違いがあり、もしも枠があったりしたら、その中に収めるのための労力が尋常じゃないんですね。
とくに日本語から英語の場合。
だから、PDFをWordに変換したらいいのですが、無料のPDFソフト(リーダー)ではそれができないんですね。
PDFソフトは色々存在してますが、大抵のものはバージョンと可能な機能は似ていて、ベーシックなバージョンではファイルの変換はできません。
そういうわけで、通常はクライアントにPDFをWordに変えてもらったりして、それをもらってWord上で翻訳してそれを再びPDFに戻すという処理をしていたんですね。
2種類ある有料版の違いとは?
しかし最近はPDFしか提供できないというクライアント様が多くなってきて、そのハードルをこちらで越えなければいけないというシチュエーションが増えてきました。
それでいろいろ調べまくって、上記のことがわかり、無料版では無理だと判断し、PDFを直接編集できるソフトとしてKING SOFTのPDF Proを購入しました。他のメーカーは通常有料版が2つあるのですが、KING SOFTは1つだけで、お手頃だったので決めました。
さて、結果として、クライアントからの英文取扱説明書であるPDFを直接編集して、日本語にでき、画像が入っていても、レイアウトもWordのように行え、楽になりました。
特にそれほどの知識がなかったぼくは、これでPDFは何でも直接編集できるようになったと思ったのですが、まだまだ甘かったんですね。
ある時、PDFしかないマニュアルの翻訳案件だったので、意気揚々と受託しようと思ったのですが、見積もりを取るために受け取った原稿はPDFファイルではあるものの、テキストが画像で貼り付けてあるもので、それは、直接編集できないのです。
そこで思い立ったのが、OCR処理の必要性です。
つまり画像として映っているテキストにOCRを掛ければいいんじゃない?と思ったので、先日購入したKING SOFTのPDF Proでその画像が入ったPDFにOCRを掛けようと思ったら、その機能がついてないことがわかりました。
どうやら今回購入したKING SOFT PDF Proというのは他のPDFソフトの中間バージョンのようです。
確かに他社の上位版にあるスペック表にあるOCRという単語はこのソフトにはありません。
それならば他のソフト、例えば複合機にOCR処理ができる機能が備わっていることが多いので、うちの複合機を確認しました。
ありました。ついていました。といっても既にPDFになっているものには手を加えられないので、スキャンしたものにOCRをするという形になります。
そこで、画像をプリントアウトしたものをOCR付きでスキャンで取り込んで見ました。
その結果、やっぱり画像として保存されました。OCRはかかっているので、選択や検索はできるんですけどね。
このPDFというファイルはとても面白いですね。
画像と文字の中間というか、ハイブリッドというか。
結論
なんやかんや書いてきましたけど、結論としては、
で・き・ま・せ・ん
ですね。
画像になってしまった文字は、認識できるが、書き換えられないということです。
それとも、本家のADOBEのアクロバットだったら何かしらの方法でできるものなのでしょうか。
ソリューション
と、なんと、ここまで書いて、実は数週間、どのように締めくくろうか決めかねており、置いていたんですが、今、ひらめきました!
というか、思い出しました。
以前働いていた会社で同じようなことに悩んでたんです。
実際、悩んでたのはコーディネーターの人だったんで、ぼくはその悩みを考えるのを一緒に手伝っていただけだったので記憶に強く刷り込まれてなかったんですね。
正に、こういうふうに、画像に埋め込まれている文字を探し出して読み取るソフトがあるんです。
だから、こんな長い文章を書くまでもなかったかもしれないですね。
そのソフトは、ABBYYなんたらというもので、当時上司がビラ一枚を見てお試しでインストールし検討していたんです。
もちろん他にも同じような製品があったのですが、どうやらいろいろな言語で検証し一番認識率が高くだったのです。
その製品は、当時どういう名称だったかは覚えてませんが、今は
ABBYY FineReader PDF
というものが該当しそうです。
まとめ
では、これは、普通にOCR化をするのと何が違うのかというと、
- 画像の中の文字を認識して、
- 検索できるようにするだけでなく、
- ちゃんと文字として変換可能にし、
- 元原稿中の画像の中のレイアウト位置にできるだけ崩さないで配置され
- ワードやエクセルに再現
してくれるというものです。
そこで製品やバージョンの機能説明を読む際に注意したいことは、
- OCR化できる⇒検索だけじゃなく、書き換えもできるか?
OCR化しても、文字を認識できるようにするだけじゃ意味ないので、それを削除したり修正、変更できるかが重要です。
追加で新たに文字を記入することはリーダーでもできることが多いです。
- ファイル変換できる⇒画像としてではなく文字として、またレイアウトも保持するか?
ファイルをPDFからワードに変換したとき、PDFの内容を1つの画像としてワードに貼り付けるだけのこともあるので、ちゃんと読み取れて書き換えられる形で変換するか。
また、元原稿の配置通りにレイアウトを保っているか。
これらに注意してそれに合致するソフトが見つけられれば、
テキストが画像として貼り付けられているPDFの文字を直接編集できるか?
という問いの答えはYes!です。
というのが今回の最終的な結論になりますね。