透明テキストPDFとは?

透明テキスト付きPDFとは

PDFファイルというのは、実は画像のデータと、テキスト(文字情報)のデータと2つの種類のデータで構成されています。

スキャンして作成されたPDFファイルの場合は、画像データしか存在せず、テキストデータは含まれていません。

Office系ソフトで作成したPDFにおいては、PDF保存時にテキストデータも一緒に埋め込まれて保存されます。

PDFファイルによって、テキストを選択してコピーしたり、ドキュメント内の文字列検索ができるものとできないものの違いは、このテキストデータがPDFに埋め込まれているかどうかの違いです。
PDFに埋め込まれているテキストのことを、「透明テキスト」と呼びます。

透明テキストの作り方

透明テキストが埋め込まれていないPDFファイルに、透明テキストを埋め込みたいときはどうすればよいのでしょうか。

代表的な方法としては、OCR製品を利用して作成する方法があります。
OCRとは画像データからテキスト情報へ変換するソフトウェアのことです。このOCR製品の中には、透明テキストPDFを作成してくれる機能を搭載する製品は実はいくつもあります。

PDFといえば、なんといってもAdobeのAcrobatのイメージが強いですが、AcrobatにもOCR機能はあり、透明テキスト付きPDFを作成することも可能です。

精度の高い透明テキスト付きPDFを作るには
透明テキスト付きPDFを作成する際に、気になるのはやはりOCRの精度です。
もとのファイルはコンピュータを使って作成した活字によって構成されている書類であっても、画像から文字起こしをする際、OCRソフトではテキストへの変換ミスはよくあります。

実際、世の中に存在するフォントの種類は膨大ですし、形の似ている文字もたくさんあります。文字の形から判別するというのは、活字であっても意外に難しい技術なのです。

活字でも難しいので、手書き文字であればなおのこと難しいです。

具体的な例をあげてみましょう。「ー」という文字が、漢数字の1なのか、カタカナの
伸ばす文字の長音記号なのか、はたまた全角ハイフンなのか、文字一文字だけを見ていたら人間だって判断が難しいですね。

従来のOCR製品では、文字を画像の形から判別していたので、誤変換が多発していました。

しかし、最近ではAIを活用したAI-OCR製品が台頭してきたことにより、この問題は大きく改善されるようになりました。

AI-OCRは、文字の形だけではなく、前後の文字の関係性を考慮して文字を判定します。人間と同じように考えて判断するため、精度は各段に良くなりました。

透明テキスト付きPDFを作成する上では、AI-OCRを利用するのが最も有効な方法と言えます。

The following two tabs change content below.
スマートOCRに関する情報を発信していきます。 スマートOCRは非定型帳票や手書き文字にも対応した次世代型のAI-OCRです。スマートOCRについての詳しい情報はこちらから。 公式Twitterで最新情報を配信していますので、フォローしていただけると最新情報をすぐに入手できます。