透明テキストPDFとは?

透明テキスト付きPDFとは

PDFファイルというのは、実は画像のデータと、テキスト(文字情報)のデータと2つの種類のデータで構成されています。

スキャンして作成されたPDFファイルの場合は、画像データしか存在せず、テキストデータは含まれていません。

Office系ソフトで作成したPDFにおいては、PDF保存時にテキストデータも一緒に埋め込まれて保存されます。

PDFファイルによって、テキストを選択してコピーしたり、ドキュメント内の文字列検索ができるものとできないものの違いは、このテキストデータがPDFに埋め込まれているかどうかの違いです。
PDFに埋め込まれているテキストのことを、「透明テキスト」と呼びます。

透明テキストの作り方

透明テキストが埋め込まれていないPDFファイルに、透明テキストを埋め込みたいときはどうすればよいのでしょうか。

代表的な方法としては、OCR製品を利用して作成する方法があります。
OCRとは画像データからテキスト情報へ変換するソフトウェアのことです。このOCR製品の中には、透明テキストPDFを作成してくれる機能を搭載する製品は実はいくつもあります。

PDFといえば、なんといってもAdobeのAcrobatのイメージが強いですが、AcrobatにもOCR機能はあり、透明テキスト付きPDFを作成することも可能です。

精度の高い透明テキスト付きPDFを作るには

透明テキスト付きPDFを作成する際に、気になるのはやはりOCRの精度です。
もとのファイルはコンピュータを使って作成した活字によって構成されている書類であっても、画像から文字起こしをする際、OCRソフトではテキストへの変換ミスはよくあります。

実際、世の中に存在するフォントの種類は膨大ですし、形の似ている文字もたくさんあります。文字の形から判別するというのは、活字であっても意外に難しい技術なのです。

活字でも難しいので、手書き文字であればなおのこと難しいです。

具体的な例をあげてみましょう。「ー」という文字が、漢数字の1なのか、カタカナの
伸ばす文字の長音記号なのか、はたまた全角ハイフンなのか、文字一文字だけを見ていたら人間だって判断が難しいですね。

従来のOCR製品では、文字を画像の形から判別していたので、誤変換が多発していました。

しかし、最近ではAIを活用したAI-OCR製品が台頭してきたことにより、この問題は大きく改善されるようになりました。

AI-OCRは、文字の形だけではなく、前後の文字の関係性を考慮して文字を判定します。人間と同じように考えて判断するため、精度は各段に良くなりました。

スキャンで作成したPDFから透明テキスト付きPDFを作成する上では、AI-OCRを利用するのが最も有効な方法と言えます。

スマートOCRは透明テキストPDFも作成可能

スマートOCRは手書き文字にも対応する高精度AI-OCRクラウドサービスです。
スマートOCR
スマートOCRにはAI-OCRにより画像を読み取ってから文字データを生成する機能以外にも、透明テキストPDFを生成機能も搭載されています

透明テキストPDFが作成できることで、ペーパーレス化を推進した事例も

ある大手出版社においては、大量の紙の文書を資料として保管していましたが、保管のために広い書庫を確保することに悩んでおりました。
スキャンしてPDF化することでペーパーレス化の推進につながるとはいえ、スキャンするだけでもかなりの作業時間を要する上、スキャンしたPDFではテキスト検索ができないこともあり、せっかくデータ化しても目的の文書を探すことに時間がかかってはデータ化するメリットが失われてしまうため、資料のPDF化に躊躇していました。

そこでスマートOCRを利用して、スキャンしたPDFを透明テキスト付きPDFに変換することで、テキスト検索可能なPDFとして文書管理ができるようになりました。

透明テキスト付きPDFは過去の遺産をデータ化するコストパフォーマンスの良い解決策

DX推進が叫ばれている昨今、業務のIT化を進める上で頭を悩ませるのが、古い資料ではないでしょうか。
古い資料においては利用頻度は低いものの、捨てるわけにはいかない文書がたくさんあるものです。
データ化するために人がテキストを手入力していたのでは、コストと時間がかかりすぎるため、紙のまま倉庫で眠り続けることもよくあります。いつか使うかもしれないと思っていると、いざというときに見つからないことも多く、有効利用できていないことも課題として残ります。

透明テキスト付きPDFで保管することで、データとしての検索性を確保することが可能であり、前述の課題をクリアすることができます。古い文書は利用頻度の低さから、そこへ大きな投資はできません。最低限の検索機能を確保しシンプルに運用するのであれば透明テキストPDF化して保存することは有効な手法と言えます。

ファイルを横断して全文検索することも考慮しておきたい

透明テキスト付きPDFであれば、テキスト検索ができるようになりますが、大量のファイルを保管する場合、ファイルを横断して検索する機能があれば、尚、検索性が向上し効率化されます。
ファイルを横断して検索する場合、そのパフォーマンスが重要です。検索結果が出るまで時間がかかってしまっては意味がありません。
スマートOCRの姉妹製品であるDenHoには全文検索機能が標準搭載されており、超高速でのファイルを横断した全文検索を可能としております。
(スマートOCR内での全文検索はオプション機能となります。)

The following two tabs change content below.
スマートOCRに関する情報を発信していきます。 スマートOCRは非定型帳票や手書き文字にも対応した次世代型のAI-OCRです。スマートOCRについての詳しい情報はこちらから。 公式Twitterで最新情報を配信していますので、フォローしていただけると最新情報をすぐに入手できます。