領収書をOCRでデータ化するときに知っておきたいこと

電子帳簿保存法の改正を機に、領収書の保存方法についても電子保存に切り替える機運が多くの企業にて高まっています。
電子帳簿保存法では、取引先名、取引日付、取引金額において検索性を担保しなければいけないため、これらの項目をAI-OCRで読み取り、自動化することに脚光が集まっています。

そもそもすべての領収書が電子化されて授受されれば、もっとも効率的であることは間違いありませんが、紙のレシートや領収書がすべて置き換わるまでは長い時間がかかると予想され、AI-OCRによるデータ化は完全電子化されるまでの解決策として有効な策と言われています。

今日においては、AI-OCRの目覚ましい技術の進歩により、現在は文字の認識精度はかなりの水準まで向上しています。ただ文字を読み取るだけならば・・・・。

レシートや領収書のOCRのにおける問題

AI-OCRの導入を検討する際に、文字の認識率ばかりに目が行きがちですが、領収書やレシートのAI-OCRを導入する際には、チェックすべきポイントはほかにもあります。

本題に入る前に、あらためて領収書・レシートの特性について触れたいと思います。

領収書・レシートの類は、OCRの業界用語では非定型帳票と呼ばれています。文字通り決まった形がない帳票を意味します。

領収書・レシートにおいては、取引先のフォーマットを変えることはできません。取引先のフォーマットを受け入れる形でAI-OCRで処理します。そのため、フォーマットはとてつもない数のバリエーションがあることは想像に難くないでしょう。

一方、非定型帳票に対して定型帳票と呼ばれるものは、決まったフォーマットを前提としており、自社発行の書類、特定の取引先の取引書類や、チェーン店・系列店で統一された書類などで多く利用されています。

OCRのシステムにおいては、画像から文字として取り出す際に、取りだした文字が何の項目に該当するのかを指定するテンプレートという設定が必要になります。取り出した文字が名前なのか、日付なのか、金額なのかはOCRの技術だけでは判別できないのです。あらかじめこれは名前です。これは日付ですと指定してあげなければならないのです。

定型帳票の場合OCRのテンプレート設定は、位置座標で指定します。このエリアにある文字は日付です。と指定してあげるわけです。

一方、非定型帳票の場合は、そもそもバラバラなフォーマットを前提としているため位置座標は使えないことが多く、代わりに目印となるキーワードを指定し、その周辺にある文字を目的の値として探しだすという手法を取ります。

領収書やレシートは非定型帳票としては非常にOCRの抽出難易度が高い部類に入ります。

レシートにおいては、罫線がないこと、印字のばらつき・かすれがあること、テキストの情報量が少なく目印にしたいキーワードがないこともよくあることなどが難易度を上げています。
また、領収書においても手書き文字ゆえの認識精度の低下や、ゴム印のかすれ等も難易度を上げる要因となっています。

AI-OCRにおける領収書の対応は、どのメーカーの製品であっても非定型帳票の汎用的なパッケージとして提供されています。

AI-OCRの世界においては、非定型帳票と定型帳票では技術的な特性上、大きな違いがあります。
AI-OCR製品の比較をする上で、定型帳票の実績を見て判断しても、非定型帳票であるレシート・領収書において実力があるかどうかは別問題と言っても過言ではありません。

領収書・レシートのOCRを検討するのであれば、非定型帳票の読み取り技術として十分な実力があるかを見極める必要があります。

領収書・レシートに潜むもう一つの問題

領収書・レシートをOCRで読み取るのが、電子帳簿保存法への対応であったり、仕訳データの自動作成だった場合に必要となるのは、取引先名として相手会社名の取得です。

領収書・レシートにおいては、会社名や店舗名がロゴマークで印字されていることがよくあります。ロゴマークは文字として認識するには非常に難易度が高く、すべてのロゴマークをOCRで認識するのは不可能と言えます。

通常、OCRで認識できない文字は手作業で登録しなければなりません。手作業での登録が増えれば増えるほどOCRの導入で半自動化したメリットが薄れてしまいます。

残念ながら、現在の国内で出回るレシート・領収書において、企業名や店舗名をロゴマークで記載するケースはとても多いのが現実です。せっかくOCRを導入しても、多くの領収書・レシートにおいては会社名・店舗名を手作業で補完しなければならないのでしょうか?

ご安心ください。これらはOCRで読み取れる別の箇所から企業や店舗を特定する仕組みを採用すれば、解決することが可能です。

インフォディオの提供するDenHoスマートOCRといったAI-OCR製品では、読み取った電話番号から辞書機能を使って自動で会社名を割り出します。

いかがでしょうか。このように領収書・レシートを対象としたAI-OCRを選ぶポイントは色々あることがご理解いただけましたでしょうか。
領収書・レシートのOCRソリューションを選ぶときのポイントはほかにもまだあるのですが、また別の記事にてご紹介いたします。
お読みいただいた皆様のAI-OCR選びの参考になれば幸いです。

電子帳簿保存システムDenHo
The following two tabs change content below.
スマートOCRに関する情報を発信していきます。 スマートOCRは非定型帳票や手書き文字にも対応した次世代型のAI-OCRです。スマートOCRについての詳しい情報はこちらから。 公式Twitterで最新情報を配信していますので、フォローしていただけると最新情報をすぐに入手できます。