AI-OCRとは?OCRとの違いや特徴・導入メリット

AIとOCRが融合し高度な文字認識を実現したAI-OCR

これまで、OCRを活用した業務改善や業務効率化を検討したものの、文字認識率の低さや読み取りフォーマットが限られている点などがネックとなり、導入を見送ってきた企業担当者もいることでしょう。
しかし、AI(人工知能)の登場によってブレイクスルーが起こり、OCR技術は格段に進化しました。機械学習による高い精度の文字認識が実現しただけでなく、非定型フォーマットにも柔軟に対応し、読み取る書類を選びません。

ビジネスへの貢献度が高まり注目されるAI-OCR。ここでは、従来型のOCRとの違いをはじめ、AI-OCRの仕組みや導入メリットなどについて解説します。

目次

OCRとAI-OCRの違いとは?

まずは、OCRとAI-OCRがどのようなものなのかを知るために、言葉の意味や技術的な違いなど、基礎知識についてご紹介します。

OCRの意味と技術的な特徴

OCRとは、英語の「Optical Character Recognition」の頭文字の略語で、日本語にすると「光学文字認識」となります。英語では「Optical Character Reader」と呼ぶこともあります。
複合機をはじめとするスキャナーやOCRリーダーなどで紙の書類を画像として読み取り、その画像データから文字を抜き出して、テキストデータに変換する技術がOCRです。

OCRとは?基礎知識と業務効率化が可能な理由

AI-OCRとは?言葉の意味と技術的な特徴

OCRに、AIの技術を融合したのがAI-OCRです。AI-OCRで使われるAI技術のひとつとして、コンピューターで人間の脳を模倣する「コネクショニズム(Connectionism)」という手法があります。コネクショニズムでは、人工知能が自動的に深層学習(ディープラーニング)で記憶したパターンから、読み取ったデータが何であるのかを人間の脳のようにシミュレーションして判断します。
これにより、従来型のOCRではできなかったような、高い精度の文字認識や非定型の帳票の読み取りが可能になりました。また、文字認識処理を行った後に、汎用性の高いデータ抽出・出力ができます。

■AI-OCRは、AIによるディープラーニングで高精度な文字認識を実現
AI-OCRは、AIによるディープラーニングで高精度な文字認識を実現

OCRにブレイクスルーを起こしたAIの進化

深層学習などによるコネクショニズムは、AIの黎明期からあった技術ですが、当時のコンピューターでは演算の能力が足らず、実用に足る研究成果は挙げられませんでした。しかし、2000年代に入り、コンピューターの処理能力が飛躍的に向上したことや記憶領域が大容量化したことで、実用レベルの技術となったのです。

AIの深層学習は、AIが大量のデータを自動で学習して、その中から適切なパターンを見つけ出すのが特徴です。よく挙げられる例として、猫と犬の画像判別があります。AIに猫と犬の画像データを大量に学習させて、お題となる画像が「猫と犬のどちらか?」を判別させるのです。人間にとっては簡単な判別でも、AI研究では昔からの課題でした。
転機となったのは、2012年に開催されたILSVRC(コンピューターによる画像認識技術に関する研究集会)です。カナダのトロント大学の研究チームが、膨大な画像データの中から対象物を認識するコンテストで、2位以下に圧倒的な差をつけて優勝しました。これをきっかけに、AIの深層学習による画像認識技術の研究が進み、OCRにブレイクスルーをもたらしました。

AI-OCRが注目されている理由とメリット

AI-OCRは、OCRとAIの技術が融合することで、飛躍的に読み取り精度が向上しました。しかし、AI-OCRでできることは、それだけではありません。
続いては、ビジネス分野でAI-OCRが注目されている理由とメリットについて見ていきましょう。

読み取り精度が飛躍的に向上

AI-OCRが注目される理由のひとつが、紙文書や画像データから文字を読み取り、デジタルデータに変換する読み取り精度の飛躍的な向上です。

従来型OCRの文字認識では「1文字単位」で文字を判別していましたが、AI-OCRでは「文字列単位」で読み取って文字を判別しています。例えば、「人工知能」という文字を1文字単位で読み込んだ場合、「人工」の「工」の字が、カタカナの「エ(え)」なのか、漢字の「工(こう)」なのか不明瞭です。しかし、「工」の前後に「人」と「知能」があることから、AIが学習データにもとづき「これは人工知能の工(こう)である」と判断するのです。

また、「請 求 書」のように文字と文字のあいだが離れている場合でも、文字がバラバラになることはなく、1つの「請求書」という単語として正しく認識できます。
このような読み取り精度の向上によって、OCRで読み取った文字を人間が目視であらためてチェックする労力が軽減され、ビジネスに関わるあらゆる書類を手軽にデータ化することが可能になりました。

■AI-OCRの高度な文字認識エンジンと文字列単位認識エンジンによる文字認識の例
AI-OCRの高度な文字認識エンジンと文字列単位認識エンジンによる文字認識の例

手書き文字の認識が可能に

手書き文字の認識率が高いことも、AI-OCRが注目される理由です。パソコンなどで作成されたデータであれば、フォントの違いがあっても文字の形状がはっきりしています。しかし、手書き文字は書き手によって、筆跡に違いがあります。従来型のOCRでは、文字を判別するために持っているパターンデータ量に限界があり、筆跡の異なる手書き文字を判別するのは困難でした。

その点、AI-OCRであれば、さまざまな筆跡をパターンで学習しているため、手書き文字でも高い精度で認識することができるのです。ビジネス分野では、領収書や申込書など、手書きで書かれた書類が意外と多くあります。手書き文字の認識が可能になったことで、これまで人間による入力作業に頼らざるをえなかった業務の自動化が実現しました。

文字の背景に影響されない

従来型のOCRでは、白地に黒色ではっきりとしている文字のほうが読み取りやすいといった制約がありました。しかし、AI-OCRであれば、網掛け文字や白抜き文字、透かし文字など、文字の背景に左右されることなく文字を読み取ることができます。また、罫線が極端に隣接した文字でも自動で判別し、正しく認識することが可能です。
これにより、デザインや装飾が邪魔をしていた帳票類やビジネス文書であっても読み取りができ、OCR活用の幅が広がりました。

非定型の帳票類への対応や、文字位置の指定不要のものも登場

従来型のOCRでは、非定型の帳票や文書を読み込む場合、文字列がどこにあるのかをあらかじめレイアウトで指定する必要がありました。取引先によって異なる請求書や注文書、領収書などのフォーマットに対し、手作業で一つひとつレイアウトを指定するのは、手間がかかって大変です。

一部のAI-OCRでは、非定型の帳票や文書のどこに罫線があるのか、どれが文字列なのかをAIが自動で判断するものも登場しています。「非定型の書類が多い業務だからOCRはあきらめるしかない……」とOCR導入を断念していたケースでも対応が可能となり、業務効率化を図ることができるのです。

■フォーマットの異なる帳票から共通のデータをAIで抽出可能
フォーマットの異なる帳票から共通のデータをAIで抽出可能

データの後処理で、汎用性が高いデータ抽出・連携が可能

AI-OCRだからこそできるメリットとして、文字として読み取ったデータの後処理まで自動で行えるという特徴があります。
例えば、請求書を読み取り、そのテキストデータの中から必要な項目だけを抽出して自社のフォーマットへあてはめて出力したり、出力する際に請求書に記載された企業名から「会社コード」を加えたりする作業が自動で処理できるのです。用途に応じた汎用性の高いデータ出力が可能なため、単に紙の書類をデジタル化するだけにとどまらず、後に控えた業務の負担軽減へとつながります。
また、デジタル化された書類の情報共有によって検索性が増すことのほか、自社の基幹システムやデジタルツールと連携して、情報を自社の資産として有効活用できることも大きなメリットです。

AI-OCRで紙の書類をデジタル変換する手順

AI-OCRで紙の書類をデジタルデータに変換する手順は、従来型のOCRよりも手間がかかりません。
ここでは、一般的なAI-OCRの書類読み取り手順に加えて、インフォディオの「スマートOCR」ならではの機能も見ていきましょう。

1. データ化する紙の帳票や文書を用意する

まずは、データ化したい紙の帳票や文書などを用意します。従来型のOCRの場合は、できるだけ白に近い用紙に黒ではっきりと印刷された(または書かれた)文字が最適といった制約がありましたが、AI-OCRであれば通常の用紙でも問題ありません。
「スマートOCR」の場合、レシートや運転免許証、名刺、健康保険証、源泉徴収票、契約書なども読み取れます。また、白抜き文字や文字の網掛けなどがあっても、高い精度で読み取ることが可能です。

2. 紙書類をスキャンして画像データにする

次は紙の書類のスキャンです。従来型のOCRの場合、スキャンは文字の認識率を高めるためにモノクロで行うのが一般的でしたが、AI-OCRであればカラーでも問題ありません。また、従来型のOCR場合は、書類が斜めにならないように読み取るといった注意が必要でしたが、AI-OCRの場合には、読み取った画像をAIが自動で補正してくれます。

■AI歪み補正エンジンによる読み取り画像の補正イメージ
AI歪み補正エンジンによる読み取り画像の補正イメージ

書類のスキャンは、複合機をはじめとするスキャナーやOCRリーダー、デジタルカメラなどで行います。スマートフォンのカメラで撮影した写真データもAIが自動補正してくれるため、営業スタッフが外出先のカフェのテーブルでレシートを撮影し、経理へ送って処理してもらうといったことも可能です。

このように、AI-OCRでは文字読み取り精度が格段に向上したため、従来型のOCRで行っていた、画像データを目視で確認して歪みや方向を加工する作業は基本的に必要なくなりました。「スマートOCR」では独自の前処理エンジンを搭載しており、画像の歪み補正、回転した書類の方向検知、印影の検知と除去を、AIが自動で行ってくれます。

3. AI-OCRで文字をデジタルデータ化し、データ抽出&出力する

従来型のOCRであれば、読み取った書類の画像データのどこに文字があるのかをレイアウト上で指定する必要がありました。しかし、一部ではレイアウト指定が不要なAI-OCRも登場し、AIが文字を自動的に認識し、デジタルデータに変換してくれます。また、デジタル化されたテキストデータは、あらかじめ指定した条件に応じて抽出したり、指定したフォーマットに出力したりするなど、さまざまな加工が可能です。
例えば、「スマートOCR」であれば、請求書から「商品名」「数量」「単価」「金額」などを自動的に抽出し、あらかじめ準備したフォーマットに自動で振り分けて出力することができます。

■各種帳票の文字を認識しテキストデータ化する高度なデータ抽出技術
各種帳票の文字を認識しテキストデータ化する高度なデータ抽出技術

4. 出力データを目視チェック・修正する

AI-OCRは、読み取った書類の画像データの補正や文字認識をAIが自動処理するため、まったく手間がかからないように見えます。しかし、100%の文字認識率を実現しているわけではなく、活字であれば99.98%以上という読み取り精度です。
そのため、AI-OCRであっても、手書き文字には注意が必要です。悪筆な人の手書き文字の場合、人間が見たとしても、これはカタカナの「ソ」なのか「ン」なのか迷うケースもあります。AI-OCRが文字を正しく認識しているのか、最終的な出力データは人間が目視で確認してチェックすべきでしょう。

AI-OCRを導入する際に検討すべきポイント

企業がAI-OCRを導入する際、どのような準備が必要なのでしょうか。従来型のOCRと同様、AI-OCRのソフトウェアが必要なのはわかりますが、パソコンならどれくらいのスペックがあればいいのか、ほかに準備するものがあるのかなど、検討すべきポイントをご紹介します。

AI-OCRに必要な機器

AI-OCRを導入する際には、まずはパソコンが必要になります。パソコンがなければ、周辺機器を使うこともできませんし、ソフトウェアを操作することもできません。パソコンのスペックについては、AI-OCRサービスを提供している会社によっても異なりますが、最新OSに対応しているモデルであれば大丈夫でしょう。
さらに、帳票や文書を読み取るスキャナーやOCRリーダーが必要です。多くの種類が販売されていますので業務に合わせて最適な商品を選びましょう。デジタルカメラやスマートフォンなどのカメラで撮影した画像データも利用できますので、使用する人や部署に合わせてスキャン方法を変えることも可能です。

AI-OCRのサービス提供形態

AI-OCRを利用するためには、ソフトウェアをインストールする場所(コンピューター)が必要で、一般的にはサーバーにインストールする形になります。ですから、必要な機器としてはサーバーがありますが、企業によっては自社サーバーを持たないケースもあるでしょう。
そこで選択肢としては、自社で既存または新規サーバーを準備し、そこにインストールする「オンプレミス型」か、外部サーバーを利用する「クラウド型」があります。どちらを選ぶかは、料金や自社サーバーの有無のほか、サーバーのセキュリティ要件などを視野に入れて決めるといいでしょう。

■AI-OCRのサービス形態にはクラウド型とオンプレミス型がある
AI-OCRのサービス形態にはクラウド型とオンプレミス型がある

業務効率化を実現したAI-OCRの導入事例

AI技術で進化したAI-OCRは、さまざまな現場の業務改善に活用されています。
ここでは、インフォディオの「スマートOCR」を利用している企業や官公庁の導入事例をご紹介しましょう。

大手旅行会社の事例:マスター機能で店舗コードを自動付与、作業時間を大幅に短縮

ある大手旅行会社では、「スマートOCR」の「マスター機能」を用いて、業務の改善を行いました。マスター機能とは、あらかじめ登録してあるマスターデータをOCRの読み取り結果データに付加して出力できる機能です。
これにより、あらかじめ店舗情報と店舗コードを紐づけて登録しておけば、OCRで店舗名を読み取る際に店舗コードを自動で付与できます。この改善により、これまで2時間かかっていた作業が10分で完了できるようになり、経理業務を大幅に効率化することができました。

国勢調査の事例:アンケート調査票の手書き文字なども読み取ることができ、用途拡大

民間企業だけでなく、官公庁の業務にもAI-OCRの導入が始まっています。インフォディオの「スマートOCR」は、国が実施する国勢調査業務に採用されました。
これまでの国勢調査業務において、従来型のOCRでは読み取り精度が低く、手書き文字も読めないという課題がありました。しかし、AI-OCRで手書き文字の認識が可能となり、アンケート用紙に記入された手書き文字でもOCRでデータ化できるようになりました。マス目に手書きされたチェックマークや「◯」などの記号も読み取れるため、さまざまな用途へ利用が拡大しています。

AI-OCRの活用で、自社の業務効率化を!

AI-OCRは、OCRとAI技術の融合によって誕生し、企業の業務効率化に大きく貢献する技術です。AI-OCRにより、これまでできなかった非定型の帳票や手書き文字の読み取りなど、業務に活用できる範囲が広がりました。さらに、紙の書類をデジタルデータに変換した後、データ抽出やデータ出力をAIで自動処理することもできるため、業務フロー全体の効率化を図ることも可能です。
インフォディオでは、ビジネスシーンやご予算に応じたさまざまなAI-OCRソリューションをご提供しています。自社の業務改善をご検討されている方に最適な、AI-OCRソリューションをご提案いたしますので、お気軽にお問い合せください。

AI-OCR「スマートOCR」の特長