OCRとは文字認識技術のこと!メリット・活用事例・AIとの違いを解説

スキャナーで書類を読み取ってテキストデータに変換するOCR

「OCRってなに?」
「OCRは導入するメリットは何だろうか?」
「OCRの活用事例を知りたいな」

OCRという言葉を聞くと、このような疑問を抱く方がいるかもしれません。詳しくは本文で解説致しますが、OCRとは光学文字認識技術のこと。専用の機器で書類などに記載された文字をスキャンし、データ化した文字情報をパソコン上に自動表示させる仕組みを指します。

このOCRを導入すれば、データ入力などといった業務を大幅に効率化できます。人が必要になる作業は確認作業ぐらいになるからです。そんなこともあり、OCRを活用する企業や自治体は年々増えています。そうなりますと、各企業や自治体のOCR活用事例が気になりますよね。

そこでこの記事ではOCRの基本情報だけではなく、導入するメリット・選び方・活用事例・AI OCRのことも丁寧に解説致します。この記事を読めば、OCRの必要性や有益性を深いレベルで理解できます。「データ入力や処理に時間がかかり過ぎている……」と悩んでいる担当の方は、ぜひ読んでみてください。

目次
  1. 業務効率化!OCRとは文字認識技術のこと
  2. OCRを導入・活用すべき理由を解説
  3. データ入力・処理が楽!OCRのメリット
  4. 処理は完璧?OCRのデメリットを解説
  5. OCRで文書をデジタル変換する手順を解説
  6. 導入時の参考に!OCRの選び方を解説
  7. 文書をデジタル化!OCRを上手に活用する方法
  8. 担当者は注目!OCRの活用事例を解説
  9. 【OCRの展望】AIによる処理でさらに加速
  10. OCRを導入する際によくあるQ&A
  11. まとめ|OCRの導入・活用で業務効率化!

業務効率化!OCRとは文字認識技術のこと

OCRとはいったい、何を指す言葉なのでしょうか。なんとなく「文字をデジタルデータ化するもの」という理解はしていても、実際に利用している人でなければ、詳しく知らないかもしれません。
まずは、OCRの言葉の意味や技術進化についての基礎知識をご紹介しましょう。

OCRとは文字認識機能のこと

OCRとは画像や書類に記載されている文字をスキャンおよび解析し、データ化する技術を指します。簡単に言いますと紙に記載されている『あ』という文字を機器で読み取ることで、パソコンにも『あ』と自動入力させるイメージです。オフライン上の文字をデータ化することにより、Webツールやパソコンの検索機能などで必要な情報をいつでも素早く探せるようになりました。

従来、帳票や本などに印刷された文字をデジタルデータ化するためには、人間の目で見て、脳でその文字が何であるかを判断し、それをコンピューターに手作業で入力する必要がありました。数行の文章であればともかく、書類が大量にあると、その労力はかなりのものです。

そこで、複合機やスキャニング専用機器などで文書を画像として読み取り、自動的にその画像から文字を抜き出し、コンピューターで使えるデータとして認識させる技術が開発されたわけです。

ちなみにOCRは英語の『Optical Character Recognition』の頭文字からとった略語です。日本語だと別名『光学文字認識』とも呼ばれます。英語だと『Optical Character Reader』と呼ばれることもあります。

■OCRは紙書類の文字をテキストデータに変換する技術
OCRは紙書類の文字をテキストデータに変換する技術

OCRの仕組み

OCRが文章を読み取ったとき、認識するまでの仕組みは以下のとおりです。

  1. 写真・画像を解析
  2. 文章の場所を把握
  3. 長文をブロック単位で分割
  4. 分割された文章の各行を解析
  5. 行内の文章を1文字ずつ解析
  6. 文字を認識
  7. 誤字を修正
  8. テキストデータを取得
  9. 自動入力

まずは画像を読み取り、画像のどこに文字が書かれているのかをコンピューターが解析します。そして文章の位置を正確に把握。文章が長い場合はブロックごとに区切ります。

次にブロック内に記載されている文章を行ごとにさらに分割し、把握。1文字ずつ認識できる状態に整えます。このときに誤字がある場合、導入したOCRによっては文字の修正をしてくれます。最後に読み取ったデータをテキスト化および自動入力するというのが、OCRの基本的な仕組みです。ここまで細かく丁寧にやることで、OCRは文字を認識できるようになっています。

こうしてみると良くできているように感じますが、OCRは最初からこのような仕組みだったわけではありません。これまでに様々な試行錯誤を繰り返し、この仕組みに至っています。そこで、次ではOCRの歴史を簡単に振り返ります。

国産OCR誕生のきっかけは郵便番号

日本で国産OCRが誕生したのは1968年、郵便番号制度導入がきっかけです。郵便局内で行う業務の自動化を図るため、はがきの赤い枠内に書かれた郵便番号を読み取り、集配局ごとに仕分けるOCR機械が製品化されました。

その後、1980年代には日本におけるOCRの普及期を迎えます。処理を行うコンピューターの低価格化やOCRのソフトウェアパッケージ化が進み、個人でも利用できるレベルの各種OCRサービスが普及するまでに進化したのです。ただ、文字認識率の精度は満足のいくものではなく、読み取り後のデータを人間が目視で確認してチェック、修正する必要がありました。

AIで大きく飛躍!従来のOCRとの違いは?

そんな中、OCRにブレイクスルーをもたらすきっかけになったのが、2012年に開催されたILSVRC(コンピューターによる画像認識技術に関する研究集会)でした。

カナダのトロント大学の研究チームが、膨大な画像データの中から対象物を認識するコンテストで、2位以下に圧倒的な差をつけて優勝したのです。このとき彼らが採用していたのが、AIの深層学習(ディープラーニング※)を用いた画像認識システムでした。

※ディープラーニングとは、コンピューターに学習を指せる手法のこと。学習することにより、以前は出来なかったこともできるようになるという特徴があります。

これ以降、深層学習に注目が集まり、世界的なIT企業が研究開発を加速させるなど、AIの進化を後押しすることになりました。

このAIとOCRを組み合わせたのがAI OCRと呼ばれるものです。AI OCRでは、AIが膨大な画像パターンを自動的に学習して、読み取った画像データが何であるのかを人間の脳のようにシミュレーションして判断します。これまでのOCRではできなかった、データベースにない情報を新たに学習したり、読み取った文字をプログラムで補正したりすることで、文字認識力が格段に進歩することになりました。従来のOCRだと事前に決められたロジックや設定内でしか文字を識別できませんでしたので、これは革命的な進歩です。従来のOCRとAI OCRの違いも、ここにあると言えます。

さらにAI OCRの最たる特徴として、これまで難しかった手書き文字の認識率も向上し、手書きの帳票や文書などを読み取ることが可能になったことが挙げられます。そのこともあり、OCRはビジネスシーンでの注目も高まったのです。さらに現在では、ただ文字をデジタルデータに変換するだけではなく、読み取った後のデータ抽出・加工といった後処理を自動で行うこともできるようになっています。

なお、AI OCRの詳しい情報は以下の記事で解説しています。AI OCRとOCRの違いをもっとより深く知りたい方はぜひご参考ください。

AI-OCRとは?OCRとの違いや特徴・導入メリット

OCRを導入・活用すべき理由を解説

ここではOCRを導入すべき理由を解説致します。

生産性向上は必須!人手不足が深刻だから

OCRを導入すべき理由として、今後数十年にわたり人手不足の深刻化が懸念されていることが挙げられます。 日本の生産年齢人口※の減少が著しいからです。

※生産年齢人口とは、15~64歳の人口のこと。

どういうことかと言いますと、まず2022年の日本の労働人口は前年と比較して5万人減少しています。

労働力人口(15 歳以上人口のうち、就業者と完全失業者を合わせた人口)は、2022 年平均 で 6902 万人と、前年に比べ5万人の減少(2年ぶりの減少)となった。男女別にみると、男性は 3805 万人と 22 万人の減少、女性は 3096 万人と 16 万人の増加となった。

引用元:総務相労働局|第1就業状態の動向|1ページ目(2023年3月11日時点)

「5万人の減少だったら、そんなに深刻ではないだろう」と思うかもしれません。しかしこの問題をさらに深堀すると、深刻さが明らかになります。実はこの労働人口は、65歳以上の高齢者に支えられているからです。

令和3年の労働力人口は、6,907万人であった。労働力人口のうち65~69歳の者は410万人、70歳以上の者は516万人であり、労働力人口総数に占める65歳以上の者の割合は13.4%と上昇し続けている(図1-2-1-9)。

引用元:内閣府|第1章 高齢化の状況(第2節 1)(2023年3月11日時点)

65歳以上の人材は合計で926万人になっていますよね。つまり、ただでさえ減少しつつある労働人口の約7分の1が65歳以上の方ということ。この方々がいつまでも元気に働くのであれば問題ありませんが、年齢的に厳しいものがあります。正直、仕事をいつリタイヤしてもおかしくない状況です。日本の労働人口はいつ崩れても不思議ではない、薄氷の上の状態と言えます。

これに付け加えて日本は労働人口だけではなく、人口そのものが以下のようにどんどん減少しています。

【2023年(令和5年)2月1日現在(概算値)】
<総人口> 1億2463万人で、前年同月に比べ減少 ▲57万人(▲0.45%)

引用元:総務相統計局|人口推計(令和4年(2022年)9月確定値、令和5年(2023年)2月概算値)(2023年2月20日公表)(2023年3月11日時点)

引用元のデータを見るとわかりますが、日本の人口は右肩下がりです。2024年以降は予測値なのですが、人口がV字回復する気配が一向にありません。そんなこともあり、総務省は『2005年で8,442万人だった生産年齢人口は、2050年には4,930万人になる』という、極めて悲観的なデータを公表しています。

要するに『労働人口は極度の高齢化を迎えつつ急激な人口減少も同時進行しており、働き盛りである生産年齢人口の激減が顕著である』ということです。こういった背景もあり、日本では『2025年問題※』というトピックまで出てきているわけです。

※2025年問題とは、超高齢化社会になることで雇用・医療・介護などに対して数多くの影響があると考えられていることを指します。上述したように、年齢別人口の高齢化が原因です。

そのため現時点で人手不足が深刻な企業は、さらなる人材不足に悩まされる確率が非常に高いです。仮に今は人手が足りている企業でも、10~20年後には人材不足が表面化する確率は高いと言えます。

そのような先を見据えて、帳票の読み取りなどといった単純作業はOCRで効率化・自動化することがおすすめです。業務を効率化・自動化すれば人手は不要となりますので、より少人数で現場を回せるようになります。

RPA(自動化)ツールとの連携も可能だから

OCRを使うべき理由として、RPAツールとの連携可能な点が挙げられます。

※RPAとは、Robotic Process Automationの略。データ入力・抽出など、人が行っていた業務をソフトウェアロボットが代行してくれることを指します。

OCRで文字を読み取り、デジタル化した情報をロボットが自動対応してくれるイメージです。OCRとRPAを連携させることで、業務を非常に効率化できます。例えば以下のようなことを実現できます。

連携により実現できること OCRですること RPAですること
請求処理の自動化 請求書スキャン データを自動処理
納品書と在庫の自動照合 納品書スキャン 在庫データと自動照合
顧客名簿に自動でDM送信 顧客名簿をスキャン DMを自動送信

※ダイレクトメールの略。

従来であれば請求書・納品書・顧客名簿を見ながら、パソコン操作をする業務です。そのため作業効率はお世辞にもよくありません。パソコン操作が苦手な方は、もたついてしまうことでしょう。

しかしOCRとRPAを連携させることにより、確認・パソコン操作作業がなくなります。その結果、業務の効率化・自動化を簡単に実現。人のスキル・能力に左右されることなく、一定のスピードで業務を誰でも完遂できるようになります。人に左右されることがなくなりますので、現場は安定して業務を進められるでしょう。

業界・業態・業種問わず幅広く使えるから

当然ながら、OCRは業界・業態・業種問わず幅広く使えます。『文字・データを読み取る』という行為は全企業で行われる業務であり、かつ様々な応用が利くからです。具体例を言いますと、以下のようなイメージです。

業務内容 対象となる業界・業態・業種の例
数字を確認および記入する経理・会計業務 全企業
履歴書のデータ化 全企業
紙で管理していた各資料のデータ化 全企業

どの企業も基本的に経理は存在していますよね。そのため全企業がOCRを使って会計業務を効率化できます。上手くいけば2人で行っていた会計業務を、1人で完遂できるようになるかもしれません。そうなれば、人件費を年間で数百万円ほどカットすることも可能です。

また採用活動にてどの企業も履歴書を扱うことは、未だに多いハズ。送られてきた履歴書をOCRでスキャンすれば、手動入力することなく各情報を記入できます。このことは履歴書に限らず、紙を媒体とした資料全般に言えます。OCRを導入すれば、1つの紙資料の処理にかかる時間を大幅に削減できるのです。このようにOCRは幅広い業務に活用可能です。業界・業態・業種を問わず、OCRでぜひ業務を効率化してみてください。

なおOCRの活用事例は記事の後半で解説していますので、ご参考ください。

■OCRの活用により、さまざまな帳票類や文書を効率的にデータ化することが可能に
OCRの活用により、さまざまな帳票類や文書を効率的にデータ化することが可能に

データ入力・処理が楽!OCRのメリット

技術の発展でより実用度が増したOCRは、企業の業務効率化ツールとしても活用できるようになりましたが、どのようなシーンで恩恵を受けられるのでしょうか。続いては、企業の業務にOCRを導入する具体的なメリットをご紹介しましょう。

データ入力業務の手間を削減できる

取引先や社員から、請求書や納品書、領収書などの帳票が紙文書で届いた場合、基本的にこれらのデータを必要なソフトウェアに手入力して管理することになります。入力作業は部署によっては膨大になり、時間と労力を割くことになります。この入力作業はOCRで代行できますので、手間の削減につなげることが可能です。

帳票や文書を文字データに自動変換して保存できるようになれば、人間がパソコンに入力する手間や時間などのコストが削減できます。それだけでなく、その後の情報管理の手軽さや情報の有効活用へとつながります。データを一元管理して、パソコンで情報を簡単に検索したり、ほかの書類にデータを流用したりすることも可能です。

■OCRは各種帳票を手作業でデータ入力する手間を削減する
OCRは各種帳票を手作業でデータ入力する手間を削減する

膨大な情報量でも誤入力がほぼなくなる

OCRを導入すれば、膨大な情報を取り扱ったとしても誤入力がほぼなくなります。OCRでスキャンすることにより手動入力がなくなるからです。例えば経理・会計業務で言いますと、以下のように幅広いタスクを抱えているハズです。

  • 現金預金や売掛金の管理
  • データ入力や伝票作成
  • 領収書の整理
  • 請求書作成
  • 給与台帳の作成
  • 原価管理
  • 固定資産や減価償却の管理
  • 決算書の作成
  • 税務会計
  • 法人税等の納付

そのため事業内容・自社の社員数・時期によっては、自分1人で取り扱う情報量が膨大になることがあります。そうなりますと、入力ミスが出てくるのも無理はありません。疲れがたまってくれば確認ミス・記入忘れなどといったヒューマンエラーやケアレスミスも増えてくることでしょう。これでは業務に支障が出ます。

しかしOCRを導入することにより、ヒューマンエラーやケアレスミスはなくなります。OCRが社員の代わりに正確にデータを読み取り、迅速に自動入力してくれるからです。もしも「最近記入ミスが多いという報告が、現場から上がってきているな……」と悩んでいるのであれば、OCRの導入を強くおすすめ致します。

保管コストを削減できる

帳票類をはじめ、企画書や決裁書などの業務に関わる紙文書を、紙の状態のままファイリングして保管している企業もあるでしょう。この場合、書類を保存しておくスペースや書類を管理するコストが発生します。

OCRで書類をデジタルデータ化しておけば、書類キャビネットや資料室など、物理的な保管スペースを大幅に削減できます。紙の経年劣化やほかの書類に紛れて紛失するといった心配もありません。

データ検索・共有・加工がしやすい

書類をデジタルデータ化した場合、パソコンなどから気軽に検索できるため、必要な書類を探すのが楽になります。また、データを共有ストレージに保存していれば、ほかの従業員もアクセスできますから、情報共有しやすいでしょう。しかも、過去に読み取ったテキストデータを加工して流用することができ、新しい文書や資料づくりの作業効率もアップします。

クリエイティブな作業に集中できる

OCRを導入することにより、クリエイティブな作業に集中できます。業務を効率化することにより、時間を捻出できるからです。例えば先ほどOCRの例として『顧客名簿に自動でDM送信』がありました。この例で言いますと、まず顧客名簿にDMを送る場合は以下のような作業があります。

  1. 顧客名簿のチェック
  2. 優先順位付け
  3. 送付メールの作成
  4. メール内容のブラッシュアップ
  5. メールアドレスなどの情報を配信スタンドに入力
  6. 送信

DM業務を行ったことがある方はわかると思いますが、特に大変なのが『メールアドレスなどの情報を配信スタンドに入力』する作業です。仮に1件につき30秒かかるとしますと、1,000件で500分かかる計算になります。1日の業務時間は8時間=480分です。つまり、1日かけてようやく終わるということですね。

しかしOCRを導入すれば、この時間を大幅に短縮できます。数分で1,000件をセットすることも可能です。そうなりますと7~8時間を別の業務に充てられます。

つまりこの7~8時間を『メール内容のブラッシュアップ』という、成果に大きく影響するであろうクリエイティブな業務に費やせるということ。その結果、DMの反応率を改善させられることでしょう。仮に反応率を1%から3%に向上させたとしますと、問い合わせ数は10件から30件に増加します。売り上げにつながる確率も大きく上がることでしょう。これはOCRを導入するうえで、大きなメリットと言えます。

データ化した情報をWebツールで分析できる

OCRを導入することにより、データ化した情報をWebツールで分析できるようになるのも大きなメリットです。紙媒体に記載されている数値やデータのままでは、Webツールだと分析できないからです。例えばCRM※でいえば、以下のように数多くのWeb分析ツールがあります。

※CRMとはCustomer Relationship Managementの略のこと。顧客管理や関係性の向上に役立つツールを指します。

  • Salesforce Sales Cloud
  • Microsoft Dynamics 365 Customer Service
  • HubSpot CRM
  • HRビジネスクラウド
  • Sansan
  • kintone
  • Zoho CRM

上記分析ツールを一度でも使ってみてください。分析対象はデジタル化された情報や数値のみだとわかります。オフライン世界に存在している『紙に記載されているデータや数値』は一切分析できません。Webツールが認識できないからです。

もちろん紙資料に記載されている数値をExcelに記入し、それを分析ツールにインポートとすれば可能になるケースもあります。しかしこれでは手間がかかり過ぎますよね。

しかしOCRを使えば、あっという間に各データや数値をデジタル化できます。オフライン世界にたまっているデータや数値をWebツールで迅速に分析をしたい場合は、OCRをぜひ使ってみてください。分析した結果、思わぬ発見があるかもしれません。

社外でも情報共有が容易になる

OCRを導入すれば、社外でも情報共有が容易になります。OCRでデータをデジタル化することで、ネットを通じて共有できるからです。例えば東京在住者が北海道の方に大量の書類を共有するとなると、郵送が一般的ですよね。そのため『その瞬間に多くのデータを即共有する』ことが困難です。

しかしOCRで各データ・文章・数値をデジタル化しておけば、そんなことはありません。必要情報をExcelなどに抽出、メールに添付し、送信するだけ。郵送する場合に比べて、非常に簡単に共有できます。もしも業務の都合で社員の方が全国各地に移動することが多い企業なのであれば、情報共有しやすいようにOCRを導入すべきです。現場の方々から「便利だ!」と喜ばれることでしょう。

ただし社外で情報を共有する場合は、セキュリティにご注意ください。取り扱い方次第では情報漏洩のリスクがあるからです。社外で情報を共有する場合は、管理ルールやセキュリティツールを同時導入することも強くおすすめ致します。

情報をコピペで扱えるようになる

OCRを使うメリットとして、情報をコピペできることが挙げられます。コピペすることにより、顧客の氏名などを間違えることがほぼなくなるでしょう。自分で記入することなく、原本情報をそのまま利用できるからです。

どういうことかと言いますと、まずオフラインの顧客名簿に記入された顧客に対してメールを送信するとします。そうなりますと、手動で以下の情報を記入することになります。

  • 氏名
  • メールアドレス

そのため気を付けなければ、氏名・メールアドレスを間違えるおそれがあるということ。顧客の名前を間違えてしまえば、相手を怒らせてしまい商談がつぶれてしまうかもしれません。手動入力だとこのようなリスクがあります。

しかしコピペであれば原本情報が間違っていない限り、間違えることが100%の確率でありません。氏名などの対象情報を範囲指定およびコピーし、張り付けるだけだからです。自分で入力することが一切ありません。その結果オフライン世界でありがちな、記入ミスなどといったヒューマンエラーがなくなります。記入作業が多い企業ほど、この恩恵は大きいことでしょう。

紙に復元することもできる

OCRのメリットとして、データ化した各情報をきれいな紙に復元することも可能な点が挙げられます。そもそも紙媒体の資料を使っていると、以下のようなハプニングがあるハズです。

  • 紙に含まれている不純物が原因で劣化する
  • 破れてしまう
  • 汚れが付着する
  • 濡れてしまう
  • ホコリ臭くなる
  • 湿気によりシワクチャになる
  • 虫食いが発生する
  • 天災により消失する
  • 人的ミスにより紛失する

万が一カタログやパンフレットが上記のようになってしまえば、とてもではありませんが顧客に渡せませんよね。しかしだからと言ってイチから作り直すのは骨が折れるもの。そんなときに役立つのが、OCRによりデータ化した各情報です。

キレイな紙媒体を用意し、デザインをテンプレート化しておけば、いつでもどこでも誰でも新しいカタログやパンフレットを作成可能です。データ化した情報をそれぞれ選択し、抽出し、印刷するだけで簡単に復元できます。このことによる心理的安心感は計り知れないでしょう。

「営業で常に移動をするから、資料が汚れやすいんだよな。社員が各自でいつでも復元できる環境にしたい」と考えている企業にとって、OCRはおすすめのツールです。

処理は完璧?OCRのデメリットを解説

メリットがあればデメリットもあるもの。そこでここではOCRのデメリットを解説致します。

誤認識が発生するかもしれない

OCRで読み取りを行うと、誤認識が発生するかもしれません。そもそも日本語が難しいからです。

根本的な話になりますが、OCRの文字認識では、あらかじめ文字判別のもとになる情報をデータベースに蓄積し、そのデータベース内にある情報と、読み取った情報をマッチングさせて何の文字かを判別するという特徴があります。

例えば、英語圏に限っていえば、アルファベットと数字を判別できれば十分なため、データベースの情報も複雑になりません。しかし、日本語の場合、ひらがな、カタカナに加え、常用漢字もあります。特に、漢字は画数が多く、似たような漢字もあります。人間が読めば文字の前後の文脈で判断できるような文章でも、OCRの読み取り精度には限界があり、文字認識精度は頭打ちになっていました。そんなこともあり、日本語を扱う場合は誤認識が発生するかもしれません。

■OCRによる日本語の文字認識の難しさの例
OCRによる日本語の文字認識の難しさの例

汚い文字は読み取れないかもしれない

OCRでは、汚い文字は読み取れないかもしれません。汚い文字が『何を指す文字なのか』をOCRが認識できないからです。これはOCRに限った話ではなく、人間でもよくある話ですよね。「字が汚すぎて読めない!」というイメージです。OCRは便利なツールなのですが、どのような文字にも対応できる訳ではありませんのでご注意ください。

もしもエラーが表示されましたら、汚い文字が記載されていないかを確認してみてください。該当文字を書き直せば、読み取ってくれるかもしれません。

罫線が多いと読み取れないかもしれない

罫線が多いと、OCRは読み取れないかもしれません。罫線と、罫線に似た文字を正確に読み分けられないことがあるからです。例えば罫線の『|・-』と、数字の『1・一』を正確に読み分けられないおそれがあります。

そのため表などといった罫線が多いものがスキャン対象の場合はOCRで読み取るよりも、自分で入力した方が結果的に早く終わるかもしれません。

読み取り対象物が傾いていると読み取れないかもしれない

OCRでスキャンする際に、読み取り対象物が傾いていると読み取れないかもしれません。OCRにもよりますが、傾いていることも計算して文字を認識することができないからです。例えば人間の視点であれば『1』という数字が横に90度曲がっていたとしても、『1』と認識することができます。

しかしOCRの場合ですと、人間ほどの柔軟性がないため『―』と認識するおそれがあります。このように読み取り対象物が傾いている場合は、ところどころで誤認識が発生するかもしれません。

OCRで読み取る場合は、スキャン前に書類がまっすぐになるようピシッと整えることを強くおすすめ致します。

最終的には人の校正が必要かもしれない

OCRでスキャンしたとしても、最終的には人の校正が必要かもしれません。上述しましたように、OCRは読み取り対象物・状況によって誤認識することがあるからです。校正をしない場合は、誤字だらけのデータ情報になるかもしれません。

そのためOCRを導入したばかりの頃は、校正はもちろんそのOCRが苦手な部分も同時にチェックするのがおすすめです。苦手な部分を把握し、統計データを取っていけば『Aという状況であれば読み取り率が高い。Bだと悪い』ということがわかってきます。これを繰り返すことにより、人の校正を必要としない使い方が判明します。OCRを上手く使えないときの参考にしてください。

OCRで文書をデジタル変換する手順を解説

OCRを使って紙の書類をデジタルデータ化する手順は、それほど複雑ではありません。続いて、一般的なOCRでの読み取り手順を見ていきましょう。

OCRの導入に必要なものを用意する

基本的にOCRには、端末となるパソコンに加え、スキャナーまたは専用リーダーが必要です。スキャナーや専用リーダーは多数種類がありますので、業務に合わせて最適な物を選びましょう。

また、デジタルカメラやスマートフォンのカメラで撮影した画像データも使用できるため、その場合はスキャナーや専用リーダーは不要です。

データ化する紙の帳票や文書を用意する

まずは、データ化したい紙の帳票や文書などを用意します。このとき、スキャニング時にノイズがのらないよう、ゴミが付着していないか確認しておくといいでしょう。

OCRには、できるだけ白に近い用紙に黒ではっきりと印刷された(または書かれた)文字が最適です。機械が読み取りやすい特殊なインクで印刷した専用のOCR用紙を使う場合もあります。AI-OCRの場合は認識技術が優れているため、通常の用紙やレシートでも読み取り可能です。

紙書類をスキャンして画像データにする

紙の書類をスキャンします。スキャンの設定は、文字の認識率アップのため、基本的にモノクロで行い、読み取る用紙が斜めにならないよう、注意して行いましょう。

スキャンする機器は、複合機をはじめとするスキャナーやOCRリーダー、デジタルカメラなどがあります。裏写りしてしまうと認識率が落ちるため、読み取る書類が薄い場合には裏に黒色の紙をあてたり、裏写り防止機能を持つスキャナーを使ったりすることで裏写りを軽減できます。

読み取った画像データを確認する

OCRの文字認識処理を行う前に、読み取った画像データが適切かどうかを確認し、問題があれば加工する必要があります。

例えば、斜めにスキャンしてしまっているなら、データ内の文字が水平になるように加工が必要です。また、画像が暗ければ明るさを調整したり、カラーでスキャンしてしまった画像をモノクロに変換したりするなどの加工が必要な場合もあります。文字がかすれて見えない状態であれば、再度スキャンする必要があるかもしれません。

画像データのレイアウトから文字列を指定する

読み取った画像データのどこに文字列があるか、レイアウト上で指定します。そしてその文字列を、項目単位で切り出します。

帳票など、定型書類を何回も読み取る場合には、レイアウトをテンプレート登録しておくことで、毎回レイアウト指定をする手間が省けます。ただ、見積書や請求書など、会社ごとにフォーマットが違う非定型の書類は、その都度、レイアウトを指定する必要があります。 なお、AI-OCRの中には、このような人間が手間をかけて行っていたレイアウト指定作業に、自動で対応してくれるものもあります。

OCRで文字をデジタルデータ化する

切り出した文字列を、OCRで認識処理します。OCRでは、1文字単位で文字を切り出して認識していきますが、AI-OCRの場合は文字列での認識が可能です。AIで学習しているデータをもとに読み取った文字を自動判別することもできますので、文字の認識率が高まります。

変換データを目視チェック・修正する

最後に、OCRで読み取ったデータを目視でチェックします。形状が似ている文字の誤変換がないかをすべて確認して、誤変換があればデータを手入力で修正します。AI-OCRは文字認識率が飛躍的に向上しており、活字は99.8%、手書きは98.0%という読み取り精度ですが、100%ではないため目視チェックは必要です。

導入時の参考に!OCRの選び方を解説

ここまで読むと「OCRって便利そうだな。導入してみるか」と決意した方がいるかもしれません。そんなときは導入前に、以下のOCRの選び方を必ずチェックしてください。ポイントを把握することで、自社にピッタリなOCRを選べるようになります。

読み取り対象の文字タイプ

OCRを選ぶ際は、まず読み取り対象の文字タイプを確認してください。OCRによっては手書き文字を読み取るのが苦手なこともあるからです。そもそもの話になりますが、読み取る文字は以下の2つが主です。

  • 手書き文字
  • 印刷文字

例えば領収書などといった手書き文字を読み取ることが多いのであれば、手書き文字の読み取りを得意としているOCRを選ぶのがおすすめ。少し崩れた手書き文字でも認識率が高いため、問題なく効率化を図れます。

一方で請求書やレシートなど印刷文字を読み取ることが多いのであれば、罫線や複雑な表でも正確に認識できるOCRがおすすめです。エラーの出る確率が減少することでしょう。

このように読み取り対象の文字タイプによって、選択すべきOCRは大きく変化します。OCRの導入を検討している場合は、まずどのような文字を認識させることが多くなるのかを社内でチェックしてみてください。

読み取れる数

OCRを選ぶ際は、読み取れる数を確認しましょう。製品によっては以下のように、読み取れる数・カウント条件が異なるからです。

商品名 プラン名 読み取り項目・枚数 料金
A LIGHTプラン 6,000項目 30,000円
B クラウド(SaaS)版 1,000枚 55,000円

ややこしいところですが上例でいえば、1つの書類の読み取り項目が7以上であれば、商品Bの方が多くスキャンできる計算になります。その一方で領収書など読み取り項目が少ないものをスキャンすることが多いのであれば、商品Aの方がよいかもしれません。仮に読み取り項目を5としますと、Bよりも多い1,200枚の領収書をスキャンできる計算になります。

このようにOCRによって読み取れる数は変化し、選ぶべきものも変わります。ご注意ください。

対応帳票

OCRを導入する際は、必ず対応している帳票の種類を確認してください。OCRによっては以下のように得意としている読み取り対象物が異なっているからです。

  • 定型書類全般型
  • フォーマットが決まっていない書類型
  • 請求書特化型
  • レシート特化型
  • 領収書特化型

例えば様々な帳票を読み取ることが多いのであれば『定型書類全般型』がおすすめです。多くの場面で業務を効率化してくれることでしょう。

その一方で「請求書は取引先の協力もあってペーパーレス化できたから、領収書しか読み取らないんだよな」という場合であれば、『領収書特化型』がおすすめです。領収書に特化していることもあり、読み取り精度が高いことでしょう。OCRは自社の状況や目的に応じて選んでください。

文書をデジタル化!OCRを上手に活用する方法

OCRは便利なのですが、使い方によっては上手く使いこなせないことがあります。そのような事態を回避するために、ここではOCRを使用する際の注意点を解説致します。

読み取り対象物裏面の文字透けに気を付ける

OCRを利用する際は、読み取り対象物裏面の文字透けに気を付けてください。複数の文字が1つの箇所に浮かび上がってしまうと、OCRが「それは何の文字なのか?」を正確に認識できなくなるおそれがあるからです。

もしも次のページの文字が透けてしまうのであれば、白い紙を挟んでスキャンするのがおすすめ。文字透けを防止してくれます。もちろん白い紙ということで、OCRが文字を読み取る際に悪影響を及ぼすこともありません。

画像精度を上げる

画像精度を上げてください。画像の解像度が荒いと文字がぼやけてしまい、OCRが認識できないかもしれないからです。画像精度を上げる方法としましては、以下があります。

  1. 画像を拡大させる
  2. シャープネス処理で輪郭をハッキリさせる

場合によっては『画像を拡大させる』だけでも、画像精度を上げることができるかもしれません。しかし画像を拡大させただけでは、ぼやけたままであることが多いです。そんなときはシャープネス処理を実行してみてください。輪郭をハッキリさせることで、文字を読み取れる確率が上がります。

文字のカラーと背景色を分ける

OCRの読み取り精度を上げるには、文字のカラーと背景色を分けるのがおすすめです。文字と背景が混ざるのを避けることで、OCRが認識しやすくなるからです。そのため文字色が黒なのであれば、背景色は白や灰色を設定するのがおすすめです。

ちなみに、もしも読み取り対象物の文字色が黒ではなくカラフルなのであれば、白黒印刷をしてから読み取るとよいでしょう。結果的に文字と背景が白黒の関係になりますので、認識率の向上を期待できます。

コントラストを上げる

OCRを上手に活用したいのであれば、画像のコントラストを上げてください。コントラストとは画像の明暗のこと。コントラストを上げることで、画像内の暗い部分と明るい箇所を明確に区切れます。その結果、OCRが文字を認識できる確率も向上するでしょう。画像のコントラストは、画像編集アプリを使えば簡単に実施できます。ご参考ください。

担当者は注目!OCRの活用事例を解説

ここではOCRの活用事例を解説致します。OCRを導入すべきか迷っている方は、ぜひ読んでみてください。

発注書の自動化

とある化学系メーカーは弊社のスマートOCRを導入したことで、発注書の処理をほぼ自動化できました。そのことによって得られたメリットは以下のとおりです。

  • 作業がデータの確認のみになった
  • 手動入力をする手間・時間をカットできた
  • 入力ミスの削減できた

この企業ではFAXやメールなどで、大量の発注書が届いていたとのこと。今までは人が目視によるチェックを行い、JANコードなどといったデータを自分で基幹システムに手動入力していたようです。これでは時間がかかり過ぎますよね。大量ということもあり、ヒューマンエラーが出るのも無理はありません。

しかし弊社のスマートOCRを導入したことにより状況は好転。以下のように効率化・自動化を図れました。

  1. スマートOCRで発注書をスキャン
  2. データを自動抽出
  3. 抽出情報とマスターデータとの連携を確認
  4. 各情報をCSV出力
  5. 基幹システムにデータインポート

3の『抽出情報とマスターデータとの連携を確認』だけ人のチェックが入りますが、それ以外の業務は大幅な効率化・自動化を実現できています。「発注書の処理に時間がかかり過ぎている」と悩んでいるのであれば、ぜひ弊社のスマートOCRをご検討ください。

帳票の読み取り

ある食品メーカーでは、1日に大量の発注書や注文書が届くため、人手や時間をとられていました。通常のOCRを導入しようにも、フォーマットが異なる発注書や注文書のデジタルデータ化は、スキャン後の調整作業が必要になり、手間がかかるため採用を見送るしかありません

しかし、進化したAI-OCRであれば、非定型のフォーマット帳票を読み取ることができます。スキャンしたデータの加工も簡単で、パソコンのアプリケーションを使えば、画像データのアップロードからOCRでのデータ変換、CSVデータ出力まで、一連のプロセスを自動化可能です。これにより、作業量と作業時間が大幅に削減でき、業務を効率化することができました。

請求書のデータ化

とあるメーカーは弊社のスマートOCRを取り入れたことで、多くの業務を効率化・自動化できました。その際に得られたメリットは以下のとおりです。

  • 現行の作業手順をほぼ変えず自動化できた
  • ミスが減った
  • テレワークを推進できた

この企業では営業部から請求書が送られ、その内容を手動入力していたとのこと。以前から請求書の入力を効率化したいと考えていたようなのですが、手書き運用を変更することに対する反発が強かったとのこと。そのため単に効率化するだけでなく「現行のフローを変えたくない」というのが希望条件の1つでした。

もちろん弊社のスマートOCRは手書き文字にも対応していますので、この問題を難なくクリア。以下のように多くの業務を自動化できました。

  1. 手書きで書かれた請求書をスキャン
  2. スマートOCRに自動でアップロード※
  3. データを確認
  4. CSV出力
  5. 基幹システムへインポート

※デスクトップアプリのOCR LOADERのインストールが必要です。OCR LOADERは1台のPCにアプリがインストールされていれば、ご利用頂けます。

上記のように、人による入力作業が一切ありません。そのため簡単に業務の効率化・自動化を実現できています。それだけでなく弊社のスマートOCRであれば、他システムへの連携も可能です。詳しくはお問い合わせください。

レシートの読み取り

とあるシステム系メーカーでは、OCRでレシートの自動仕分けを実現したとのこと。OCRを導入したことで得られたメリットは以下のとおり。

  • 記帳業務を大幅に効率化
  • 金額などの記入ミスを防止
  • 一定のセキュリティを担保

もともとこの企業は紙書類の取り扱いが多く、業務の効率化に悩まされていたとか。しかしOCRの導入により、入力作業を効率化できたようです。このように業務の都合上、紙書類を読み取ることが多い企業はOCRの導入を今すぐにすべきと言えます。業務の効率化・ヒューマンエラーを防げます。

名刺のデジタル化

とあるインターネット関連企業では、名刺の読み取りにOCRを導入したとのこと。そのことにより以下のメリットを享受できたようです。

  • リソースのスムーズな再活用
  • 手動入力の削減

一番のメリットは、やはり再活用のスムーズ化です。まずビジネスをしていると、ほとんどの方は非常に多くの名刺を手にするハズ。問題はここからで、オフラインだと「よし、営業をしよう。えーっと、○○企業の△△さんの名刺はどれだったかな……」と探しますよね。これでは時間がもったいないです。下手をしますと見つからないことすら考えられます。

しかしOCRで名刺を読み取ってしまえば、こんなことはありません。検索機能で即見つけられるからです。消去をしない限り、失くすことも絶対にありません。このことによる利便性の向上は計り知れないことでしょう。取引先が多い企業ほど名刺はOCRで読み取り、保管することを強くおすすめ致します。共有する際にも非常に便利です。

各申請書のデータ化

長野県塩尻市では保育園の申請受け付けにOCRを導入し、検証をしたとのこと。検証の目的は以下のとおり。

保育課業務を先行モデルとし、他課においても大量データからマッチングを図る業務や問合せ回答業務等活用の方向性を具体化し、職員が「人でなければならない業務」に注力できる環境を整備するとともに、市民の利便性向上を目指す

引用元:総務省|業務改革モデルプロジェクト事業委託団体一覧(2023年3月13日時点)

確かに申請書の読み取りなどといった『人がやらなくても良い業務は自動化する』というのは、正しい考えであると言えます。そこに注力するよりも、問い合わせ窓口の人員を補強した方が、市民の利便性が向上するからです。これは行政に限った話ではなく、民間企業にも当てはまる考え方ですよね。

このように申請書の取扱い数が多い組織ほどOCRを活用した方が良いでしょう。そうすれば、利用者の満足度を上げるうえで重要な業務にリソースを集中できます。

アンケートをデータ化

スルガ銀行では『お客様情報確認書(要するにアンケート)』の手書き回答をデータ化する際に、OCRを使用しています。OCRを導入したことにより、スルガ銀行は以下の効果を得られたと話しています。

具体的には、手書き回答が記載された「お客さま情報確認書」の月間処理件数が1,000件とすると、手作業による処理と比較して月間で420時間分、年間で5,000時間分の作業負担が軽減されました。また、こうした削減効果によって、手書き回答のデータ化に割り振る人的リソースも当初見込みの2分の1程度に抑えられています。

引用元:PR TIMES|業務の大幅な効率化より年間約5,000時間の業務負担を削減(2023年3月13日時点)

5,000時間もの負担を軽減できたのはすごいことです。1人の1か月における勤務時間を160時間としますと、約31人もの人件費を削減できたことを意味します。1人の月給を30万円としますと、930万円もの人件費をカットできたわけですね。これは非常に大きな効果と言えます。

アンケート内容のデータ化に戸惑っている企業は、今すぐにOCRを導入すべきと言えるでしょう。スルガ銀行並みに、人件費を浮かせられるかもしれません。

顧客情報のデータ化

とある金融企業では、住所や名義などといった顧客情報が記載されている口座振替用紙をOCRで読み取るようにしたとのこと。そのことにより、以下のメリットを得られました。

読み込んだOCRのデータ(AI-OCR)は、RPAを導入したシステム内で、登録済みの顧客情報データと照合が行われ、データにミスがなければ、そのまま処理システムに送られるため手作業の業務が削減された。

引用元:厚生労働省|「ホワイトカラー分野において導入が進む新技術について」(2023年3月13日時点)

もともとこの企業には、実に1万種類以上もの入力処理があったようです。そうなりますと、膨大な手間がかかります。しかしOCRを導入したことで自動化を実現。このことにより浮いた時間・人件費は計り知れないでしょう。同様の作業を抱えている企業は、OCRを導入してみてはいかがでしょうか。

健康診断情報の読み取り

総務省の支援のもと、学校健康診断における各情報をOCRで読み取る試みも行われています。資料によりますと、以下を目的として取り組んだようです。

  • データベースを構築し、疫学研究に役立てる
  • 年々蓄積される手書きの学校検診情報を効率よく収集および電子化
  • レポート出力システムと連携させ、各情報を可視化

参考資料:J-STAGE|学校健康診断情報の有効活用に向けた匿名データベース構築の取り組み(2023年3月13日時点)

学校検診となりますと、数千人規模の情報が集まります。「それだけの情報を集めるのであれば、データベース化しよう!」というのがきっかけだったようですね。そもそもオフラインで情報管理をするとなると、紛失などといった問題が発生するハズ。それだけでなく必要なときに『検索機能でスピーディーに情報を確認および収集する』ことすらできません。そのような状況を変えるために、OCRを試してみたようです。

このようにOCRは、企業だけでなく教育機関や医療施設でも活用することが可能です。生徒数や受診者数が多い場合は、ぜひOCRを取り入れてみてください。

【OCRの展望】AIによる処理でさらに加速

現時点でも有望なOCRですが、今後の展望はもっと明るくなっています。

AIによるさらなる発展が見込まれる

OCRは、AIによりさらなる発展が見込まれます。記事の冒頭でも触れましたように、AIを取り入れることで従来のOCRの欠点であった認識精度を向上させられるからです。事実、近年のOCRの目覚ましい進歩もあり、OCRソリューションの全体市場は以下のように年々増加しています。

OCRソリューションの全体市場は、2019年度実績420億円。2020年度実績491億円、対前年比116%。2021年度見込501億円、対前年比102%。 2022年度予測549億円、対前年比109%。

引用元:デロイトトーマツミック経済研究所|OCRソリューション市場動向 2022年度版(2023年3月13日時点)

過去4年間で、129億円も市場が大きくなっていますよね。この推移を見る限り、OCRの展望は明るいと言えます。それに付け加えて先ほどもチラホラ出ていましたが、以下のようにOCRを導入する行政も続々と出てきています。

定型業務処理に時間が奪われている。そこで紙の申請書・届出書の読み取りをAI- OCRで自動化する。さらに業務フローを見直しながら、システム入力をRPAで自動化 する。それにより職員の手作業による処理時間を短縮し、業務の効率化を図る。当年 度は4シナリオを作成し、次年度以降も順次対象業務を拡大する。

引用元:総務省|AI-OCRとRPAを組み合わせた業務改善(2023年3月13日時点)

記事の冒頭でも解説しましたが、日本は人口および生産年齢人口の低下が著しいです。そのような背景もあり、企業だけでなく行政でも業務の効率化が推し進められています。

文字の認識精度の向上により市場規模が年々大きくなり、行政もOCRの導入をし始めている。この2点がOCRの展望が明るい理由です。数年後には、OCRを業務にて使うことが一般的になっているかもしれません。

クラウドサービスとの連携

OCRのこれからの展望として、クラウドサービスとのさらなる連携を期待できます。まず現時点でOCRは様々なクラウドサービスとの連携が可能です。例えば弊社のスマートOCRであれば、Salesforceとの連携が可能。請求書データをSalesforceに即時反映できます。記入ミスがなくなることはもちろん、業務の自動化も図れます。それだけでなくマスターデータとも連携できますので、記入内容に応じた値を自動表示させることも可能です。

上記はあくまで一例なのですが、このようにOCRはクラウドサービスとの連携が可能になっています。そしてなにより、クラウドサービスは年々新しいものがどんどんリリースされています。つまりOCRの利便性もさらに向上する可能性があるということ。まだ見ぬクラウドサービスとも連携できるようになれば、OCRは今よりもはるかに便利な存在へとなることでしょう。

業務システムとの連携

OCRは多くの業務システムと連携可能です。上述しましたが、発注書の作成や顧客情報のデータ化などがそれに該当します。さらに具体的に言いますと、例えば東京都足立区で言えば以下のような業務システムと連携させています。

◆検証対象業務のうち、以下の6業務で合計1,436時間の削減が見込めました。
  ○特別区民税・都民税申告書データ入力業務(課税課)
  ○給与所得者異動届出書データ入力業務(課税課)
  ○公的年金等支払報告(再裁定年金)データ加工及び入力業務(課税課)
  ○口座振替データ入力業務(子ども施設入園課)
  ○児童育成手当現況届データ入力業務(親子支援課)
  ○通勤手当認定・データ入力業務(人事課)
 

引用元:足立区|AI-OCR、RPAを活用した業務自動化の検証を行いました(総務省「業務改革モデルプロジェクト」受託事業)(2023年3月13日時点)

連携させるだけでなく、業務時間を大幅に削減できたとのことです。1,436時間と言いますと、1日8時間労働とすれば179.5日分の労力に該当します。これだけの労力をOCRが代替えしているのはすごいことです。

そして業務システムもクラウドサービス同様、まだまだ発展できる要素があります。近年のテクノロジーの発展はすさまじいものがあるからです。これから登場する業務システムによっては、OCRが仕事をする上で欠かせない存在になるかもしれません。

OCRを導入する際によくあるQ&A

OCRを導入する前に担当者が感じるQ&A

一言で文字を認識してデジタルデータ化するといっても、業務で実際にOCRを使うことを考えると、気になる点が出てきます。ここでは、OCRを導入したいと考えている企業担当者が疑問に持ちそうなことを、Q&A形式でご紹介します。

Q:OCRに対応している用紙形式や帳票の種類はありますか?

従来型のOCRの場合は、読み取りに適した用紙や定型フォーマットの使用といった制約があります。AI-OCRであれば、AIが学習をして高精度な文字認識をするため、非定型フォーマットや癖のある手書き文字の読み取りも可能です(設定が必要な場合もあり)。

Q:OCRの対応言語はどの言語ですか?

日本のビジネス分野のOCRで対応している言語は、日本語と英語が多くなっています。技術的にほかの言語に対応できないわけではなく、日本語と英語以外のビジネス需要が少ないためです。

Q:OCRは、縦書きの文書を読み取れますか?

縦書き文書も読み取れます。ただし、日本語の縦書き認識はOCRの苦手な分野で、最新のAI-OCRでも、非定型のフォーマットや自由にレイアウトされた縦書き文書の読み取りは実用的ではありません。
これは、ビジネス分野で縦書きの書類があまり見られず、必要なAI学習を十分に行えないためです。

Q:OCRエンジンにはどんなものがあるの?

OCRエンジン※には、以下のものがあります。

※OCRエンジンとは、画像内に記載されている文字を認識し、コンピューターが自分で自動処理できるようにするソフトウェアを指します。

エンジン名 特徴
AI 文字列エリア認識エンジン 帳票画像のデータ化
AI文字認識エンジン 多様な文字を高精度で読み取る
AI 歪み補正エンジン 歪んだ読み取り対象を自動成形
ハイブリッド型AI-OCRエンジン 手書き・活字をAIに最適化

上表を見るとわかりますが、エンジンの特徴がそのOCRの強みに直結しています。そのため優れたOCRを導入したい場合は、搭載しているエンジンに注目してみるのも1つの手です。

ちなみに弊社のスマートOCRには、AI 文字列エリア認識エンジン・AI文字認識エンジン・AI 歪み補正エンジン・ハイブリッド型AI-OCRエンジンの4つすべてが搭載されています。「高機能のOCRを使いたい!」と考えている場合は、ぜひ一度ご相談ください。

まとめ|OCRの導入・活用で業務効率化!

OCRの仕組みや文字認識の方法、企業への導入メリットなどについてご紹介しました。IT技術の発展により、従来型のOCRからは想像もできなかったようなAI-OCRが登場し、ビジネスシーンで注目されています。
インフォディオでは、ビジネスシーンやご予算に応じたさまざまなAI-OCRソリューションをご提供しています。自社の業務改善をご検討されている方に、最適なAI-OCRソリューションをご提案いたしますので、お気軽にお問い合せください。

関連コンテンツ