画像から文字を認識・読み込める機能を「OCR」といいます。書類や画像を見ながら文字を手打ちするよりも素早く自動でテキスト化できるため、DXやペーパーレスを推進する企業から注目されています。
また、電子帳簿保存法への対応に追われる企業にとってもOCRは重要な位置づけにあるといえます。
今回は、OCRの概要やテキスト化の仕組み、現在のOCRの精度、文字認識精度を高める方法、AI OCRとは何かという点について解説します。ぜひ、ご参考にしてください。
OCRとは「Optical Character Recognition(Reader):光学文字認識」を略した言葉で、画像内にある文字を読み込みテキスト化する機能のことを指します。
例えば、書類や本などの紙文書をテキスト化しようとしたとき、1ページずつ手打ちで入力するのは時間も労力もかかります。またスキャンしたとしても、読み取った箇所は画像として取り込まれるためデータとして活用することはできません。
しかし、OCRを使用すると紙文書に書かれた文字を画像ではなく「文字データ」として取り込めます。これにより、検索もできる汎用性の高いデータとして幅広く利用できるようになるのです。
基本的にOCRの対象は印刷文字ですが、近年では手書き文字を認識できるOCRも開発されています。
なお、OCRについては下記の記事でも触れています。ぜひ、合わせてご覧ください。
![]() |
AI OCRとは?メリット・注意点・活用事例をご紹介AI OCRは、従来のOCRよりも高い精度で文字認識が可能です。大量の紙データをデジタルデータに変換したいなら、AI OCRの利用がおすすめです。本記事では、AI OCRの概要やOCRとの違い、導入メリット、注意点などをご紹介します。 |
OCRによるテキスト化は、下記の5つの流れで行われます。ステップごとに誤り率が異なるため、OCRの精度を高めるために各ステップについて把握しておくことをおすすめします。
まずは、紙書類をスキャンしたりスマートフォンやデジタルカメラで撮影したりしてPDFやJPEG、TIFFなどの画像データにし、それをOCRに読み込みます。
次に、OCRに読み込んだ画像データのレイアウトを解析します。「ここからここまでは文字」「ここは画像」「見出しや文字列がある」「罫線で文章が区切られている」「縦書き・横書きになっている」など、文字領域や画像領域をスピーディーに判断し、文章構造についても読み取りを行います。
解析した文字領域から1文字ずつ認識して画像にし、そこから何の文字なのかを特定していきます。
辞書機能と照らし合わせたり前後の文字を解析したりして認識結果を修正し、認識率の向上を計ります。
文字として認識したデータは処理され、テキストデータとして使用できるようになります。
OCRによっては、読み取った紙書類のレイアウトをPDFに書き出して再現できるものもあります。
OCRの精度について疑問視する方もいるかもしれません。というのも、以前のOCRの文字認識機能では「思った以上の成果を挙げられない」という声もちらほら聞こえていました。
期待以上の成果を求めて導入を決めた方の中にとってはがっかりする結果になったことでしょう。
しかし、OCRの精度は年々向上しています。国立国会図書館の「OCRを用いたデジタル画像の全文テキスト化実施結果報告書」によると、全20,000冊(明治期刊行図書5,000冊、大正刊行図書10,000冊、昭和戦前期刊行図書4,790冊、昭和戦後期刊行図書210冊)の文字認識率の平均認識率は91.3%でした。
区分 |
対象冊数 |
ファイル形式 |
解像度 |
階調 |
認識率 |
明治期刊行図書 |
5,000冊 |
JPEG2000 |
400dpi |
2値 |
87.7% |
大正期刊行図書 |
10,000冊 |
JPEG2000 |
350dpi |
グレイ |
88.2% |
昭和戦前期刊行図書 |
4,790冊 |
JPEG2000 |
350dpi |
グレイ |
92.7% |
昭和戦後期刊行図書 |
210冊 |
JPEG2000/JPEG |
400dpi |
カラー |
96.6% |
引用:国立国会図書館「OCRを用いたデジタル画像の全文テキスト化実施結果報告書」
書類の種類や品質、フォントサイズなどによっては精度が変わることもありますが、現在では印刷書類の文字、画像データ、手書き文字などさまざまな形式の文字の読み取り・テキスト化が可能になっています。
OCRの精度を高める方法はいくつかありますが、中でも下記の2点に注意することが大切です。
1つは「高い解像度でスキャンする」ということです。解像度を高めることで文字がくっきり見えるようになるため、OCRの精度が向上します。しかし、解像度の上げすぎはスキャンに時間がかかり、実務に支障をきたす恐れがあります。
カラー文字や網掛けテキストはOCRの認識率が下がる要因です。それらに対応できる高性能のスキャナーを使用することをおすすめします。すぐに用意が難しい場合は、データを白黒で印刷してOCRで認識しやすくするなどの工夫が必要です。
AI(Artificial Intelligence:人工知能)の技術が活用されたOCRを「AI OCR」といいますが、一般的なOCRよりもAI OCRのほうが文字認識の精度は高いといえます。というのも、OCRの文字認識の精度は初期設定が肝心になりますが、AI OCRはAIの機械学習やディープラーニング(深層学習)によって常に文字認識の精度が高まっていきます。
OCRでは誤認しやすい誤字やくせ字、はみだし字、手書き文字でもAI OCRにおいては高い処理精度が期待できるため、これからOCRを導入しようと考えているならAI OCRに注目することもおすすめします。
JBアドバンスト・テクノロジー株式会社(以下、JBAT)の「QanatUniverse ペーパーレスソリューション」は、ペーパーレスに特化したサービスです。請求書の振り分けや転記業務、アンケートの電子データ化などあらゆる紙業務に対応できる他、最先端のAI技術を搭載したAI OCR技術によっては、手書き文字でも99.2%という高い読み取り精度でデジタル化をすることが可能です。
![]() |
JBCCグループ業務センターの毎月900件の請求書処理をテレワークで実現JBCCグループ業務センターでは、取引先からの紙の請求書や、FAXでやりとりしていた納期回答書をPDF化し、様々な製品やサービスをつなぐクラウドプラットフォーム「Qanat Universe」に取り込みます。毎月900件の請求書の処理を自動化する他、手書きの納期回答書への対応も可能にしています。 |
![]() |
FAX受注業務をkintone とペーパーレスソリューションで自動化、作業時間4割削減株式会社文理様は、取引先からFAX で送られてくる注文書をOCRで読み込みデジタル化することに成功。取引先の業務を変えずにどのように受注処理を改善したのか。バックオフィス業務を取りまとめる担当者の方と情報システム課としてシステム構築に携わった担当者の方にお話を伺いました。 |
OCRの機能は日々進化しており、文字認識の精度も向上しています。もちろん書類の種類や品質などの要因によっては充分な成果を得られないこともありますが、昔に比べるとかなり改善されていますし、AI技術により精度はより高まっていくでしょう。今後の成長に期待しながら、OCRによるペーパーレス化を進めていきましょう。
ペーパーレス導入についてお悩みの方は、ぜひJBアドバンスト・テクノロジー株式会社にご相談ください。
企業のあらゆる紙業務を自動化!
やりたいことをスピーディに実現!
AICR高精度OCR
|
電子ノート書いた文字のデジタル化
|
QUスキャナー高速読み取り&PDF化
|
請求処理の電子帳簿保存法への対応、IT化出来ない過酷な環境での紙の記入業務
様々な紙の課題を解決し、お客様の時間を創出します!
是非一度お悩みや、お話をお聞かせください