例えば、名刺交換後にメールを送るとき、送信者のメールアドレスを手入力するという作業が、紙の資料しかないというケースでは、参考にしたい箇所や必要だと思われる箇所をメモパッドやオフィス系ソフトにメモしていくという作業がそれぞれ発生します。
請求書や契約書も、会社の方針によって異なるかもしれませんが、だいたい複数年会社の書棚や倉庫などに保管されているでしょう。こういったケースは、請求書や契約書を管理していた社員が退職している場合、保管場所を探すのに時間がかかってしまいます。
いずれも、作業が1回だけであればさほど苦にならないかもしれませんが、週に数回あるとしたらどうでしょうか。
政府が推進する働き方改革の方針に企業も従うようになった影響もあり、1日の労働時間に制限がかかるようになりました。1日の業務時間内で効率よく仕事を進めるためには、上記に掲げた作業にかける時間をなるべく減らす必要があります。それには、OCRというソフトウェアが役に立ちます。
今回のコラムでは、意外とあまり知られていない「OCR」について、解説していきたいと思います。
OCRとは?
OCRとは、Optical Character Recognition(光学文字認識)の頭文字を取ったもので、画像やスキャンしたPDFの中から文字を認識して抽出する技術です。分かりやすく言うと、画像や印刷物の下に光をかざして浮かび上がらせた文字を、コンピューターが拾っていくイメージ、といったところでしょうか。
OCRは、AIの中核をなす機械学習の中の「画像認識」という技術の1つです。画像認識とは、画像に写っているものが何かを認識する技術です。画像認識の際は、対象となる画像から輪郭などの特徴を抜き出した後、機械学習によって得た膨大な学習結果を突き合わせます。
OCRの技術は既に様々なアプリケーションに導入されていますが、代表的なところでは、Adobe社がリリースしているPDF編集ソフトやAdobeScan、Googleドライブなどです。
OCRでできること
コピーアンドペースト可能
OCRの最大のメリットは、なんといっても、OCR処理を施したスキャンファイル内の文字を、そのままコピーしてテキストデータとして他のファイルに貼り付けできることです。
コピペしたテキストはメールやオフィス系ソフトなどに使えます。ただし、画像の状態によっては文字を上手く認識できないこともあるため、注意が必要です。
検索
例えば、ある言葉の意味を辞書で調べたいとき、該当の頭文字から掲載ページを、書籍であれば、目次を参照して該当ページを探します。これと同じことがスキャンしただけのファイルにも言えます。該当ページを探す場合、OCRが施されていないため、1ページごとに書かれている文字を追いながら探さなければなりません。いずれも、該当ページを見つけ出すまでに時間がかかってしまいます。
OCRを施した後のファイルでは、PDFリーダーに搭載されている検索機能に該当の文言を入れると、瞬時に該当箇所を見つけ出してくれます。
別のファイル形式に変換できる
OCR処理前のスキャンファイルを別のファイル形式に置き換えようとしても、画像の状態で保存されてしまいます。そこから文字情報を抜き出すには、画像を見ながら手打ちするしかありません。
OCR処理後であれば、認識した文字を他のオフィス系ソフトにコピーアンドペーストし、不要な情報を編集できるうえ、そのまま保存可能です。
紙の保存
書籍によっては出版後から数年経つと、絶版となるケースがほとんどです。そうとは知らずに紛失したり破損したりしてしまった場合、同じものを購入しようとしてもできない可能性があります。また、印刷時にどんなに質の良い紙を使っていても、年数を経るごとに紙の質は落ちていき、湿気や害虫、変色などで徐々にボロボロになっていきます。
こうした事態などを避けるため、ここ数年で書籍の電子化が進んでいますが、電子化された書籍にOCR処理を施した後テキストデータとして抽出することで、永続的に印刷・製本可能です。
OCRを適用するときに注意したいこと
OCRをビジネスへ適用する場合は、実際に使用している紙書類の特性と業務の特性を見極め、業務のどのフローに導入するかを慎重に検討することが重要です。
例えば、経理や会計といったバックオフィス業務には、AI技術を取り込んだ「AI-OCR」(※)の導入がおすすめです。売掛金と入金の消込作業、買掛金と支払の消込作業、経費申請と領収書の照合作業など、二人でダブルチェックして精度を確保していた作業をAI-OCRに一任することで、人件費削減が期待できます。
それ以外の業務では、交通費や経費精算の際にレシートなどを写真に撮り、OCRで読み取れば、スピーディーな申請を実現します。