Webサイト制作の現場では、クライアントから提供された紙ベースの資料からページを作る…というケースもよくあります。「この間の資料を全部、クライアントが使いたいと言ってるからテキストに起こしといて」なんていわれると、正直(面倒くさい。この作業にかかる時間がなければ残業せずに済むのに…)と思うかもしれません。
最近では、スマートフォンやプリンターでスキャンしてデータとして保存しておくという方法も現れました。ただこの場合、単に画像がPDFデータになっただけ。このままではキーボードの周辺に資料を置いて入力するのと同じになってしまいます。
今回は、OCR機能付きアプリケーションについて解説していきます。
画像やPDFからテキストを抽出するならOCR機能!
多くの企業は、自社の宣伝や広報活動をスムーズに行うためにパンフレットを用意しています。クライアントが企業で、社内にそういったことを手掛ける部署があればデータで保管しているので、クライアントにお願いしてデータを送っていただくことは可能でしょう。
しかし(というべきか、もちろんというべきか)、データの種別によっては受け取る側に閲覧可能なアプリケーションがないこともあるし、そもそもデータがすんなりともらえるとも限りません。もらえたとしても、画像データだった場合、そこからテキストを抽出する作業というのが発生します。
そういったときに活躍するのが、OCR機能が内蔵されているアプリケーションです。
OCR機能を備えているおすすめアプリケーションの使用方法
OCR(光学的文字認識)とは、例えていうなら、「画像を下から光で照らして(上からではなく)文字を浮き立たせるイメージ」とお考えください。そこで浮き上がってきた文字を、画像のとおりに拾ってくれるかどうかは、文章がきちんと真横(横書きの文書)または真下(縦書きの文書)に並んでいるか、背景に色がついていないかなどの条件で変わります。また、画像そのものが不明瞭であれば、当然識字率は下がります(文字化けなど)。
この機能を備えているのが、以下の3つのアプリケーションです。場合によっては、1回で理想的な文字認識データを得られないこともあるので、認識できなかった部分をキャプチャして、他の方法を試すこともできます。
Adobe Scanを使う方法
Adobe Scanは、アドビシステムズ株式会社(Adobe)が開発した、OCR機能に特化したアプリケーションです。スマートフォンやタブレットに搭載されているカメラ機能を使い、撮影した画像データから文字を認識します。
1. スマートフォンやタブレットで「Adobe Scan」を開く。
2. 対象となるものを読み込ませる(なお自動でテキスト部分を認識し撮影してくれる)。
3. 終わったら不要な部分を切り取るなどの編集作業をして保存。
※保存先は「Document Cloud」で、今までアドビシステムズ株式会社がリリースしている商品を使ったことがなく、Adobe Scanを使う場合アドビユーザーの登録が必要です。
なお、予め撮影した画像データをAdobe Scan内に取り込み、テキストを抽出することもできます。
Acrobatで開いたPDFにOCR処理をかける方法
Acrobatは、アドビシステムズ株式会社(Adobe)が開発したPDF編集アプリケーションです。現在は「Adobe DC」という名前でリリースされています。ちなみに、「DC」の前に「Reader」とついているアプリケーションはPDF閲覧用で、ダイレクトにPDF内の文章や画像を編集することはできません。
1. スキャンデータであればそれを開く。画像であれば、一度PDF変換してから開く。
2. 「スキャン補正」を選択
3. 「テキスト認識」→「このファイル内」を選択
4. 「OCRを適用するページ」→全ページなのか、1ページのみなのか、選択したページのみなのかを選択→「OK」
※OCR処理後のPDFは、特にOfficeソフトに変換されるわけではなく、単にPDF内のテキストが全て検索可能なテキストに置き換わっただけのこと。ドキュメントにテキストを起こす際は、コピペでOfficeソフトに貼り付ける必要があります。
Googleドライブを使う方法
意外かもしれませんが、Googleドライブにはクラウド上にデータを保存したり共有したりするだけでなく、画像内にあるテキストを抽出してくれます。
1. 画像をGoogleドライブにアップロードする
2. アップロード後の画像の上で右クリック→アプリで開く→Google ドキュメントを選択
3. 別タブでドキュメントファイルが開き、画像の下にOCR後のテキストが表示されるので、それをコピペ。
OCR機能付きアプリケーションで、快適な業務効率化を!
OCR機能付きアプリケーションを積極的に活用することで、業務効率化やコスト削減が期待できます。最近では、これと似たようなものに、機械学習やディープラーニングといったAI(人工知能)関連技術を取り入れた「AI-OCR」も登場。最初の文字認識精度が低くても、利用するごとにAI(人工知能)が学習し、精度が上がっていくのが特徴です。ただし、いずれも完璧とは言えません。必ず人の目でチェックして、間違いがあれば修正する必要があります。
紙文書を電子データにしておこうという動きが活発化している今、利用上のメリット・デメリットをふまえたうえで、業務効率化向上ツールとしてOCR機能付きアプリケーションを取り入れてみてはいかがでしょうか。