WinAutomation V8でTesseract OCRを使ってみよう

WinAutomation V8ではOCRの使用が可能となりました。そこで今回はこのOCR機能のうち、Tesseract OCRの検証を行っていきます。

Tesseract OCR:Googleが開発したOCRエンジン

<作成するプロセス>

PDFファイルを読み込み、その内容をテキストファイルに書き出す

<事前準備>

日本語対応に必要なソフトをインストールします。

ダウンロードサイトURL:https://github.com/tesseract-ocr/tessdata/blob/master/jpn.traineddata

 

<WinAutomation でプロセス登録>

ダウンロード完了後、WinAutomation にて新規プロセスを登録します。

使用するプロセスは次の3つになります。各プロセスの詳細を確認してみましょう。

 

1.Create Tesseract OCR Engine

<事前準備>でダウンロードしたTesseractの日本語対応ファイルはここで使用します。

 

2.Extract Text From OCR

 

※読み込み対象の請求書ファイル(サンプル)

 

3.Write Text to File

 

実行結果(生成されたテキストファイル)

 

まとめ

実行結果からわかる通り、WinAutomationでのOCR実用はまだまだ改善の余地があるため、現状ではOCRについてはWinAutomation以外の使用を推奨します。当ブログでは随時OCRの検証を進め、お知らせしていきます。

 

請求書の受け取りはsweeepで自動化

【AI請求書処理】従来の請求書OCRでは対応できない非定型帳票や

自動会計仕訳も、sweeepなら対応可能!最短で即日導入、

面倒な設定不要。手軽に導入して請求業務を効率化。


  • Warning: Trying to access array offset on value of type bool in /www/suipumagazinjinglihuijirennotame_992/public/wp-content/themes/the-thor/template-parts/single-prevnext.php on line 87

    Warning: Trying to access array offset on value of type bool in /www/suipumagazinjinglihuijirennotame_992/public/wp-content/themes/the-thor/template-parts/single-prevnext.php on line 88

    Warning: Trying to access array offset on value of type bool in /www/suipumagazinjinglihuijirennotame_992/public/wp-content/themes/the-thor/template-parts/single-prevnext.php on line 89