【バッチファイル】画像ファイル内のテキストを抽出する【OCR】

バッチファイルで
画像ファイル内のテキストを・・・

画像ファイル内のテキスト
画像ファイル内のテキスト


抽出できます!
※OCRできます。
※精度はそこそこです。

抽出されたテキスト
抽出されたテキスト


バッチファイルから
 ・無料のOCRエンジン「tesseract-ocr」
を実行することで実現します!
※「tesseract-ocr」のインストールが必要です。

PR

tesseract-ocrのダウンロードとインストール

以下の記事の「tesseract-ocrのダウンロード」と「tesseract-ocrのインストール」をご確認ください。

PR

コード

ここでは例として
 ・デスクトップ配下の画像ファイル「sample_gazou.png」から
 ・テキストを抽出
します。
※テキストファイルを出力します。

画像ファイル「sample_gazou.png」内のテキスト
画像ファイル「sample_gazou.png」内のテキスト
@echo off

rem Tesseract OCRの実行ファイル
set tesseractOcrExe="C:\Program Files\Tesseract-OCR\tesseract.exe"
rem 画像ファイル
set imageFile=C:\Users\user\Desktop\sample_gazou.png
rem 出力ファイル名
set outputFileName=sampleOcr
rem 出力フォルダ ※末尾に「\」を付ける
set outputFolder=C:\Users\user\Desktop\output\

rem OCR実行
%tesseractOcrExe% %imageFile% %outputFolder%%outputFileName% -l jpn

rem 実行結果を確認
if %errorlevel% == 0 (
	echo 正常終了しました。戻り値:%errorlevel%
) else (
	echo 異常終了しました。戻り値:%errorlevel%
)

echo.

pause
exit

以下を指定します(4~10行目)。
※状況に応じて任意の値を指定してください。

・Tesseract OCRの実行ファイル
・画像ファイル ※今回はpngファイルを指定していますが別の形式のファイルでも大丈夫です。
・出力ファイル名
・出力フォルダ  ※末尾に「\」を付ける。

抽出するテキストが「日本語 かつ 書き」のため、オプション「-l」に「jpn」を指定します(13行目)。
※「日本語 かつ 書き」の場合は「jpn_vert」を指定します。

PR

実行結果

画像ファイル内のテキストを抽出できました。
※テキストファイルを出力できました。

実行結果①
実行結果①
実行結果②
実行結果②
実行結果③
実行結果③
PR

参考

OCRエンジン「tesseract-ocr」はHPやGoogle等により開発されました。

詳細は以下をご確認ください。

タイトルとURLをコピーしました