【バッチファイル】画像ファイル内のテキストを抽出する【OCR】

バッチファイルで
画像ファイル内のテキストを・・・

抽出できます！
※OCRできます。
※精度はそこそこです。

バッチファイルから
　・無料のOCRエンジン「tesseract-ocr」
を実行することで実現します！
※「tesseract-ocr」のインストールが必要です。

tesseract-ocrのダウンロードとインストール
コード
実行結果
参考

tesseract-ocrのダウンロードとインストール

以下の記事の「tesseract-ocrのダウンロード」と「tesseract-ocrのインストール」をご確認ください。

【VBA】画像ファイル内のテキストを抽出する【OCR】

【VBA】画像ファイル内のテキストを抽出するVBAコードです！【OCR】

コード

ここでは例として
　・デスクトップ配下の画像ファイル「sample_gazou.png」から
　・テキストを抽出
します。
※テキストファイルを出力します。

@echo off

rem Tesseract OCRの実行ファイル
set tesseractOcrExe="C:\Program Files\Tesseract-OCR\tesseract.exe"
rem 画像ファイル
set imageFile=C:\Users\user\Desktop\sample_gazou.png
rem 出力ファイル名
set outputFileName=sampleOcr
rem 出力フォルダ ※末尾に「\」を付ける
set outputFolder=C:\Users\user\Desktop\output\

rem OCR実行
%tesseractOcrExe% %imageFile% %outputFolder%%outputFileName% -l jpn

rem 実行結果を確認
if %errorlevel% == 0 (
	echo 正常終了しました。戻り値：%errorlevel%
) else (
	echo 異常終了しました。戻り値：%errorlevel%
)

echo.

pause
exit

以下を指定します(4～10行目)。
※状況に応じて任意の値を指定してください。

・Tesseract OCRの実行ファイル
・画像ファイル　※今回はpngファイルを指定していますが別の形式のファイルでも大丈夫です。
・出力ファイル名
・出力フォルダ　※末尾に「\」を付ける。

抽出するテキストが「日本語かつ横書き」のため、オプション「-l」に「jpn」を指定します(13行目)。
※「日本語かつ縦書き」の場合は「jpn_vert」を指定します。