Unter Linux PDF Dateien in PDF/A Dateien umwandeln – inkl. OCR Texterkennung

Veröffentlicht am Veröffentlicht in Linux
QNAP TS-451

Da mein Drucker zwar einen Dokumenteneinzug hat aber leider die Dokumente nicht im PDF/A Format ablegt, musste ich hier selber Hand anlegen und dies mit Hilfe eines UNIX Scriptes tun. Da ich als Ablagesystem ein NAS von QNAP nutze, dass auch Linux Befehle akzeptiert, habe ich diesen beschriebenen Weg gewählt.

#!/bin/bash
# Run OCR on a multi-page PDF file and create a new pdf with the
# extracted text in hidden layer. Requires cuneiform, hocr2pdf, gs.
# Usage: ./dwim.sh input.pdf output.pdf

set -e

input=“$1″
output=“$2″

tmpdir=“$(mktemp -d)“

# extract images of the pages (note: resolution hard-coded)
gs -SDEVICE=tiffg4 -r300x300 -sOutputFile=“$tmpdir/page-%04d.tiff“ -dNOPAUSE -dBATCH — „$input“

# OCR each page individually and convert into PDF
for page in „$tmpdir“/page-*.tiff
do
base=“${page%.tiff}“
cuneiform -f hocr -o „$base.html“ „$page“
hocr2pdf -i „$page“ -o „$base.pdf“ < „$base.html“
done

# combine the pages into one PDF
gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=“$output“ „$tmpdir“/page-*.pdf

rm -rf — „$tmpdir“

Quelle: http://superuser.com/questions/28426/how-to-extract-text-with-ocr-from-a-pdf-on-linux

Das Script wird alle 5 Minuten über einen Cronjob aufgerufen und wandelt somit alle Dateien an definierten Ordnern um.

 

 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.