2026-04-17 15:50:37 +02:00
18 changed files with 327 additions and 0 deletions
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
@@ -82,6 +82,10 @@ public class OcrAsyncRunner {
                            ocrJobDocumentRepository.save(jobDoc);
                        }
                    }
+                    case OcrStreamEvent.Preprocessing preprocessing -> {
+                        updateProgress(job, "PREPROCESSING_PAGE:" + preprocessing.pageNumber()
+                                + ":" + totalPages.get());
+                    }
                    case OcrStreamEvent.Page page -> {
                        for (OcrBlockResult block : page.blocks()) {
                            createSingleBlock(documentId, block, userId,
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrStreamEvent.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrStreamEvent.java
@@ -6,6 +6,8 @@ public sealed interface OcrStreamEvent {

    record Start(int totalPages) implements OcrStreamEvent {}

+    record Preprocessing(int pageNumber) implements OcrStreamEvent {}
+
    record Page(int pageNumber, List<OcrBlockResult> blocks) implements OcrStreamEvent {}

    record Error(int pageNumber, String message) implements OcrStreamEvent {}
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/RestClientOcrClient.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/RestClientOcrClient.java
@@ -232,6 +232,8 @@ public class RestClientOcrClient implements OcrClient, OcrHealthClient {
                switch (type) {
                    case "start" -> handler.accept(
                            new OcrStreamEvent.Start(node.path("totalPages").asInt()));
+                    case "preprocessing" -> handler.accept(
+                            new OcrStreamEvent.Preprocessing(node.path("pageNumber").asInt()));
                    case "page" -> {
                        int pageNumber = node.path("pageNumber").asInt();
                        List<OcrBlockResult> blocks = NDJSON_MAPPER.convertValue(
--- a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrAsyncRunnerTest.java
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrAsyncRunnerTest.java
@@ -230,6 +230,42 @@ class OcrAsyncRunnerTest {
        assertThat(job.getProgressMessage()).isEqualTo("DONE:0:1");
    }

+    @Test
+    void runSingleDocument_updatesProgressOnPreprocessingEvent() {
+        UUID jobId = UUID.randomUUID();
+        UUID docId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+        OcrJob job = OcrJob.builder().id(jobId).totalDocuments(1).status(OcrJobStatus.PENDING).build();
+        OcrJobDocument jobDoc = OcrJobDocument.builder().id(UUID.randomUUID())
+                .jobId(jobId).documentId(docId).status(OcrDocumentStatus.PENDING).build();
+        Document doc = Document.builder().id(docId).filePath("test.pdf")
+                .fileHash("hash").scriptType(ScriptType.TYPEWRITER).build();
+
+        when(ocrJobRepository.findById(jobId)).thenReturn(Optional.of(job));
+        when(ocrJobRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+        when(ocrJobDocumentRepository.findByJobIdAndDocumentId(jobId, docId))
+                .thenReturn(Optional.of(jobDoc));
+        when(ocrJobDocumentRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+        when(documentService.getDocumentById(docId)).thenReturn(doc);
+        when(fileService.generatePresignedUrl(any())).thenReturn("http://presigned");
+
+        List<String> progressMessages = new ArrayList<>();
+        doAnswer(inv -> {
+            Consumer<OcrStreamEvent> handler = inv.getArgument(3);
+            handler.accept(new OcrStreamEvent.Start(5));
+            handler.accept(new OcrStreamEvent.Preprocessing(1));
+            progressMessages.add(job.getProgressMessage());
+            handler.accept(new OcrStreamEvent.Page(1, List.of()));
+            handler.accept(new OcrStreamEvent.Done(0, 0));
+            return null;
+        }).when(ocrClient).streamBlocks(any(), any(), any(), any());
+
+        ocrAsyncRunner.runSingleDocument(jobId, docId, userId);
+
+        // Must have totalPages=5 from the preceding Start event, not 0
+        assertThat(progressMessages.get(0)).isEqualTo("PREPROCESSING_PAGE:1:5");
+    }
+
    @Test
    void runSingleDocument_logsStreamErrorAtWarnWithoutSettingJobFailed() {
        UUID jobId = UUID.randomUUID();
--- a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrStreamEventTest.java
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrStreamEventTest.java
@@ -37,11 +37,19 @@ class OcrStreamEventTest {
        assertThat(done.skippedPages()).isEqualTo(2);
    }

+    @Test
+    void preprocessingRecordHoldsPageNumber() {
+        var preprocessing = new OcrStreamEvent.Preprocessing(4);
+        assertThat(preprocessing.pageNumber()).isEqualTo(4);
+        assertThat(preprocessing).isInstanceOf(OcrStreamEvent.class);
+    }
+
    @Test
    void patternMatchingWorksOnSealedInterface() {
        OcrStreamEvent event = new OcrStreamEvent.Start(3);
        String result = switch (event) {
            case OcrStreamEvent.Start s -> "start:" + s.totalPages();
+            case OcrStreamEvent.Preprocessing pre -> "preprocessing:" + pre.pageNumber();
            case OcrStreamEvent.Page p -> "page:" + p.pageNumber();
            case OcrStreamEvent.Error e -> "error:" + e.pageNumber();
            case OcrStreamEvent.Done d -> "done:" + d.totalBlocks();
--- a/backend/src/test/java/org/raddatz/familienarchiv/service/RestClientOcrClientStreamTest.java
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/RestClientOcrClientStreamTest.java
@@ -83,6 +83,25 @@ class RestClientOcrClientStreamTest {
        assertThat(events).hasSize(3);
    }

+    @Test
+    void parseNdjsonStream_dispatchesPreprocessingEvent() {
+        String ndjson = """
+                {"type":"start","totalPages":3}
+                {"type":"preprocessing","pageNumber":1}
+                {"type":"page","pageNumber":1,"blocks":[]}
+                {"type":"done","totalBlocks":0,"skippedPages":0}
+                """;
+        InputStream stream = new ByteArrayInputStream(ndjson.getBytes(StandardCharsets.UTF_8));
+
+        List<OcrStreamEvent> events = new ArrayList<>();
+        RestClientOcrClient.parseNdjsonStream(stream, events::add);
+
+        assertThat(events).hasSize(4);
+        assertThat(events.get(1)).isInstanceOf(OcrStreamEvent.Preprocessing.class);
+        var preprocessing = (OcrStreamEvent.Preprocessing) events.get(1);
+        assertThat(preprocessing.pageNumber()).isEqualTo(1);
+    }
+
    @Test
    void parseNdjsonStream_ignoresUnknownEventTypes() {
        String ndjson = """
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -95,6 +95,8 @@ services:
      OCR_CONFIDENCE_THRESHOLD_KURRENT: "0.5"
      RECOGNITION_BATCH_SIZE: "16"
      DETECTOR_BATCH_SIZE: "8"
+      OCR_CLAHE_CLIP_LIMIT: "2.0"   # CLAHE contrast limit (multiplier of average histogram frequency)
+      OCR_CLAHE_TILE_SIZE: "8"      # CLAHE tile grid size (NxN tiles per page)
    networks:
      - archive-net
    healthcheck:
--- a/frontend/messages/de.json
+++ b/frontend/messages/de.json
@@ -526,6 +526,7 @@
 	"ocr_status_creating_blocks": "{count} Textblöcke erkannt — erstelle Transkription…",
 	"ocr_status_done_blocks": "{count} Blöcke erstellt",
 	"ocr_status_analyzing_page": "Seite {current} von {total} wird analysiert…",
+	"ocr_status_preprocessing_page": "Seite {current} von {total} wird aufbereitet…",
 	"ocr_status_done_skipped": "{count} Blöcke erstellt, {skipped} Seite(n) übersprungen",
 	"ocr_status_error": "OCR fehlgeschlagen",
 	"ocr_trigger_no_annotations": "Zeichnen Sie zuerst Bereiche auf dem Dokument ein.",
--- a/frontend/messages/en.json
+++ b/frontend/messages/en.json
@@ -526,6 +526,7 @@
 	"ocr_status_creating_blocks": "{count} text blocks detected — creating transcription…",
 	"ocr_status_done_blocks": "{count} blocks created",
 	"ocr_status_analyzing_page": "Analyzing page {current} of {total}…",
+	"ocr_status_preprocessing_page": "Preparing page {current} of {total}…",
 	"ocr_status_done_skipped": "{count} blocks created, {skipped} page(s) skipped",
 	"ocr_status_error": "OCR failed",
 	"ocr_trigger_no_annotations": "Draw regions on the document first.",
--- a/frontend/messages/es.json
+++ b/frontend/messages/es.json
@@ -526,6 +526,7 @@
 	"ocr_status_creating_blocks": "{count} bloques de texto detectados — creando transcripción…",
 	"ocr_status_done_blocks": "{count} bloques creados",
 	"ocr_status_analyzing_page": "Analizando página {current} de {total}…",
+	"ocr_status_preprocessing_page": "Preparando página {current} de {total}…",
 	"ocr_status_done_skipped": "{count} bloques creados, {skipped} página(s) omitida(s)",
 	"ocr_status_error": "OCR fallido",
 	"ocr_trigger_no_annotations": "Dibuje regiones en el documento primero.",
--- a/frontend/src/lib/ocr/translateOcrProgress.spec.ts
+++ b/frontend/src/lib/ocr/translateOcrProgress.spec.ts
@@ -12,6 +12,8 @@ vi.mock('$lib/paraglide/messages.js', () => ({
 			`${count} Blöcke erstellt, ${skipped} Seite(n) übersprungen`,
 		ocr_status_analyzing_page: ({ current, total }: { current: string; total: string }) =>
 			`Seite ${current} von ${total} wird analysiert…`,
+		ocr_status_preprocessing_page: ({ current, total }: { current: string; total: string }) =>
+			`Seite ${current} von ${total} wird aufbereitet…`,
 		ocr_status_error: () => 'OCR fehlgeschlagen'
 	}
 }));
@@ -68,6 +70,19 @@ describe('translateOcrProgress', () => {
 		expect(result.totalPages).toBe(5);
 	});

+	it('translates PREPROCESSING_PAGE with current and total', () => {
+		const result = translateOcrProgress('PREPROCESSING_PAGE:3:10');
+		expect(result.message).toBe('Seite 3 von 10 wird aufbereitet…');
+		expect(result.currentPage).toBe(3);
+		expect(result.totalPages).toBe(10);
+	});
+
+	it('PREPROCESSING_PAGE with no colon parts gracefully falls back to zero', () => {
+		const result = translateOcrProgress('PREPROCESSING_PAGE');
+		expect(result.currentPage).toBe(0);
+		expect(result.totalPages).toBe(0);
+	});
+
 	it('translates ERROR', () => {
 		expect(translateOcrProgress('ERROR').message).toBe('OCR fehlgeschlagen');
 	});
--- a/frontend/src/lib/ocr/translateOcrProgress.ts
+++ b/frontend/src/lib/ocr/translateOcrProgress.ts
@@ -48,6 +48,18 @@ export function translateOcrProgress(code: string): OcrProgressResult {
 				totalPages: total
 			};
 		}
+		case 'PREPROCESSING_PAGE': {
+			const current = parseInt(parts[1] ?? '0', 10);
+			const total = parseInt(parts[2] ?? '0', 10);
+			return {
+				message: m.ocr_status_preprocessing_page({
+					current: String(current),
+					total: String(total)
+				}),
+				currentPage: current,
+				totalPages: total
+			};
+		}
 		case 'ERROR':
 			return { message: m.ocr_status_error() };
 		default:
--- a/ocr-service/Dockerfile
+++ b/ocr-service/Dockerfile
@@ -3,10 +3,12 @@ FROM python:3.11.9-slim
 WORKDIR /app

 # curl for healthcheck; libgomp1 for PyTorch CPU threading; libvips for kraken PDF support
+# libglib2.0-0 is required by opencv-python-headless on Debian slim
 RUN apt-get update && apt-get install -y --no-install-recommends \
    curl \
    libgomp1 \
    libvips42 \
+    libglib2.0-0 \
    && rm -rf /var/lib/apt/lists/*

 # PyTorch CPU-only — separate layer; the whl/cpu index strips all CUDA variants (~2 GB saved)
--- a/ocr-service/main.py
+++ b/ocr-service/main.py
@@ -25,6 +25,7 @@ from confidence import apply_confidence_markers, get_threshold
 from engines import kraken as kraken_engine
 from engines import surya as surya_engine
 from models import OcrBlock, OcrRequest
+from preprocessing import preprocess_page

 TRAINING_TOKEN = os.environ.get("TRAINING_TOKEN", "")
 KRAKEN_MODEL_PATH = os.environ.get("KRAKEN_MODEL_PATH", "/app/models/german_kurrent.mlmodel")
@@ -86,6 +87,10 @@ async def run_ocr(request: OcrRequest):

    images = await _download_and_convert_pdf(request.pdfUrl)

+    for i, img in enumerate(images):
+        images[i] = await asyncio.to_thread(preprocess_page, img)
+        del img
+
    script_type = request.scriptType.upper()

    if script_type == "HANDWRITING_KURRENT":
@@ -157,6 +162,8 @@ async def run_ocr_stream(request: OcrRequest):
                    continue

                try:
+                    yield json.dumps({"type": "preprocessing", "pageNumber": page_idx}) + "\n"
+                    image = await asyncio.to_thread(preprocess_page, image)
                    blocks = []
                    for region in page_regions:
                        text = await asyncio.to_thread(
@@ -214,6 +221,8 @@ async def run_ocr_stream(request: OcrRequest):

        for page_idx, image in enumerate(images, start=1):
            try:
+                yield json.dumps({"type": "preprocessing", "pageNumber": page_idx}) + "\n"
+                image = await asyncio.to_thread(preprocess_page, image)
                blocks = await asyncio.to_thread(
                    engine.extract_page_blocks, image, page_idx, request.language
                )
--- a/ocr-service/preprocessing.py
+++ b/ocr-service/preprocessing.py
@@ -0,0 +1,50 @@
+"""Image preprocessing pipeline for aged document OCR quality improvement."""
+
+import logging
+import os
+
+import cv2
+import numpy as np
+from PIL import Image
+
+logger = logging.getLogger(__name__)
+
+CLAHE_CLIP_LIMIT = float(os.environ.get("OCR_CLAHE_CLIP_LIMIT", "2.0"))
+CLAHE_TILE_SIZE = int(os.environ.get("OCR_CLAHE_TILE_SIZE", "8"))
+
+
+def preprocess_page(image: Image.Image) -> Image.Image:
+    """Apply CLAHE + grayscale + Gaussian blur to improve OCR quality on aged documents.
+
+    Falls back silently to the original image if cv2, numpy, or memory errors occur.
+    Unexpected exceptions (programming errors) are allowed to propagate.
+    """
+    try:
+        img_array = np.array(image)
+        lab = cv2.cvtColor(img_array, cv2.COLOR_RGB2LAB)
+        del img_array
+
+        l_channel = lab[:, :, 0].copy()
+        del lab
+
+        clahe = cv2.createCLAHE(
+            clipLimit=CLAHE_CLIP_LIMIT,
+            tileGridSize=(CLAHE_TILE_SIZE, CLAHE_TILE_SIZE),
+        )
+        l_clahe = clahe.apply(l_channel)
+        del l_channel
+
+        blurred = cv2.GaussianBlur(l_clahe, (3, 3), 0)
+        del l_clahe
+
+        result = Image.fromarray(blurred, mode="L")
+        del blurred
+
+        return result
+    except (cv2.error, ValueError, MemoryError) as e:
+        logger.warning(
+            "preprocess_page failed (falling back to original): %s: %s",
+            type(e).__name__,
+            e,
+        )
+        return image
--- a/ocr-service/requirements.txt
+++ b/ocr-service/requirements.txt
@@ -8,3 +8,4 @@ pillow>=10.2.0,<11.0.0
 pypdfium2==4.30.0
 pyvips>=2.2.0
 httpx==0.28.1
+opencv-python-headless==4.11.0.86
--- a/ocr-service/test_preprocessing.py
+++ b/ocr-service/test_preprocessing.py
@@ -0,0 +1,82 @@
+"""Tests for the image preprocessing pipeline."""
+
+import numpy as np
+import pytest
+from PIL import Image
+from unittest.mock import patch
+
+
+def _make_yellowed_image(width=100, height=100):
+    """Dark, faded yellowed page: L values in a narrow low range with spatial noise.
+
+    Very dark (R≈30, G≈20, B≈10) → L_cv ≈ 80-100 in OpenCV uint8 LAB space.
+    The per-pixel noise gives each CLAHE tile a non-trivial histogram to equalize,
+    which stretches the narrow dark range toward [0-255] and reliably increases mean L.
+    """
+    rng = np.random.default_rng(42)
+    arr = np.zeros((height, width, 3), dtype=np.uint8)
+    arr[:, :, 0] = np.clip(30 + rng.integers(-8, 9, (height, width)), 0, 255)
+    arr[:, :, 1] = np.clip(20 + rng.integers(-5, 6, (height, width)), 0, 255)
+    arr[:, :, 2] = np.clip(10 + rng.integers(-3, 4, (height, width)), 0, 255)
+    return Image.fromarray(arr.astype(np.uint8), mode="RGB")
+
+
+class TestPreprocessPage:
+    def test_output_has_same_dimensions_as_input(self):
+        from preprocessing import preprocess_page
+
+        img = Image.new("RGB", (150, 200))
+        result = preprocess_page(img)
+
+        assert result.size == img.size
+
+    def test_l_channel_mean_increases_on_yellowed_image(self):
+        """CLAHE equalizes the dark narrow-range histogram toward [0-255], raising mean L."""
+        from preprocessing import preprocess_page
+        import cv2
+
+        img = _make_yellowed_image()
+
+        arr_before = np.array(img)
+        lab_before = cv2.cvtColor(arr_before, cv2.COLOR_RGB2LAB)
+        l_mean_before = float(lab_before[:, :, 0].mean())
+
+        result = preprocess_page(img)
+
+        # Output is grayscale (mode "L"); its values ARE the CLAHE-enhanced L channel
+        l_mean_after = float(np.array(result).mean())
+
+        assert l_mean_after > l_mean_before
+
+    def test_does_not_crash_on_sub_tile_size_image(self):
+        """A 1×1 image is smaller than the CLAHE tile (8×8) in both axes.
+        preprocess_page must not raise — it either succeeds or falls back silently."""
+        from preprocessing import preprocess_page
+
+        img = Image.new("RGB", (1, 1), color=(128, 100, 80))
+        result = preprocess_page(img)
+
+        assert isinstance(result, Image.Image)
+
+    def test_falls_back_to_pixel_identical_original_on_cv2_error(self):
+        """When cv2 raises a known error, preprocess_page returns the unmodified original image."""
+        from preprocessing import preprocess_page
+
+        img = Image.new("RGB", (80, 60), color=(123, 45, 67))
+        original_pixels = list(img.getdata())
+
+        with patch("preprocessing.cv2.cvtColor", side_effect=ValueError("bad input")):
+            result = preprocess_page(img)
+
+        result_pixels = list(result.getdata())
+        assert result_pixels == original_pixels
+
+    def test_unexpected_exception_propagates(self):
+        """A RuntimeError (programming error) must propagate — not be swallowed by the cv2 fallback."""
+        from preprocessing import preprocess_page
+
+        img = Image.new("RGB", (80, 60))
+
+        with patch("preprocessing.cv2.cvtColor", side_effect=RuntimeError("unexpected")):
+            with pytest.raises(RuntimeError, match="unexpected"):
+                preprocess_page(img)
--- a/ocr-service/test_stream.py
+++ b/ocr-service/test_stream.py
@@ -301,3 +301,83 @@ async def test_ocr_stream_applies_confidence_markers(mock_images):
    page = [l for l in lines if l["type"] == "page"][0]
    assert page["blocks"][0]["text"] == "Lieber [unleserlich]"
    assert "words" not in page["blocks"][0]
+
+
+# ─── Preprocessing integration ───────────────────────────────────────────────
+
+
+@pytest.mark.asyncio
+async def test_stream_emits_preprocessing_event_per_page_before_page_event(mock_images):
+    """generate() must emit a preprocessing event for each page before its page event."""
+    with patch("main._download_and_convert_pdf", new_callable=AsyncMock, return_value=mock_images), \
+         patch("main._models_ready", True), \
+         patch("main.surya_engine") as mock_surya, \
+         patch("main.preprocess_page", side_effect=lambda img: img) as mock_preprocess:
+        mock_surya.extract_page_blocks.return_value = []
+
+        async with AsyncClient(transport=ASGITransport(app=app), base_url="http://test") as client:
+            response = await client.post("/ocr/stream", json={
+                "pdfUrl": "http://minio/test.pdf",
+                "scriptType": "TYPEWRITER",
+            })
+
+    lines = [json.loads(line) for line in response.text.strip().split("\n") if line.strip()]
+    preprocessing_events = [l for l in lines if l["type"] == "preprocessing"]
+    page_events = [l for l in lines if l["type"] == "page"]
+
+    assert len(preprocessing_events) == 3
+    assert preprocessing_events[0]["pageNumber"] == 1
+    assert preprocessing_events[1]["pageNumber"] == 2
+    assert preprocessing_events[2]["pageNumber"] == 3
+
+    # Each preprocessing event must come immediately before the corresponding page event
+    for pre, page in zip(preprocessing_events, page_events):
+        assert pre["pageNumber"] == page["pageNumber"]
+
+    assert mock_preprocess.call_count == 3
+
+
+@pytest.mark.asyncio
+async def test_guided_stream_preprocesses_once_per_page_not_per_region(mock_images):
+    """generate_guided() must call preprocess_page once per page, not once per region."""
+    regions = [
+        {"pageNumber": 1, "x": 0.0, "y": 0.0, "width": 0.5, "height": 0.5, "annotationId": "a1"},
+        {"pageNumber": 1, "x": 0.5, "y": 0.0, "width": 0.5, "height": 0.5, "annotationId": "a2"},
+        {"pageNumber": 2, "x": 0.0, "y": 0.0, "width": 1.0, "height": 1.0, "annotationId": "a3"},
+    ]
+
+    with patch("main._download_and_convert_pdf", new_callable=AsyncMock, return_value=mock_images[:2]), \
+         patch("main._models_ready", True), \
+         patch("main.surya_engine") as mock_surya, \
+         patch("main.preprocess_page", side_effect=lambda img: img) as mock_preprocess:
+        mock_surya.extract_region_text.return_value = "text"
+
+        async with AsyncClient(transport=ASGITransport(app=app), base_url="http://test") as client:
+            response = await client.post("/ocr/stream", json={
+                "pdfUrl": "http://minio/test.pdf",
+                "scriptType": "TYPEWRITER",
+                "regions": regions,
+            })
+
+    assert response.status_code == 200
+    # 2 pages, each preprocessed once — not 3 (once per region)
+    assert mock_preprocess.call_count == 2
+
+
+@pytest.mark.asyncio
+async def test_ocr_endpoint_preprocesses_silently_without_emitting_events(mock_images):
+    """/ocr endpoint preprocesses each page without emitting preprocessing events."""
+    with patch("main._download_and_convert_pdf", new_callable=AsyncMock, return_value=mock_images), \
+         patch("main._models_ready", True), \
+         patch("main.surya_engine") as mock_surya, \
+         patch("main.preprocess_page", side_effect=lambda img: img) as mock_preprocess:
+        mock_surya.extract_blocks.return_value = []
+
+        async with AsyncClient(transport=ASGITransport(app=app), base_url="http://test") as client:
+            response = await client.post("/ocr", json={
+                "pdfUrl": "http://minio/test.pdf",
+                "scriptType": "TYPEWRITER",
+            })
+
+    assert response.status_code == 200
+    assert mock_preprocess.call_count == 3