From ec32d225b59b369124ae67a81842b55d24581906 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 15:07:46 +0200
Subject: [PATCH 01/74] docs(adr): add ADR-001 (OCR microservice) and ADR-002
 (polygon JSONB)

ADR-001 documents the decision to use a separate Python container for
OCR (Surya + Kraken), the interface contract, and why alternatives
like Tess4J were rejected.

ADR-002 documents the decision to store polygon annotations as JSONB
with a 4-point CHECK constraint, backed by an AttributeConverter.

Refs #226, #227

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 docs/adr/001-ocr-python-microservice.md | 84 +++++++++++++++++++++++++
 docs/adr/002-polygon-jsonb-storage.md   | 52 +++++++++++++++
 2 files changed, 136 insertions(+)
 create mode 100644 docs/adr/001-ocr-python-microservice.md
 create mode 100644 docs/adr/002-polygon-jsonb-storage.md

diff --git a/docs/adr/001-ocr-python-microservice.md b/docs/adr/001-ocr-python-microservice.md
new file mode 100644
index 00000000..869ff950
--- /dev/null
+++ b/docs/adr/001-ocr-python-microservice.md
@@ -0,0 +1,84 @@
+# ADR-001: OCR Python Microservice
+
+## Status
+
+Accepted
+
+## Context
+
+The Familienarchiv needs OCR capability to pre-populate transcription blocks from scanned documents. Two OCR engines are required:
+
+- **Surya** — transformer-based, handles typewritten and modern Latin handwriting
+- **Kraken** — historical HTR model support, required for pre-1941 German Kurrent/Suetterlin scripts
+
+Both engines exist exclusively in the Python ecosystem. There are no production-quality Java bindings for either engine. Tess4J (Tesseract for Java) was considered but rejected: Tesseract has poor accuracy on degraded historical handwriting and no HTR-United model support.
+
+The server has no GPU. CPU-only inference is the target (16-32 GB system RAM).
+
+## Decision
+
+Introduce a separate Python container (`ocr-service`) that exposes a simple HTTP API. Spring Boot calls this service via `RestClient`. The Python service is stateless — all job tracking and business logic remain in Spring Boot.
+
+**Interface contract:**
+
+Request:
+```json
+{
+  "pdfUrl": "http://minio:9000/archive-documents/abc.pdf?presigned...",
+  "scriptType": "HANDWRITING_KURRENT",
+  "language": "de"
+}
+```
+
+Response:
+```json
+[
+  {
+    "pageNumber": 0,
+    "x": 0.12, "y": 0.08, "width": 0.76, "height": 0.04,
+    "polygon": [[0.12,0.08],[0.88,0.09],[0.87,0.12],[0.13,0.11]],
+    "text": "Sehr geehrter Herr ..."
+  }
+]
+```
+
+Coordinates are normalized (0-1) relative to page dimensions.
+
+**Java-side integration:**
+
+- `OcrClient` interface with `extractBlocks()` method — mockable for unit tests
+- `OcrHealthClient` interface with `isHealthy()` — separate concern from block extraction
+- `RestClientOcrClient` implements both interfaces
+- `OcrService` orchestrates: presigned URL generation, OCR call, block mapping, TranscriptionService delegation
+
+**Docker networking:**
+
+- `ocr-service` is on the internal Docker network only — no host port mapping
+- Spring Boot reaches it via `http://ocr-service:8000`
+- Health check with `start_period: 60s` to account for model loading (~30-60s on CPU)
+
+## Alternatives Considered
+
+| Alternative | Why rejected |
+|---|---|
+| Tess4J (Tesseract in Java) | No HTR-United model support; poor Kurrent accuracy |
+| Calling Python via ProcessBuilder | Fragile, no health checks, model reloading on every call |
+| Embedding Python via GraalVM | Experimental, complex dependency management for ML libraries |
+| External SaaS OCR (Google Vision, AWS Textract) | Data sovereignty concern for private family documents; no Kurrent support |
+
+## Consequences
+
+**Easier:**
+- Each engine is used via its native Python API — no bridging complexity
+- OCR service can be updated independently of the main application
+- Models can be swapped via volume mount without code changes
+
+**Harder:**
+- One additional container to operate (memory, health checks, restarts)
+- Integration tests require WireMock stub — real OCR service is too slow for CI
+- Presigned URL TTL must be managed (15-30 min recommended)
+
+## Future Direction
+
+- LISTEN/NOTIFY from PostgreSQL to push progress events when scaling to multiple instances
+- GPU acceleration if the server is upgraded — only the Docker image needs to change
diff --git a/docs/adr/002-polygon-jsonb-storage.md b/docs/adr/002-polygon-jsonb-storage.md
new file mode 100644
index 00000000..6383759c
--- /dev/null
+++ b/docs/adr/002-polygon-jsonb-storage.md
@@ -0,0 +1,52 @@
+# ADR-002: Polygon JSONB Storage for Annotations
+
+## Status
+
+Accepted
+
+## Context
+
+Document annotations currently store axis-aligned bounding boxes (`x, y, width, height`). Kraken OCR outputs polygon boundaries for text lines — historical handwriting (Kurrent, Suetterlin) produces rotated and curved text that axis-aligned rectangles approximate poorly.
+
+We need to store an optional quadrilateral (4 corner points) per annotation to represent the precise text region. The polygon is display-only — overlap detection and all server-side geometry logic continues to use the AABB fields.
+
+## Decision
+
+Add a `polygon JSONB` column to `document_annotations`:
+
+```sql
+ALTER TABLE document_annotations ADD COLUMN polygon JSONB;
+ALTER TABLE document_annotations
+ADD CONSTRAINT chk_annotation_polygon_quad
+    CHECK (polygon IS NULL OR jsonb_array_length(polygon) = 4);
+```
+
+- `null` means rectangle — render using existing `x, y, width, height` fields (fully backward compatible)
+- Non-null value is a normalized 4-point quadrilateral: `[[x1,y1],[x2,y2],[x3,y3],[x4,y4]]` with coordinates in the 0-1 range relative to page dimensions
+
+The existing AABB fields are always populated (even when a polygon is present) and remain the authoritative geometry for overlap detection.
+
+**Java entity:** `List<List<Double>> polygon` backed by a custom `AttributeConverter<List<List<Double>>, String>`. No new dependency (Hypersistence Utils is not in the project and won't be added for a single column).
+
+**Semantic invariant:** `polygon`, if present, is a 4-point quadrilateral with coordinates normalized to [0, 1] relative to page dimensions. It may originate from OCR engine output (Kraken) or from a future manual drawing tool. The AABB fields remain the geometry source of truth for server-side logic.
+
+## Alternatives Considered
+
+| Alternative | Why rejected |
+|---|---|
+| 8 `NUMERIC(8,6)` columns (x1,y1,...,x4,y4) | Verbose, no structural enforcement, awkward to query or extend |
+| Separate `annotation_polygons` join table | Unnecessary complexity for a 1:1 optional relationship |
+| PostGIS geometry column | Adds a heavyweight extension for a display-only field with no spatial queries |
+| `String polygon` on the entity | Requires manual parsing at every callsite; error-prone |
+
+## Consequences
+
+**Easier:**
+- Backward compatible — all existing annotations continue to work unchanged
+- Frontend renders `<polygon>` or `<rect>` based on a simple null check
+- Schema can accommodate N-point polygons in the future (JSONB is flexible), though the CHECK constraint currently enforces exactly 4
+
+**Harder:**
+- Cannot express range checks (`0 <= x <= 1`) as database constraints without a PL/pgSQL function — validated at the DTO layer instead
+- No server-side geometry queries on polygon coordinates (acceptable — polygon is display-only)
+- AttributeConverter adds a small amount of serialization code to maintain
-- 
2.49.1


From 878a90a86dda00e5f30dfc43df9db7944b4c2926 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 15:10:35 +0200
Subject: [PATCH 02/74] feat(annotations): add polygon JSONB support for
 quadrilateral shapes

- V23 migration adds polygon JSONB column with 4-point CHECK constraint
- PolygonConverter: AttributeConverter for List<List<Double>> <-> JSONB
- @UniquePoints custom validator rejects duplicate coordinates
- CreateAnnotationDTO: validated optional polygon field
- DocumentAnnotation entity: polygon field with converter

Refs #227

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../dto/CreateAnnotationDTO.java              |  21 +++
 .../familienarchiv/dto/UniquePoints.java      |  16 +++
 .../dto/UniquePointsValidator.java            |  16 +++
 .../model/DocumentAnnotation.java             |   5 +
 .../model/PolygonConverter.java               |  36 +++++
 .../V23__add_polygon_to_annotations.sql       |   8 ++
 .../dto/UniquePointsValidatorTest.java        | 124 ++++++++++++++++++
 .../model/PolygonConverterTest.java           |  65 +++++++++
 8 files changed, 291 insertions(+)
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/dto/UniquePoints.java
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/dto/UniquePointsValidator.java
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/model/PolygonConverter.java
 create mode 100644 backend/src/main/resources/db/migration/V23__add_polygon_to_annotations.sql
 create mode 100644 backend/src/test/java/org/raddatz/familienarchiv/dto/UniquePointsValidatorTest.java
 create mode 100644 backend/src/test/java/org/raddatz/familienarchiv/model/PolygonConverterTest.java

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/dto/CreateAnnotationDTO.java b/backend/src/main/java/org/raddatz/familienarchiv/dto/CreateAnnotationDTO.java
index db81687f..846d9321 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/dto/CreateAnnotationDTO.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/dto/CreateAnnotationDTO.java
@@ -1,9 +1,15 @@
 package org.raddatz.familienarchiv.dto;
 
+import jakarta.validation.Valid;
+import jakarta.validation.constraints.DecimalMax;
+import jakarta.validation.constraints.DecimalMin;
+import jakarta.validation.constraints.Size;
 import lombok.AllArgsConstructor;
 import lombok.Data;
 import lombok.NoArgsConstructor;
 
+import java.util.List;
+
 @Data
 @NoArgsConstructor
 @AllArgsConstructor
@@ -14,4 +20,19 @@ public class CreateAnnotationDTO {
     private double width;
     private double height;
     private String color;
+
+    @Size(min = 4, max = 4, message = "polygon must have exactly 4 points")
+    @UniquePoints
+    @Valid
+    private List<@Size(min = 2, max = 2, message = "each point must have exactly 2 coordinates")
+                 List<@DecimalMin("0.0") @DecimalMax("1.0") Double>> polygon;
+
+    public CreateAnnotationDTO(int pageNumber, double x, double y, double width, double height, String color) {
+        this.pageNumber = pageNumber;
+        this.x = x;
+        this.y = y;
+        this.width = width;
+        this.height = height;
+        this.color = color;
+    }
 }
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/dto/UniquePoints.java b/backend/src/main/java/org/raddatz/familienarchiv/dto/UniquePoints.java
new file mode 100644
index 00000000..6e954094
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/dto/UniquePoints.java
@@ -0,0 +1,16 @@
+package org.raddatz.familienarchiv.dto;
+
+import jakarta.validation.Constraint;
+import jakarta.validation.Payload;
+
+import java.lang.annotation.*;
+
+@Documented
+@Constraint(validatedBy = UniquePointsValidator.class)
+@Target({ElementType.FIELD})
+@Retention(RetentionPolicy.RUNTIME)
+public @interface UniquePoints {
+    String message() default "polygon must contain 4 unique points";
+    Class<?>[] groups() default {};
+    Class<? extends Payload>[] payload() default {};
+}
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/dto/UniquePointsValidator.java b/backend/src/main/java/org/raddatz/familienarchiv/dto/UniquePointsValidator.java
new file mode 100644
index 00000000..eac16820
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/dto/UniquePointsValidator.java
@@ -0,0 +1,16 @@
+package org.raddatz.familienarchiv.dto;
+
+import jakarta.validation.ConstraintValidator;
+import jakarta.validation.ConstraintValidatorContext;
+
+import java.util.HashSet;
+import java.util.List;
+
+public class UniquePointsValidator implements ConstraintValidator<UniquePoints, List<List<Double>>> {
+
+    @Override
+    public boolean isValid(List<List<Double>> polygon, ConstraintValidatorContext context) {
+        if (polygon == null) return true;
+        return new HashSet<>(polygon).size() == polygon.size();
+    }
+}
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/model/DocumentAnnotation.java b/backend/src/main/java/org/raddatz/familienarchiv/model/DocumentAnnotation.java
index 281f88a2..d4e02258 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/model/DocumentAnnotation.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/model/DocumentAnnotation.java
@@ -6,6 +6,7 @@ import lombok.*;
 import org.hibernate.annotations.CreationTimestamp;
 
 import java.time.LocalDateTime;
+import java.util.List;
 import java.util.UUID;
 
 @Entity
@@ -52,6 +53,10 @@ public class DocumentAnnotation {
     @Column(name = "file_hash", length = 64)
     private String fileHash;
 
+    @Column(columnDefinition = "jsonb")
+    @Convert(converter = PolygonConverter.class)
+    private List<List<Double>> polygon;
+
     @Column(name = "created_by")
     private UUID createdBy;
 
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/model/PolygonConverter.java b/backend/src/main/java/org/raddatz/familienarchiv/model/PolygonConverter.java
new file mode 100644
index 00000000..28362e8f
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/model/PolygonConverter.java
@@ -0,0 +1,36 @@
+package org.raddatz.familienarchiv.model;
+
+import com.fasterxml.jackson.core.JsonProcessingException;
+import com.fasterxml.jackson.core.type.TypeReference;
+import com.fasterxml.jackson.databind.ObjectMapper;
+import jakarta.persistence.AttributeConverter;
+import jakarta.persistence.Converter;
+
+import java.util.List;
+
+@Converter
+public class PolygonConverter implements AttributeConverter<List<List<Double>>, String> {
+
+    private static final ObjectMapper MAPPER = new ObjectMapper();
+    private static final TypeReference<List<List<Double>>> TYPE_REF = new TypeReference<>() {};
+
+    @Override
+    public String convertToDatabaseColumn(List<List<Double>> polygon) {
+        if (polygon == null) return null;
+        try {
+            return MAPPER.writeValueAsString(polygon);
+        } catch (JsonProcessingException e) {
+            throw new IllegalArgumentException("Failed to serialize polygon", e);
+        }
+    }
+
+    @Override
+    public List<List<Double>> convertToEntityAttribute(String json) {
+        if (json == null || json.isEmpty()) return null;
+        try {
+            return MAPPER.readValue(json, TYPE_REF);
+        } catch (JsonProcessingException e) {
+            throw new IllegalArgumentException("Failed to deserialize polygon", e);
+        }
+    }
+}
diff --git a/backend/src/main/resources/db/migration/V23__add_polygon_to_annotations.sql b/backend/src/main/resources/db/migration/V23__add_polygon_to_annotations.sql
new file mode 100644
index 00000000..74a4d246
--- /dev/null
+++ b/backend/src/main/resources/db/migration/V23__add_polygon_to_annotations.sql
@@ -0,0 +1,8 @@
+-- Add optional polygon field for quadrilateral annotation shapes (Kraken OCR output).
+-- See ADR-002 for the design decision.
+
+ALTER TABLE document_annotations ADD COLUMN polygon JSONB;
+
+ALTER TABLE document_annotations
+ADD CONSTRAINT chk_annotation_polygon_quad
+    CHECK (polygon IS NULL OR jsonb_array_length(polygon) = 4);
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/dto/UniquePointsValidatorTest.java b/backend/src/test/java/org/raddatz/familienarchiv/dto/UniquePointsValidatorTest.java
new file mode 100644
index 00000000..be2690c4
--- /dev/null
+++ b/backend/src/test/java/org/raddatz/familienarchiv/dto/UniquePointsValidatorTest.java
@@ -0,0 +1,124 @@
+package org.raddatz.familienarchiv.dto;
+
+import jakarta.validation.ConstraintViolation;
+import jakarta.validation.Validation;
+import jakarta.validation.Validator;
+import org.junit.jupiter.api.Test;
+
+import java.util.List;
+import java.util.Set;
+
+import static org.assertj.core.api.Assertions.assertThat;
+
+class UniquePointsValidatorTest {
+
+    private final Validator validator = Validation.buildDefaultValidatorFactory().getValidator();
+
+    @Test
+    void shouldAcceptNull() {
+        var dto = new CreateAnnotationDTO();
+        dto.setPolygon(null);
+
+        Set<ConstraintViolation<CreateAnnotationDTO>> violations = validator.validate(dto);
+
+        assertThat(violations).noneMatch(v -> v.getPropertyPath().toString().equals("polygon"));
+    }
+
+    @Test
+    void shouldAcceptFourUniquePoints() {
+        var dto = new CreateAnnotationDTO();
+        dto.setPolygon(List.of(
+                List.of(0.1, 0.1),
+                List.of(0.9, 0.1),
+                List.of(0.9, 0.9),
+                List.of(0.1, 0.9)));
+
+        Set<ConstraintViolation<CreateAnnotationDTO>> violations = validator.validate(dto);
+
+        assertThat(violations).noneMatch(v -> v.getPropertyPath().toString().equals("polygon"));
+    }
+
+    @Test
+    void shouldRejectDuplicatePoints() {
+        var dto = new CreateAnnotationDTO();
+        dto.setPolygon(List.of(
+                List.of(0.1, 0.1),
+                List.of(0.1, 0.1),
+                List.of(0.9, 0.9),
+                List.of(0.1, 0.9)));
+
+        Set<ConstraintViolation<CreateAnnotationDTO>> violations = validator.validate(dto);
+
+        assertThat(violations).anyMatch(v -> v.getPropertyPath().toString().equals("polygon"));
+    }
+
+    @Test
+    void shouldRejectPolygonWithThreePoints() {
+        var dto = new CreateAnnotationDTO();
+        dto.setPolygon(List.of(
+                List.of(0.1, 0.1),
+                List.of(0.9, 0.1),
+                List.of(0.9, 0.9)));
+
+        Set<ConstraintViolation<CreateAnnotationDTO>> violations = validator.validate(dto);
+
+        assertThat(violations).anyMatch(v -> v.getPropertyPath().toString().equals("polygon"));
+    }
+
+    @Test
+    void shouldRejectPolygonWithFivePoints() {
+        var dto = new CreateAnnotationDTO();
+        dto.setPolygon(List.of(
+                List.of(0.1, 0.1),
+                List.of(0.5, 0.1),
+                List.of(0.9, 0.1),
+                List.of(0.9, 0.9),
+                List.of(0.1, 0.9)));
+
+        Set<ConstraintViolation<CreateAnnotationDTO>> violations = validator.validate(dto);
+
+        assertThat(violations).anyMatch(v -> v.getPropertyPath().toString().equals("polygon"));
+    }
+
+    @Test
+    void shouldRejectCoordinateOutOfRange() {
+        var dto = new CreateAnnotationDTO();
+        dto.setPolygon(List.of(
+                List.of(1.5, 0.1),
+                List.of(0.9, 0.1),
+                List.of(0.9, 0.9),
+                List.of(0.1, 0.9)));
+
+        Set<ConstraintViolation<CreateAnnotationDTO>> violations = validator.validate(dto);
+
+        assertThat(violations).anyMatch(v -> v.getPropertyPath().toString().contains("polygon"));
+    }
+
+    @Test
+    void shouldRejectNegativeCoordinate() {
+        var dto = new CreateAnnotationDTO();
+        dto.setPolygon(List.of(
+                List.of(-0.1, 0.1),
+                List.of(0.9, 0.1),
+                List.of(0.9, 0.9),
+                List.of(0.1, 0.9)));
+
+        Set<ConstraintViolation<CreateAnnotationDTO>> violations = validator.validate(dto);
+
+        assertThat(violations).anyMatch(v -> v.getPropertyPath().toString().contains("polygon"));
+    }
+
+    @Test
+    void shouldRejectPointWithOneCoordinate() {
+        var dto = new CreateAnnotationDTO();
+        dto.setPolygon(List.of(
+                List.of(0.1),
+                List.of(0.9, 0.1),
+                List.of(0.9, 0.9),
+                List.of(0.1, 0.9)));
+
+        Set<ConstraintViolation<CreateAnnotationDTO>> violations = validator.validate(dto);
+
+        assertThat(violations).anyMatch(v -> v.getPropertyPath().toString().contains("polygon"));
+    }
+}
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/model/PolygonConverterTest.java b/backend/src/test/java/org/raddatz/familienarchiv/model/PolygonConverterTest.java
new file mode 100644
index 00000000..916cfa2f
--- /dev/null
+++ b/backend/src/test/java/org/raddatz/familienarchiv/model/PolygonConverterTest.java
@@ -0,0 +1,65 @@
+package org.raddatz.familienarchiv.model;
+
+import org.junit.jupiter.api.Test;
+
+import java.util.List;
+
+import static org.assertj.core.api.Assertions.assertThat;
+
+class PolygonConverterTest {
+
+    private final PolygonConverter converter = new PolygonConverter();
+
+    @Test
+    void convertToDatabaseColumn_returnsNull_whenPolygonIsNull() {
+        assertThat(converter.convertToDatabaseColumn(null)).isNull();
+    }
+
+    @Test
+    void convertToDatabaseColumn_returnsJsonArray_whenPolygonIsValid() {
+        List<List<Double>> polygon = List.of(
+                List.of(0.1, 0.2),
+                List.of(0.9, 0.2),
+                List.of(0.9, 0.8),
+                List.of(0.1, 0.8));
+
+        String json = converter.convertToDatabaseColumn(polygon);
+
+        assertThat(json).isEqualTo("[[0.1,0.2],[0.9,0.2],[0.9,0.8],[0.1,0.8]]");
+    }
+
+    @Test
+    void convertToEntityAttribute_returnsNull_whenJsonIsNull() {
+        assertThat(converter.convertToEntityAttribute(null)).isNull();
+    }
+
+    @Test
+    void convertToEntityAttribute_returnsNull_whenJsonIsEmpty() {
+        assertThat(converter.convertToEntityAttribute("")).isNull();
+    }
+
+    @Test
+    void convertToEntityAttribute_returnsPolygon_whenJsonIsValid() {
+        String json = "[[0.1,0.2],[0.9,0.2],[0.9,0.8],[0.1,0.8]]";
+
+        List<List<Double>> polygon = converter.convertToEntityAttribute(json);
+
+        assertThat(polygon).hasSize(4);
+        assertThat(polygon.get(0)).containsExactly(0.1, 0.2);
+        assertThat(polygon.get(3)).containsExactly(0.1, 0.8);
+    }
+
+    @Test
+    void roundTrip_preservesValues() {
+        List<List<Double>> original = List.of(
+                List.of(0.12, 0.08),
+                List.of(0.88, 0.09),
+                List.of(0.87, 0.14),
+                List.of(0.11, 0.13));
+
+        String json = converter.convertToDatabaseColumn(original);
+        List<List<Double>> restored = converter.convertToEntityAttribute(json);
+
+        assertThat(restored).isEqualTo(original);
+    }
+}
-- 
2.49.1


From c19c41f8122c6962fad40c03270978ed46f30559 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 15:12:11 +0200
Subject: [PATCH 03/74] feat(annotations): add createOcrAnnotation that skips
 overlap check

OCR creates many adjacent text line annotations that would fail the
existing overlap check. createOcrAnnotation() accepts an optional
polygon and bypasses overlap detection entirely.

Refs #227

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../service/AnnotationService.java            | 20 ++++++++
 .../service/AnnotationServiceTest.java        | 49 +++++++++++++++++++
 2 files changed, 69 insertions(+)

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/AnnotationService.java b/backend/src/main/java/org/raddatz/familienarchiv/service/AnnotationService.java
index f52c70b0..6735ef31 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/AnnotationService.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/AnnotationService.java
@@ -48,6 +48,26 @@ public class AnnotationService {
         return annotationRepository.save(annotation);
     }
 
+    @Transactional
+    public DocumentAnnotation createOcrAnnotation(UUID documentId, CreateAnnotationDTO dto,
+                                                   UUID userId, String fileHash,
+                                                   List<List<Double>> polygon) {
+        DocumentAnnotation annotation = DocumentAnnotation.builder()
+                .documentId(documentId)
+                .pageNumber(dto.getPageNumber())
+                .x(dto.getX())
+                .y(dto.getY())
+                .width(dto.getWidth())
+                .height(dto.getHeight())
+                .color(dto.getColor())
+                .fileHash(fileHash)
+                .createdBy(userId)
+                .polygon(polygon)
+                .build();
+
+        return annotationRepository.save(annotation);
+    }
+
     @Transactional
     public void deleteAnnotation(UUID documentId, UUID annotationId, UUID userId) {
         DocumentAnnotation annotation = annotationRepository
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/AnnotationServiceTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/AnnotationServiceTest.java
index 2605cfb1..37652179 100644
--- a/backend/src/test/java/org/raddatz/familienarchiv/service/AnnotationServiceTest.java
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/AnnotationServiceTest.java
@@ -260,6 +260,55 @@ class AnnotationServiceTest {
         verify(annotationRepository).save(any());
     }
 
+    // ─── createOcrAnnotation ──────────────────────────────────────────────────
+
+    @Test
+    void createOcrAnnotation_skipsOverlapCheck_andSavesWithPolygon() {
+        UUID docId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+        CreateAnnotationDTO dto = new CreateAnnotationDTO(1, 0.1, 0.1, 0.8, 0.04, "#00C7B1");
+        List<List<Double>> polygon = List.of(
+                List.of(0.1, 0.1), List.of(0.9, 0.11),
+                List.of(0.89, 0.14), List.of(0.11, 0.13));
+        when(annotationRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+
+        DocumentAnnotation result = annotationService.createOcrAnnotation(
+                docId, dto, userId, "filehash", polygon);
+
+        assertThat(result.getPolygon()).isEqualTo(polygon);
+        assertThat(result.getDocumentId()).isEqualTo(docId);
+        verify(annotationRepository).save(any());
+        verify(annotationRepository, never()).findByDocumentIdAndPageNumber(any(), any(int.class));
+    }
+
+    @Test
+    void createOcrAnnotation_savesWithNullPolygon_whenPolygonNotProvided() {
+        UUID docId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+        CreateAnnotationDTO dto = new CreateAnnotationDTO(1, 0.1, 0.1, 0.8, 0.04, "#00C7B1");
+        when(annotationRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+
+        DocumentAnnotation result = annotationService.createOcrAnnotation(
+                docId, dto, userId, "filehash", null);
+
+        assertThat(result.getPolygon()).isNull();
+        verify(annotationRepository).save(any());
+    }
+
+    @Test
+    void createOcrAnnotation_doesNotCheckOverlap_evenWhenOverlappingAnnotationExists() {
+        UUID docId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+        CreateAnnotationDTO dto = new CreateAnnotationDTO(1, 0.1, 0.1, 0.3, 0.3, "#00C7B1");
+        when(annotationRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+
+        annotationService.createOcrAnnotation(docId, dto, userId, "hash", null);
+
+        verify(annotationRepository, never()).findByDocumentIdAndPageNumber(any(), any(int.class));
+    }
+
+    // ─── overlaps — partial overlap cases ────────────────────────────────────
+
     @Test
     void createAnnotation_noConflict_whenAnnotationIsAbove() {
         // x ranges overlap, y ranges don't — existing is ABOVE the new annotation
-- 
2.49.1


From d194b6b22581d4e5ed03f6687393ecfa41acc532 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 15:13:42 +0200
Subject: [PATCH 04/74] feat(documents): add ScriptType enum and script_type
 column

- ScriptType enum: UNKNOWN, TYPEWRITER, HANDWRITING_LATIN, HANDWRITING_KURRENT
- V24 migration adds script_type VARCHAR(30) NOT NULL DEFAULT 'UNKNOWN'
- Document entity: scriptType field with @Builder.Default UNKNOWN
- DocumentUpdateDTO: optional scriptType field
- DocumentService: wires scriptType through update method

Refs #226

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../org/raddatz/familienarchiv/dto/DocumentUpdateDTO.java | 2 ++
 .../java/org/raddatz/familienarchiv/model/Document.java   | 6 ++++++
 .../java/org/raddatz/familienarchiv/model/ScriptType.java | 8 ++++++++
 .../raddatz/familienarchiv/service/DocumentService.java   | 4 ++++
 .../db/migration/V24__add_script_type_to_documents.sql    | 1 +
 5 files changed, 21 insertions(+)
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/model/ScriptType.java
 create mode 100644 backend/src/main/resources/db/migration/V24__add_script_type_to_documents.sql

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/dto/DocumentUpdateDTO.java b/backend/src/main/java/org/raddatz/familienarchiv/dto/DocumentUpdateDTO.java
index 79789f24..2cf39760 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/dto/DocumentUpdateDTO.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/dto/DocumentUpdateDTO.java
@@ -5,6 +5,7 @@ import java.util.List;
 import java.util.UUID;
 
 import lombok.Data;
+import org.raddatz.familienarchiv.model.ScriptType;
 
 @Data
 public class DocumentUpdateDTO {
@@ -18,4 +19,5 @@ public class DocumentUpdateDTO {
     private List<UUID> receiverIds;
     private String tags;
     private Boolean metadataComplete;
+    private ScriptType scriptType;
 }
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/model/Document.java b/backend/src/main/java/org/raddatz/familienarchiv/model/Document.java
index f72e3f5e..e5be77a3 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/model/Document.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/model/Document.java
@@ -91,6 +91,12 @@ public class Document {
     @Builder.Default
     private boolean metadataComplete = false;
 
+    @Enumerated(EnumType.STRING)
+    @Column(name = "script_type", nullable = false)
+    @Schema(requiredMode = Schema.RequiredMode.REQUIRED)
+    @Builder.Default
+    private ScriptType scriptType = ScriptType.UNKNOWN;
+
     @ManyToMany(fetch = FetchType.EAGER)
     @JoinTable(name = "document_receivers", joinColumns = @JoinColumn(name = "document_id"), inverseJoinColumns = @JoinColumn(name = "person_id"))
     @Builder.Default
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/model/ScriptType.java b/backend/src/main/java/org/raddatz/familienarchiv/model/ScriptType.java
new file mode 100644
index 00000000..b6ff83e4
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/model/ScriptType.java
@@ -0,0 +1,8 @@
+package org.raddatz.familienarchiv.model;
+
+public enum ScriptType {
+    UNKNOWN,
+    TYPEWRITER,
+    HANDWRITING_LATIN,
+    HANDWRITING_KURRENT
+}
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/DocumentService.java b/backend/src/main/java/org/raddatz/familienarchiv/service/DocumentService.java
index 7d1bef2b..e3a6aea0 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/DocumentService.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/DocumentService.java
@@ -222,6 +222,10 @@ public class DocumentService {
             doc.setMetadataComplete(dto.getMetadataComplete());
         }
 
+        if (dto.getScriptType() != null) {
+            doc.setScriptType(dto.getScriptType());
+        }
+
         // 4. Datei austauschen (nur wenn eine neue ausgewählt wurde)
         if (newFile != null && !newFile.isEmpty()) {
             FileService.UploadResult upload = fileService.uploadFile(newFile, newFile.getOriginalFilename());
diff --git a/backend/src/main/resources/db/migration/V24__add_script_type_to_documents.sql b/backend/src/main/resources/db/migration/V24__add_script_type_to_documents.sql
new file mode 100644
index 00000000..87a48a00
--- /dev/null
+++ b/backend/src/main/resources/db/migration/V24__add_script_type_to_documents.sql
@@ -0,0 +1 @@
+ALTER TABLE documents ADD COLUMN script_type VARCHAR(30) NOT NULL DEFAULT 'UNKNOWN';
-- 
2.49.1


From ff3990710e54f4b2f0f809888758cf8d6bf82be7 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 15:15:16 +0200
Subject: [PATCH 05/74] feat(ocr): add OCR infrastructure (interfaces,
 entities, migrations, DTOs)

- OcrClient + OcrHealthClient interfaces for testable OCR integration
- OcrBlockResult record for OCR engine response mapping
- OcrJob + OcrJobDocument entities with status enums
- V25 migration creates ocr_jobs and ocr_job_documents tables
- Repositories for job and job-document queries
- TriggerOcrDTO, BatchOcrDTO (@Size max=500), OcrStatusDTO
- ErrorCodes: OCR_SERVICE_UNAVAILABLE, OCR_JOB_NOT_FOUND,
  OCR_DOCUMENT_NOT_UPLOADED, OCR_PROCESSING_FAILED

Refs #226

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../familienarchiv/dto/BatchOcrDTO.java       | 19 ++++++
 .../familienarchiv/dto/OcrStatusDTO.java      | 19 ++++++
 .../familienarchiv/dto/TriggerOcrDTO.java     | 13 ++++
 .../familienarchiv/exception/ErrorCode.java   | 10 +++
 .../model/OcrDocumentStatus.java              |  9 +++
 .../raddatz/familienarchiv/model/OcrJob.java  | 62 +++++++++++++++++++
 .../familienarchiv/model/OcrJobDocument.java  | 59 ++++++++++++++++++
 .../familienarchiv/model/OcrJobStatus.java    |  8 +++
 .../repository/OcrJobDocumentRepository.java  | 20 ++++++
 .../repository/OcrJobRepository.java          |  9 +++
 .../service/OcrBlockResult.java               | 13 ++++
 .../familienarchiv/service/OcrClient.java     |  9 +++
 .../service/OcrHealthClient.java              |  5 ++
 .../db/migration/V25__add_ocr_job_tables.sql  | 26 ++++++++
 14 files changed, 281 insertions(+)
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/dto/BatchOcrDTO.java
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/dto/OcrStatusDTO.java
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/dto/TriggerOcrDTO.java
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/model/OcrDocumentStatus.java
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/model/OcrJob.java
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/model/OcrJobDocument.java
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/model/OcrJobStatus.java
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/repository/OcrJobDocumentRepository.java
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/repository/OcrJobRepository.java
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/service/OcrBlockResult.java
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/service/OcrClient.java
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/service/OcrHealthClient.java
 create mode 100644 backend/src/main/resources/db/migration/V25__add_ocr_job_tables.sql

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/dto/BatchOcrDTO.java b/backend/src/main/java/org/raddatz/familienarchiv/dto/BatchOcrDTO.java
new file mode 100644
index 00000000..69506437
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/dto/BatchOcrDTO.java
@@ -0,0 +1,19 @@
+package org.raddatz.familienarchiv.dto;
+
+import jakarta.validation.constraints.NotEmpty;
+import jakarta.validation.constraints.Size;
+import lombok.AllArgsConstructor;
+import lombok.Data;
+import lombok.NoArgsConstructor;
+
+import java.util.List;
+import java.util.UUID;
+
+@Data
+@NoArgsConstructor
+@AllArgsConstructor
+public class BatchOcrDTO {
+    @NotEmpty
+    @Size(max = 500, message = "batch size must not exceed 500 documents")
+    private List<UUID> documentIds;
+}
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/dto/OcrStatusDTO.java b/backend/src/main/java/org/raddatz/familienarchiv/dto/OcrStatusDTO.java
new file mode 100644
index 00000000..c23ca303
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/dto/OcrStatusDTO.java
@@ -0,0 +1,19 @@
+package org.raddatz.familienarchiv.dto;
+
+import lombok.AllArgsConstructor;
+import lombok.Builder;
+import lombok.Data;
+import lombok.NoArgsConstructor;
+
+import java.util.UUID;
+
+@Data
+@NoArgsConstructor
+@AllArgsConstructor
+@Builder
+public class OcrStatusDTO {
+    private String status;
+    private UUID jobId;
+    private int currentPage;
+    private int totalPages;
+}
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/dto/TriggerOcrDTO.java b/backend/src/main/java/org/raddatz/familienarchiv/dto/TriggerOcrDTO.java
new file mode 100644
index 00000000..dda443b3
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/dto/TriggerOcrDTO.java
@@ -0,0 +1,13 @@
+package org.raddatz.familienarchiv.dto;
+
+import lombok.AllArgsConstructor;
+import lombok.Data;
+import lombok.NoArgsConstructor;
+import org.raddatz.familienarchiv.model.ScriptType;
+
+@Data
+@NoArgsConstructor
+@AllArgsConstructor
+public class TriggerOcrDTO {
+    private ScriptType scriptType;
+}
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/exception/ErrorCode.java b/backend/src/main/java/org/raddatz/familienarchiv/exception/ErrorCode.java
index b105df54..e3b0c99c 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/exception/ErrorCode.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/exception/ErrorCode.java
@@ -66,6 +66,16 @@ public enum ErrorCode {
     /** The notification with the given ID does not exist. 404 */
     NOTIFICATION_NOT_FOUND,
 
+    // --- OCR ---
+    /** The OCR service is not available or not healthy. 503 */
+    OCR_SERVICE_UNAVAILABLE,
+    /** The OCR job with the given ID does not exist. 404 */
+    OCR_JOB_NOT_FOUND,
+    /** The document is not in UPLOADED status and cannot be OCR'd. 400 */
+    OCR_DOCUMENT_NOT_UPLOADED,
+    /** OCR processing failed for the document. 500 */
+    OCR_PROCESSING_FAILED,
+
     // --- Generic ---
     /** Request validation failed (missing or malformed fields). 400 */
     VALIDATION_ERROR,
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/model/OcrDocumentStatus.java b/backend/src/main/java/org/raddatz/familienarchiv/model/OcrDocumentStatus.java
new file mode 100644
index 00000000..d96620b3
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/model/OcrDocumentStatus.java
@@ -0,0 +1,9 @@
+package org.raddatz.familienarchiv.model;
+
+public enum OcrDocumentStatus {
+    PENDING,
+    RUNNING,
+    DONE,
+    FAILED,
+    SKIPPED
+}
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/model/OcrJob.java b/backend/src/main/java/org/raddatz/familienarchiv/model/OcrJob.java
new file mode 100644
index 00000000..81f205fe
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/model/OcrJob.java
@@ -0,0 +1,62 @@
+package org.raddatz.familienarchiv.model;
+
+import io.swagger.v3.oas.annotations.media.Schema;
+import jakarta.persistence.*;
+import lombok.*;
+import org.hibernate.annotations.CreationTimestamp;
+import org.hibernate.annotations.UpdateTimestamp;
+
+import java.time.LocalDateTime;
+import java.util.UUID;
+
+@Entity
+@Table(name = "ocr_jobs")
+@Data
+@NoArgsConstructor
+@AllArgsConstructor
+@Builder
+public class OcrJob {
+
+    @Id
+    @GeneratedValue(strategy = GenerationType.UUID)
+    @Schema(requiredMode = Schema.RequiredMode.REQUIRED)
+    private UUID id;
+
+    @Enumerated(EnumType.STRING)
+    @Column(nullable = false)
+    @Schema(requiredMode = Schema.RequiredMode.REQUIRED)
+    @Builder.Default
+    private OcrJobStatus status = OcrJobStatus.PENDING;
+
+    @Column(name = "total_documents", nullable = false)
+    @Schema(requiredMode = Schema.RequiredMode.REQUIRED)
+    private int totalDocuments;
+
+    @Column(name = "processed_documents", nullable = false)
+    @Schema(requiredMode = Schema.RequiredMode.REQUIRED)
+    @Builder.Default
+    private int processedDocuments = 0;
+
+    @Column(name = "error_count", nullable = false)
+    @Schema(requiredMode = Schema.RequiredMode.REQUIRED)
+    @Builder.Default
+    private int errorCount = 0;
+
+    @Column(name = "skipped_count", nullable = false)
+    @Schema(requiredMode = Schema.RequiredMode.REQUIRED)
+    @Builder.Default
+    private int skippedCount = 0;
+
+    @Column(name = "created_by")
+    private UUID createdBy;
+
+    @Column(name = "created_at", nullable = false, updatable = false)
+    @CreationTimestamp
+    @Schema(requiredMode = Schema.RequiredMode.REQUIRED)
+    private LocalDateTime createdAt;
+
+    @Column(name = "updated_at", nullable = false)
+    @UpdateTimestamp
+    @Schema(requiredMode = Schema.RequiredMode.REQUIRED)
+    private LocalDateTime updatedAt;
+}
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/model/OcrJobDocument.java b/backend/src/main/java/org/raddatz/familienarchiv/model/OcrJobDocument.java
new file mode 100644
index 00000000..c8f3f702
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/model/OcrJobDocument.java
@@ -0,0 +1,59 @@
+package org.raddatz.familienarchiv.model;
+
+import io.swagger.v3.oas.annotations.media.Schema;
+import jakarta.persistence.*;
+import lombok.*;
+import org.hibernate.annotations.CreationTimestamp;
+import org.hibernate.annotations.UpdateTimestamp;
+
+import java.time.LocalDateTime;
+import java.util.UUID;
+
+@Entity
+@Table(name = "ocr_job_documents")
+@Data
+@NoArgsConstructor
+@AllArgsConstructor
+@Builder
+public class OcrJobDocument {
+
+    @Id
+    @GeneratedValue(strategy = GenerationType.UUID)
+    @Schema(requiredMode = Schema.RequiredMode.REQUIRED)
+    private UUID id;
+
+    @Column(name = "job_id", nullable = false)
+    @Schema(requiredMode = Schema.RequiredMode.REQUIRED)
+    private UUID jobId;
+
+    @Column(name = "document_id", nullable = false)
+    @Schema(requiredMode = Schema.RequiredMode.REQUIRED)
+    private UUID documentId;
+
+    @Enumerated(EnumType.STRING)
+    @Column(nullable = false)
+    @Schema(requiredMode = Schema.RequiredMode.REQUIRED)
+    @Builder.Default
+    private OcrDocumentStatus status = OcrDocumentStatus.PENDING;
+
+    @Column(name = "error_message")
+    private String errorMessage;
+
+    @Column(name = "current_page")
+    @Builder.Default
+    private int currentPage = 0;
+
+    @Column(name = "total_pages")
+    @Builder.Default
+    private int totalPages = 0;
+
+    @Column(name = "created_at", nullable = false, updatable = false)
+    @CreationTimestamp
+    @Schema(requiredMode = Schema.RequiredMode.REQUIRED)
+    private LocalDateTime createdAt;
+
+    @Column(name = "updated_at", nullable = false)
+    @UpdateTimestamp
+    @Schema(requiredMode = Schema.RequiredMode.REQUIRED)
+    private LocalDateTime updatedAt;
+}
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/model/OcrJobStatus.java b/backend/src/main/java/org/raddatz/familienarchiv/model/OcrJobStatus.java
new file mode 100644
index 00000000..5f1bf442
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/model/OcrJobStatus.java
@@ -0,0 +1,8 @@
+package org.raddatz.familienarchiv.model;
+
+public enum OcrJobStatus {
+    PENDING,
+    RUNNING,
+    DONE,
+    FAILED
+}
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/repository/OcrJobDocumentRepository.java b/backend/src/main/java/org/raddatz/familienarchiv/repository/OcrJobDocumentRepository.java
new file mode 100644
index 00000000..3d781804
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/repository/OcrJobDocumentRepository.java
@@ -0,0 +1,20 @@
+package org.raddatz.familienarchiv.repository;
+
+import org.raddatz.familienarchiv.model.OcrDocumentStatus;
+import org.raddatz.familienarchiv.model.OcrJobDocument;
+import org.springframework.data.jpa.repository.JpaRepository;
+
+import java.util.List;
+import java.util.Optional;
+import java.util.UUID;
+
+public interface OcrJobDocumentRepository extends JpaRepository<OcrJobDocument, UUID> {
+
+    List<OcrJobDocument> findByJobIdOrderByCreatedAtAsc(UUID jobId);
+
+    List<OcrJobDocument> findByJobIdAndStatus(UUID jobId, OcrDocumentStatus status);
+
+    Optional<OcrJobDocument> findByJobIdAndDocumentId(UUID jobId, UUID documentId);
+
+    Optional<OcrJobDocument> findFirstByDocumentIdAndStatusIn(UUID documentId, List<OcrDocumentStatus> statuses);
+}
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/repository/OcrJobRepository.java b/backend/src/main/java/org/raddatz/familienarchiv/repository/OcrJobRepository.java
new file mode 100644
index 00000000..5d319ccf
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/repository/OcrJobRepository.java
@@ -0,0 +1,9 @@
+package org.raddatz.familienarchiv.repository;
+
+import org.raddatz.familienarchiv.model.OcrJob;
+import org.springframework.data.jpa.repository.JpaRepository;
+
+import java.util.UUID;
+
+public interface OcrJobRepository extends JpaRepository<OcrJob, UUID> {
+}
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrBlockResult.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrBlockResult.java
new file mode 100644
index 00000000..e01b7def
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrBlockResult.java
@@ -0,0 +1,13 @@
+package org.raddatz.familienarchiv.service;
+
+import java.util.List;
+
+public record OcrBlockResult(
+        int pageNumber,
+        double x,
+        double y,
+        double width,
+        double height,
+        List<List<Double>> polygon,
+        String text
+) {}
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrClient.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrClient.java
new file mode 100644
index 00000000..3b33aaf2
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrClient.java
@@ -0,0 +1,9 @@
+package org.raddatz.familienarchiv.service;
+
+import org.raddatz.familienarchiv.model.ScriptType;
+
+import java.util.List;
+
+public interface OcrClient {
+    List<OcrBlockResult> extractBlocks(String pdfUrl, ScriptType scriptType);
+}
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrHealthClient.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrHealthClient.java
new file mode 100644
index 00000000..3a62f592
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrHealthClient.java
@@ -0,0 +1,5 @@
+package org.raddatz.familienarchiv.service;
+
+public interface OcrHealthClient {
+    boolean isHealthy();
+}
diff --git a/backend/src/main/resources/db/migration/V25__add_ocr_job_tables.sql b/backend/src/main/resources/db/migration/V25__add_ocr_job_tables.sql
new file mode 100644
index 00000000..a9f6945c
--- /dev/null
+++ b/backend/src/main/resources/db/migration/V25__add_ocr_job_tables.sql
@@ -0,0 +1,26 @@
+CREATE TABLE ocr_jobs (
+    id UUID PRIMARY KEY DEFAULT gen_random_uuid(),
+    status VARCHAR(20) NOT NULL DEFAULT 'PENDING',
+    total_documents INT NOT NULL,
+    processed_documents INT NOT NULL DEFAULT 0,
+    error_count INT NOT NULL DEFAULT 0,
+    skipped_count INT NOT NULL DEFAULT 0,
+    created_by UUID,
+    created_at TIMESTAMPTZ NOT NULL DEFAULT now(),
+    updated_at TIMESTAMPTZ NOT NULL DEFAULT now()
+);
+
+CREATE TABLE ocr_job_documents (
+    id UUID PRIMARY KEY DEFAULT gen_random_uuid(),
+    job_id UUID NOT NULL REFERENCES ocr_jobs(id) ON DELETE CASCADE,
+    document_id UUID NOT NULL REFERENCES documents(id) ON DELETE CASCADE,
+    status VARCHAR(20) NOT NULL DEFAULT 'PENDING',
+    error_message TEXT,
+    current_page INT DEFAULT 0,
+    total_pages INT DEFAULT 0,
+    created_at TIMESTAMPTZ NOT NULL DEFAULT now(),
+    updated_at TIMESTAMPTZ NOT NULL DEFAULT now()
+);
+
+CREATE INDEX idx_ocr_job_documents_job_id ON ocr_job_documents(job_id);
+CREATE INDEX idx_ocr_job_documents_document_id ON ocr_job_documents(document_id);
-- 
2.49.1


From aea46c5fd07f73e3cc10663447819057a0d92050 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 15:24:15 +0200
Subject: [PATCH 06/74] feat(ocr): add OcrService, OcrBatchService,
 OcrProgressService, OcrController

- OcrService: single-document OCR (health check, block clearing,
  presigned URL, annotation + block creation)
- OcrBatchService: batch processing with @Async, per-document status
  tracking, SKIPPED for PLACEHOLDER documents, failure isolation
- OcrProgressService: SSE emitter registry per job ID with 5-min timeout
- OcrController: POST /api/documents/{id}/ocr (WRITE_ALL),
  POST /api/ocr/batch (ADMIN), GET /api/ocr/jobs/{id} (READ_ALL),
  GET /api/ocr/jobs/{id}/progress (SSE), GET /api/documents/{id}/ocr-status

19 tests: 6 OcrService, 4 OcrBatchService, 3 OcrProgressService, 6 OcrController

Refs #226

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../controller/OcrController.java             | 114 ++++++++++++
 .../service/OcrBatchService.java              | 114 ++++++++++++
 .../service/OcrProgressService.java           |  69 +++++++
 .../familienarchiv/service/OcrService.java    | 120 ++++++++++++
 .../controller/OcrControllerTest.java         | 138 ++++++++++++++
 .../service/OcrBatchServiceTest.java          | 142 ++++++++++++++
 .../service/OcrProgressServiceTest.java       |  33 ++++
 .../service/OcrServiceTest.java               | 176 ++++++++++++++++++
 8 files changed, 906 insertions(+)
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/controller/OcrController.java
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/service/OcrBatchService.java
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/service/OcrProgressService.java
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
 create mode 100644 backend/src/test/java/org/raddatz/familienarchiv/controller/OcrControllerTest.java
 create mode 100644 backend/src/test/java/org/raddatz/familienarchiv/service/OcrBatchServiceTest.java
 create mode 100644 backend/src/test/java/org/raddatz/familienarchiv/service/OcrProgressServiceTest.java
 create mode 100644 backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/controller/OcrController.java b/backend/src/main/java/org/raddatz/familienarchiv/controller/OcrController.java
new file mode 100644
index 00000000..bd1e41f9
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/controller/OcrController.java
@@ -0,0 +1,114 @@
+package org.raddatz.familienarchiv.controller;
+
+import lombok.RequiredArgsConstructor;
+import lombok.extern.slf4j.Slf4j;
+import org.raddatz.familienarchiv.dto.BatchOcrDTO;
+import org.raddatz.familienarchiv.dto.OcrStatusDTO;
+import org.raddatz.familienarchiv.dto.TriggerOcrDTO;
+import org.raddatz.familienarchiv.exception.DomainException;
+import org.raddatz.familienarchiv.exception.ErrorCode;
+import org.raddatz.familienarchiv.model.*;
+import org.raddatz.familienarchiv.repository.OcrJobDocumentRepository;
+import org.raddatz.familienarchiv.repository.OcrJobRepository;
+import org.raddatz.familienarchiv.security.Permission;
+import org.raddatz.familienarchiv.security.RequirePermission;
+import org.raddatz.familienarchiv.service.OcrBatchService;
+import org.raddatz.familienarchiv.service.OcrProgressService;
+import org.raddatz.familienarchiv.service.OcrService;
+import org.raddatz.familienarchiv.service.UserService;
+import org.springframework.http.HttpStatus;
+import org.springframework.http.MediaType;
+import org.springframework.security.core.Authentication;
+import org.springframework.web.bind.annotation.*;
+import org.springframework.web.servlet.mvc.method.annotation.SseEmitter;
+
+import jakarta.validation.Valid;
+import java.util.List;
+import java.util.Map;
+import java.util.Optional;
+import java.util.UUID;
+
+@RestController
+@RequiredArgsConstructor
+@Slf4j
+public class OcrController {
+
+    private final OcrService ocrService;
+    private final OcrBatchService ocrBatchService;
+    private final OcrProgressService ocrProgressService;
+    private final OcrJobRepository ocrJobRepository;
+    private final OcrJobDocumentRepository ocrJobDocumentRepository;
+    private final UserService userService;
+
+    @PostMapping("/api/documents/{documentId}/ocr")
+    @ResponseStatus(HttpStatus.ACCEPTED)
+    @RequirePermission(Permission.WRITE_ALL)
+    public Map<String, UUID> triggerOcr(
+            @PathVariable UUID documentId,
+            @RequestBody TriggerOcrDTO dto,
+            Authentication authentication) {
+        UUID userId = resolveUserId(authentication);
+        UUID jobId = ocrService.startOcr(documentId, dto.getScriptType(), userId);
+        return Map.of("jobId", jobId);
+    }
+
+    @PostMapping("/api/ocr/batch")
+    @ResponseStatus(HttpStatus.ACCEPTED)
+    @RequirePermission(Permission.ADMIN)
+    public Map<String, UUID> triggerBatch(
+            @RequestBody @Valid BatchOcrDTO dto,
+            Authentication authentication) {
+        UUID userId = resolveUserId(authentication);
+        UUID jobId = ocrBatchService.startBatch(dto.getDocumentIds(), userId);
+        return Map.of("jobId", jobId);
+    }
+
+    @GetMapping("/api/ocr/jobs/{jobId}")
+    @RequirePermission(Permission.READ_ALL)
+    public OcrJob getJobStatus(@PathVariable UUID jobId) {
+        return ocrJobRepository.findById(jobId)
+                .orElseThrow(() -> DomainException.notFound(
+                        ErrorCode.OCR_JOB_NOT_FOUND, "OCR job not found: " + jobId));
+    }
+
+    @GetMapping(value = "/api/ocr/jobs/{jobId}/progress", produces = MediaType.TEXT_EVENT_STREAM_VALUE)
+    @RequirePermission(Permission.READ_ALL)
+    public SseEmitter streamProgress(@PathVariable UUID jobId) {
+        ocrJobRepository.findById(jobId)
+                .orElseThrow(() -> DomainException.notFound(
+                        ErrorCode.OCR_JOB_NOT_FOUND, "OCR job not found: " + jobId));
+        return ocrProgressService.register(jobId);
+    }
+
+    @GetMapping("/api/documents/{documentId}/ocr-status")
+    @RequirePermission(Permission.READ_ALL)
+    public OcrStatusDTO getDocumentOcrStatus(@PathVariable UUID documentId) {
+        List<OcrDocumentStatus> activeStatuses = List.of(
+                OcrDocumentStatus.PENDING, OcrDocumentStatus.RUNNING);
+
+        Optional<OcrJobDocument> activeJobDoc = ocrJobDocumentRepository
+                .findFirstByDocumentIdAndStatusIn(documentId, activeStatuses);
+
+        if (activeJobDoc.isEmpty()) {
+            return OcrStatusDTO.builder().status("NONE").build();
+        }
+
+        OcrJobDocument jobDoc = activeJobDoc.get();
+        return OcrStatusDTO.builder()
+                .status(jobDoc.getStatus().name())
+                .jobId(jobDoc.getJobId())
+                .currentPage(jobDoc.getCurrentPage())
+                .totalPages(jobDoc.getTotalPages())
+                .build();
+    }
+
+    private UUID resolveUserId(Authentication authentication) {
+        if (authentication == null || !authentication.isAuthenticated()) return null;
+        try {
+            AppUser user = userService.findByUsername(authentication.getName());
+            return user != null ? user.getId() : null;
+        } catch (Exception e) {
+            return null;
+        }
+    }
+}
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrBatchService.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrBatchService.java
new file mode 100644
index 00000000..52639c36
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrBatchService.java
@@ -0,0 +1,114 @@
+package org.raddatz.familienarchiv.service;
+
+import lombok.RequiredArgsConstructor;
+import lombok.extern.slf4j.Slf4j;
+import org.raddatz.familienarchiv.exception.DomainException;
+import org.raddatz.familienarchiv.exception.ErrorCode;
+import org.raddatz.familienarchiv.model.*;
+import org.raddatz.familienarchiv.repository.OcrJobDocumentRepository;
+import org.raddatz.familienarchiv.repository.OcrJobRepository;
+import org.springframework.scheduling.annotation.Async;
+import org.springframework.stereotype.Service;
+
+import java.util.List;
+import java.util.Map;
+import java.util.UUID;
+
+@Service
+@RequiredArgsConstructor
+@Slf4j
+public class OcrBatchService {
+
+    private final OcrService ocrService;
+    private final OcrHealthClient ocrHealthClient;
+    private final DocumentService documentService;
+    private final OcrJobRepository ocrJobRepository;
+    private final OcrJobDocumentRepository ocrJobDocumentRepository;
+    private final OcrProgressService ocrProgressService;
+
+    public UUID startBatch(List<UUID> documentIds, UUID userId) {
+        if (!ocrHealthClient.isHealthy()) {
+            throw DomainException.internal(ErrorCode.OCR_SERVICE_UNAVAILABLE,
+                    "OCR service is not available");
+        }
+
+        OcrJob job = OcrJob.builder()
+                .totalDocuments(documentIds.size())
+                .createdBy(userId)
+                .status(OcrJobStatus.PENDING)
+                .build();
+        job = ocrJobRepository.save(job);
+
+        for (UUID docId : documentIds) {
+            OcrJobDocument jobDoc = OcrJobDocument.builder()
+                    .jobId(job.getId())
+                    .documentId(docId)
+                    .status(OcrDocumentStatus.PENDING)
+                    .build();
+            ocrJobDocumentRepository.save(jobDoc);
+        }
+
+        processBatchAsync(job.getId(), userId);
+        return job.getId();
+    }
+
+    @Async
+    void processBatchAsync(UUID jobId, UUID userId) {
+        OcrJob job = ocrJobRepository.findById(jobId).orElse(null);
+        if (job == null) return;
+
+        job.setStatus(OcrJobStatus.RUNNING);
+        ocrJobRepository.save(job);
+
+        List<OcrJobDocument> jobDocs = ocrJobDocumentRepository.findByJobIdOrderByCreatedAtAsc(jobId);
+
+        for (OcrJobDocument jobDoc : jobDocs) {
+            Document doc = documentService.getDocumentById(jobDoc.getDocumentId());
+
+            if (doc.getStatus() == DocumentStatus.PLACEHOLDER) {
+                jobDoc.setStatus(OcrDocumentStatus.SKIPPED);
+                ocrJobDocumentRepository.save(jobDoc);
+                job.setSkippedCount(job.getSkippedCount() + 1);
+                ocrJobRepository.save(job);
+                ocrProgressService.emit(jobId, "document", Map.of(
+                        "documentId", jobDoc.getDocumentId(),
+                        "status", "SKIPPED",
+                        "processed", job.getProcessedDocuments(),
+                        "total", job.getTotalDocuments()));
+                continue;
+            }
+
+            jobDoc.setStatus(OcrDocumentStatus.RUNNING);
+            ocrJobDocumentRepository.save(jobDoc);
+
+            try {
+                ocrService.processDocument(jobDoc.getDocumentId(), doc, userId);
+                jobDoc.setStatus(OcrDocumentStatus.DONE);
+                job.setProcessedDocuments(job.getProcessedDocuments() + 1);
+            } catch (Exception e) {
+                log.error("OCR batch: failed document {}", jobDoc.getDocumentId(), e);
+                jobDoc.setStatus(OcrDocumentStatus.FAILED);
+                jobDoc.setErrorMessage(e.getMessage());
+                job.setErrorCount(job.getErrorCount() + 1);
+            }
+
+            ocrJobDocumentRepository.save(jobDoc);
+            ocrJobRepository.save(job);
+
+            ocrProgressService.emit(jobId, "document", Map.of(
+                    "documentId", jobDoc.getDocumentId(),
+                    "status", jobDoc.getStatus().name(),
+                    "processed", job.getProcessedDocuments(),
+                    "total", job.getTotalDocuments()));
+        }
+
+        job.setStatus(OcrJobStatus.DONE);
+        ocrJobRepository.save(job);
+
+        ocrProgressService.emit(jobId, "done", Map.of(
+                "processed", job.getProcessedDocuments(),
+                "errors", job.getErrorCount(),
+                "skipped", job.getSkippedCount()));
+        ocrProgressService.complete(jobId);
+    }
+}
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrProgressService.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrProgressService.java
new file mode 100644
index 00000000..8b3bc798
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrProgressService.java
@@ -0,0 +1,69 @@
+package org.raddatz.familienarchiv.service;
+
+import lombok.extern.slf4j.Slf4j;
+import org.springframework.stereotype.Service;
+import org.springframework.web.servlet.mvc.method.annotation.SseEmitter;
+
+import java.io.IOException;
+import java.util.List;
+import java.util.Map;
+import java.util.UUID;
+import java.util.concurrent.ConcurrentHashMap;
+import java.util.concurrent.CopyOnWriteArrayList;
+
+@Service
+@Slf4j
+public class OcrProgressService {
+
+    private static final long SSE_TIMEOUT = 5 * 60 * 1000L;
+
+    private final ConcurrentHashMap<UUID, List<SseEmitter>> emitters = new ConcurrentHashMap<>();
+
+    public SseEmitter register(UUID jobId) {
+        SseEmitter emitter = new SseEmitter(SSE_TIMEOUT);
+        emitters.computeIfAbsent(jobId, k -> new CopyOnWriteArrayList<>()).add(emitter);
+
+        emitter.onCompletion(() -> removeEmitter(jobId, emitter));
+        emitter.onTimeout(() -> removeEmitter(jobId, emitter));
+        emitter.onError(e -> removeEmitter(jobId, emitter));
+
+        return emitter;
+    }
+
+    public void emit(UUID jobId, String eventType, Object data) {
+        List<SseEmitter> jobEmitters = emitters.get(jobId);
+        if (jobEmitters == null) return;
+
+        for (SseEmitter emitter : jobEmitters) {
+            try {
+                emitter.send(SseEmitter.event().name(eventType).data(data));
+            } catch (IOException e) {
+                log.debug("SSE send failed for job {} — removing emitter", jobId);
+                removeEmitter(jobId, emitter);
+            }
+        }
+    }
+
+    public void complete(UUID jobId) {
+        List<SseEmitter> jobEmitters = emitters.remove(jobId);
+        if (jobEmitters == null) return;
+
+        for (SseEmitter emitter : jobEmitters) {
+            try {
+                emitter.complete();
+            } catch (Exception e) {
+                log.debug("SSE complete failed for job {}", jobId);
+            }
+        }
+    }
+
+    private void removeEmitter(UUID jobId, SseEmitter emitter) {
+        List<SseEmitter> jobEmitters = emitters.get(jobId);
+        if (jobEmitters != null) {
+            jobEmitters.remove(emitter);
+            if (jobEmitters.isEmpty()) {
+                emitters.remove(jobId);
+            }
+        }
+    }
+}
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
new file mode 100644
index 00000000..5ec7a2f1
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
@@ -0,0 +1,120 @@
+package org.raddatz.familienarchiv.service;
+
+import lombok.RequiredArgsConstructor;
+import lombok.extern.slf4j.Slf4j;
+import org.raddatz.familienarchiv.dto.CreateAnnotationDTO;
+import org.raddatz.familienarchiv.exception.DomainException;
+import org.raddatz.familienarchiv.exception.ErrorCode;
+import org.raddatz.familienarchiv.model.*;
+import org.raddatz.familienarchiv.repository.OcrJobRepository;
+import org.raddatz.familienarchiv.repository.TranscriptionBlockRepository;
+import org.springframework.beans.factory.annotation.Value;
+import org.springframework.stereotype.Service;
+import org.springframework.transaction.annotation.Transactional;
+
+import java.util.List;
+import java.util.UUID;
+
+@Service
+@RequiredArgsConstructor
+@Slf4j
+public class OcrService {
+
+    private static final String OCR_ANNOTATION_COLOR = "#00C7B1";
+
+    private final OcrClient ocrClient;
+    private final OcrHealthClient ocrHealthClient;
+    private final DocumentService documentService;
+    private final TranscriptionService transcriptionService;
+    private final AnnotationService annotationService;
+    private final TranscriptionBlockRepository blockRepository;
+    private final OcrJobRepository ocrJobRepository;
+
+    @Value("${app.s3.internal-url:http://minio:9000}")
+    private String s3InternalUrl;
+
+    @Value("${app.s3.bucket}")
+    private String bucketName;
+
+    @Transactional
+    public UUID startOcr(UUID documentId, ScriptType scriptTypeOverride, UUID userId) {
+        Document doc = documentService.getDocumentById(documentId);
+
+        if (doc.getStatus() == DocumentStatus.PLACEHOLDER) {
+            throw DomainException.badRequest(ErrorCode.OCR_DOCUMENT_NOT_UPLOADED,
+                    "Document has no file attached: " + documentId);
+        }
+
+        if (!ocrHealthClient.isHealthy()) {
+            throw DomainException.internal(ErrorCode.OCR_SERVICE_UNAVAILABLE,
+                    "OCR service is not available");
+        }
+
+        if (scriptTypeOverride != null) {
+            doc.setScriptType(scriptTypeOverride);
+        }
+
+        OcrJob job = OcrJob.builder()
+                .totalDocuments(1)
+                .createdBy(userId)
+                .status(OcrJobStatus.RUNNING)
+                .build();
+        job = ocrJobRepository.save(job);
+
+        try {
+            processDocument(documentId, doc, userId);
+            job.setStatus(OcrJobStatus.DONE);
+            job.setProcessedDocuments(1);
+        } catch (Exception e) {
+            log.error("OCR processing failed for document {}", documentId, e);
+            job.setStatus(OcrJobStatus.FAILED);
+            job.setErrorCount(1);
+        }
+
+        ocrJobRepository.save(job);
+        return job.getId();
+    }
+
+    void processDocument(UUID documentId, Document doc, UUID userId) {
+        clearExistingBlocks(documentId);
+
+        String pdfUrl = buildInternalUrl(doc.getFilePath());
+        List<OcrBlockResult> blocks = ocrClient.extractBlocks(pdfUrl, doc.getScriptType());
+        createTranscriptionBlocks(documentId, blocks, userId, doc.getFileHash());
+    }
+
+    private void clearExistingBlocks(UUID documentId) {
+        List<TranscriptionBlock> existing = transcriptionService.listBlocks(documentId);
+        for (TranscriptionBlock block : existing) {
+            transcriptionService.deleteBlock(documentId, block.getId());
+        }
+    }
+
+    private void createTranscriptionBlocks(UUID documentId, List<OcrBlockResult> blocks,
+                                            UUID userId, String fileHash) {
+        for (int i = 0; i < blocks.size(); i++) {
+            OcrBlockResult block = blocks.get(i);
+
+            CreateAnnotationDTO annotationDTO = new CreateAnnotationDTO(
+                    block.pageNumber(), block.x(), block.y(),
+                    block.width(), block.height(), OCR_ANNOTATION_COLOR);
+
+            DocumentAnnotation annotation = annotationService.createOcrAnnotation(
+                    documentId, annotationDTO, userId, fileHash, block.polygon());
+
+            TranscriptionBlock transcriptionBlock = TranscriptionBlock.builder()
+                    .annotationId(annotation.getId())
+                    .documentId(documentId)
+                    .text(block.text() != null ? block.text() : "")
+                    .sortOrder(i)
+                    .createdBy(userId)
+                    .updatedBy(userId)
+                    .build();
+            blockRepository.save(transcriptionBlock);
+        }
+    }
+
+    String buildInternalUrl(String filePath) {
+        return s3InternalUrl + "/" + bucketName + "/" + filePath;
+    }
+}
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/controller/OcrControllerTest.java b/backend/src/test/java/org/raddatz/familienarchiv/controller/OcrControllerTest.java
new file mode 100644
index 00000000..aef427ef
--- /dev/null
+++ b/backend/src/test/java/org/raddatz/familienarchiv/controller/OcrControllerTest.java
@@ -0,0 +1,138 @@
+package org.raddatz.familienarchiv.controller;
+
+import tools.jackson.databind.ObjectMapper;
+import org.junit.jupiter.api.Test;
+import org.raddatz.familienarchiv.config.SecurityConfig;
+import org.raddatz.familienarchiv.dto.BatchOcrDTO;
+import org.raddatz.familienarchiv.dto.TriggerOcrDTO;
+import org.raddatz.familienarchiv.exception.DomainException;
+import org.raddatz.familienarchiv.exception.ErrorCode;
+import org.raddatz.familienarchiv.model.*;
+import org.raddatz.familienarchiv.repository.OcrJobDocumentRepository;
+import org.raddatz.familienarchiv.repository.OcrJobRepository;
+import org.raddatz.familienarchiv.security.PermissionAspect;
+import org.raddatz.familienarchiv.service.*;
+import org.springframework.beans.factory.annotation.Autowired;
+import org.springframework.boot.autoconfigure.aop.AopAutoConfiguration;
+import org.springframework.boot.webmvc.test.autoconfigure.WebMvcTest;
+import org.springframework.context.annotation.Import;
+import org.springframework.http.MediaType;
+import org.springframework.security.test.context.support.WithMockUser;
+import org.springframework.test.context.bean.override.mockito.MockitoBean;
+import org.springframework.test.web.servlet.MockMvc;
+
+import java.util.List;
+import java.util.Optional;
+import java.util.UUID;
+
+import static org.mockito.ArgumentMatchers.any;
+import static org.mockito.ArgumentMatchers.eq;
+import static org.mockito.Mockito.when;
+import static org.springframework.test.web.servlet.request.MockMvcRequestBuilders.get;
+import static org.springframework.test.web.servlet.request.MockMvcRequestBuilders.post;
+import static org.springframework.test.web.servlet.result.MockMvcResultMatchers.jsonPath;
+import static org.springframework.test.web.servlet.result.MockMvcResultMatchers.status;
+
+@WebMvcTest(OcrController.class)
+@Import({SecurityConfig.class, PermissionAspect.class, AopAutoConfiguration.class})
+class OcrControllerTest {
+
+    @Autowired MockMvc mockMvc;
+    private final ObjectMapper objectMapper = new ObjectMapper();
+
+    @MockitoBean OcrService ocrService;
+    @MockitoBean OcrBatchService ocrBatchService;
+    @MockitoBean OcrProgressService ocrProgressService;
+    @MockitoBean OcrJobRepository ocrJobRepository;
+    @MockitoBean OcrJobDocumentRepository ocrJobDocumentRepository;
+    @MockitoBean UserService userService;
+    @MockitoBean CustomUserDetailsService customUserDetailsService;
+
+    @Test
+    @WithMockUser(authorities = "WRITE_ALL")
+    void triggerOcr_returns202_withJobId() throws Exception {
+        UUID docId = UUID.randomUUID();
+        UUID jobId = UUID.randomUUID();
+        TriggerOcrDTO dto = new TriggerOcrDTO(ScriptType.TYPEWRITER);
+
+        when(ocrService.startOcr(eq(docId), eq(ScriptType.TYPEWRITER), any())).thenReturn(jobId);
+
+        mockMvc.perform(post("/api/documents/{id}/ocr", docId)
+                        .contentType(MediaType.APPLICATION_JSON)
+                        .content(objectMapper.writeValueAsString(dto)))
+                .andExpect(status().isAccepted())
+                .andExpect(jsonPath("$.jobId").value(jobId.toString()));
+    }
+
+    @Test
+    @WithMockUser(authorities = "WRITE_ALL")
+    void triggerOcr_returns400_whenDocumentNotUploaded() throws Exception {
+        UUID docId = UUID.randomUUID();
+        when(ocrService.startOcr(eq(docId), any(), any()))
+                .thenThrow(DomainException.badRequest(ErrorCode.OCR_DOCUMENT_NOT_UPLOADED, "Not uploaded"));
+
+        mockMvc.perform(post("/api/documents/{id}/ocr", docId)
+                        .contentType(MediaType.APPLICATION_JSON)
+                        .content("{}"))
+                .andExpect(status().isBadRequest());
+    }
+
+    @Test
+    @WithMockUser(authorities = "READ_ALL")
+    void getJobStatus_returns404_whenJobNotFound() throws Exception {
+        UUID jobId = UUID.randomUUID();
+        when(ocrJobRepository.findById(jobId)).thenReturn(Optional.empty());
+
+        mockMvc.perform(get("/api/ocr/jobs/{jobId}", jobId))
+                .andExpect(status().isNotFound());
+    }
+
+    @Test
+    @WithMockUser(authorities = "READ_ALL")
+    void getJobStatus_returnsJobInfo_whenFound() throws Exception {
+        UUID jobId = UUID.randomUUID();
+        OcrJob job = OcrJob.builder()
+                .id(jobId)
+                .status(OcrJobStatus.RUNNING)
+                .totalDocuments(10)
+                .processedDocuments(3)
+                .errorCount(1)
+                .skippedCount(0)
+                .build();
+        when(ocrJobRepository.findById(jobId)).thenReturn(Optional.of(job));
+
+        mockMvc.perform(get("/api/ocr/jobs/{jobId}", jobId))
+                .andExpect(status().isOk())
+                .andExpect(jsonPath("$.status").value("RUNNING"))
+                .andExpect(jsonPath("$.totalDocuments").value(10))
+                .andExpect(jsonPath("$.processedDocuments").value(3));
+    }
+
+    @Test
+    @WithMockUser(authorities = "ADMIN")
+    void triggerBatch_returns202_withJobId() throws Exception {
+        UUID jobId = UUID.randomUUID();
+        List<UUID> docIds = List.of(UUID.randomUUID(), UUID.randomUUID());
+        BatchOcrDTO dto = new BatchOcrDTO(docIds);
+
+        when(ocrBatchService.startBatch(eq(docIds), any())).thenReturn(jobId);
+
+        mockMvc.perform(post("/api/ocr/batch")
+                        .contentType(MediaType.APPLICATION_JSON)
+                        .content(objectMapper.writeValueAsString(dto)))
+                .andExpect(status().isAccepted())
+                .andExpect(jsonPath("$.jobId").value(jobId.toString()));
+    }
+
+    @Test
+    @WithMockUser(authorities = "READ_ALL")
+    void getDocumentOcrStatus_returnsNone_whenNoOcrJobExists() throws Exception {
+        UUID docId = UUID.randomUUID();
+        when(ocrJobDocumentRepository.findFirstByDocumentIdAndStatusIn(eq(docId), any()))
+                .thenReturn(Optional.empty());
+
+        mockMvc.perform(get("/api/documents/{id}/ocr-status", docId))
+                .andExpect(status().isOk())
+                .andExpect(jsonPath("$.status").value("NONE"));
+    }
+}
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrBatchServiceTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrBatchServiceTest.java
new file mode 100644
index 00000000..9640c3b0
--- /dev/null
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrBatchServiceTest.java
@@ -0,0 +1,142 @@
+package org.raddatz.familienarchiv.service;
+
+import org.junit.jupiter.api.Test;
+import org.junit.jupiter.api.extension.ExtendWith;
+import org.mockito.InjectMocks;
+import org.mockito.Mock;
+import org.mockito.junit.jupiter.MockitoExtension;
+import org.raddatz.familienarchiv.exception.DomainException;
+import org.raddatz.familienarchiv.exception.ErrorCode;
+import org.raddatz.familienarchiv.model.*;
+import org.raddatz.familienarchiv.repository.OcrJobDocumentRepository;
+import org.raddatz.familienarchiv.repository.OcrJobRepository;
+
+import java.util.List;
+import java.util.Optional;
+import java.util.UUID;
+
+import static org.assertj.core.api.Assertions.assertThat;
+import static org.assertj.core.api.Assertions.assertThatThrownBy;
+import static org.mockito.ArgumentMatchers.any;
+import static org.mockito.ArgumentMatchers.eq;
+import static org.mockito.Mockito.*;
+
+@ExtendWith(MockitoExtension.class)
+class OcrBatchServiceTest {
+
+    @Mock OcrService ocrService;
+    @Mock OcrHealthClient ocrHealthClient;
+    @Mock DocumentService documentService;
+    @Mock OcrJobRepository ocrJobRepository;
+    @Mock OcrJobDocumentRepository ocrJobDocumentRepository;
+    @Mock OcrProgressService ocrProgressService;
+
+    @InjectMocks OcrBatchService ocrBatchService;
+
+    @Test
+    void startBatch_throwsServiceUnavailable_whenOcrServiceIsDown() {
+        when(ocrHealthClient.isHealthy()).thenReturn(false);
+
+        assertThatThrownBy(() -> ocrBatchService.startBatch(List.of(UUID.randomUUID()), UUID.randomUUID()))
+                .isInstanceOf(DomainException.class)
+                .satisfies(e -> assertThat(((DomainException) e).getCode())
+                        .isEqualTo(ErrorCode.OCR_SERVICE_UNAVAILABLE));
+    }
+
+    @Test
+    void startBatch_createsJobAndReturnsJobId() {
+        UUID docId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+        UUID jobId = UUID.randomUUID();
+
+        when(ocrHealthClient.isHealthy()).thenReturn(true);
+        when(ocrJobRepository.save(any())).thenAnswer(inv -> {
+            OcrJob job = inv.getArgument(0);
+            job.setId(jobId);
+            return job;
+        });
+        when(ocrJobDocumentRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+        when(ocrJobRepository.findById(jobId)).thenReturn(Optional.of(
+                OcrJob.builder().id(jobId).totalDocuments(1).status(OcrJobStatus.PENDING).build()));
+        when(ocrJobDocumentRepository.findByJobIdOrderByCreatedAtAsc(jobId)).thenReturn(List.of(
+                OcrJobDocument.builder().jobId(jobId).documentId(docId).status(OcrDocumentStatus.PENDING).build()));
+
+        Document doc = Document.builder().id(docId).status(DocumentStatus.UPLOADED)
+                .filePath("test.pdf").fileHash("hash").scriptType(ScriptType.TYPEWRITER).build();
+        when(documentService.getDocumentById(docId)).thenReturn(doc);
+
+        UUID resultJobId = ocrBatchService.startBatch(List.of(docId), userId);
+
+        assertThat(resultJobId).isEqualTo(jobId);
+        verify(ocrService).processDocument(eq(docId), eq(doc), eq(userId));
+    }
+
+    @Test
+    void processBatchAsync_skipsPlaceholderDocuments() {
+        UUID jobId = UUID.randomUUID();
+        UUID uploadedId = UUID.randomUUID();
+        UUID placeholderId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+
+        OcrJob job = OcrJob.builder().id(jobId).totalDocuments(2).status(OcrJobStatus.PENDING).build();
+        when(ocrJobRepository.findById(jobId)).thenReturn(Optional.of(job));
+        when(ocrJobRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+        when(ocrJobDocumentRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+
+        OcrJobDocument uploadedJobDoc = OcrJobDocument.builder()
+                .jobId(jobId).documentId(uploadedId).status(OcrDocumentStatus.PENDING).build();
+        OcrJobDocument placeholderJobDoc = OcrJobDocument.builder()
+                .jobId(jobId).documentId(placeholderId).status(OcrDocumentStatus.PENDING).build();
+        when(ocrJobDocumentRepository.findByJobIdOrderByCreatedAtAsc(jobId))
+                .thenReturn(List.of(uploadedJobDoc, placeholderJobDoc));
+
+        Document uploaded = Document.builder().id(uploadedId).status(DocumentStatus.UPLOADED)
+                .filePath("test.pdf").fileHash("hash").scriptType(ScriptType.TYPEWRITER).build();
+        Document placeholder = Document.builder().id(placeholderId).status(DocumentStatus.PLACEHOLDER).build();
+        when(documentService.getDocumentById(uploadedId)).thenReturn(uploaded);
+        when(documentService.getDocumentById(placeholderId)).thenReturn(placeholder);
+
+        ocrBatchService.processBatchAsync(jobId, userId);
+
+        verify(ocrService).processDocument(eq(uploadedId), eq(uploaded), eq(userId));
+        verify(ocrService, never()).processDocument(eq(placeholderId), any(), any());
+        assertThat(placeholderJobDoc.getStatus()).isEqualTo(OcrDocumentStatus.SKIPPED);
+    }
+
+    @Test
+    void processBatchAsync_continuesAfterSingleDocumentFailure() {
+        UUID jobId = UUID.randomUUID();
+        UUID failDocId = UUID.randomUUID();
+        UUID successDocId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+
+        OcrJob job = OcrJob.builder().id(jobId).totalDocuments(2).status(OcrJobStatus.PENDING).build();
+        when(ocrJobRepository.findById(jobId)).thenReturn(Optional.of(job));
+        when(ocrJobRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+        when(ocrJobDocumentRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+
+        OcrJobDocument failJobDoc = OcrJobDocument.builder()
+                .jobId(jobId).documentId(failDocId).status(OcrDocumentStatus.PENDING).build();
+        OcrJobDocument successJobDoc = OcrJobDocument.builder()
+                .jobId(jobId).documentId(successDocId).status(OcrDocumentStatus.PENDING).build();
+        when(ocrJobDocumentRepository.findByJobIdOrderByCreatedAtAsc(jobId))
+                .thenReturn(List.of(failJobDoc, successJobDoc));
+
+        Document failDoc = Document.builder().id(failDocId).status(DocumentStatus.UPLOADED)
+                .filePath("fail.pdf").fileHash("hash1").scriptType(ScriptType.TYPEWRITER).build();
+        Document successDoc = Document.builder().id(successDocId).status(DocumentStatus.UPLOADED)
+                .filePath("success.pdf").fileHash("hash2").scriptType(ScriptType.TYPEWRITER).build();
+        when(documentService.getDocumentById(failDocId)).thenReturn(failDoc);
+        when(documentService.getDocumentById(successDocId)).thenReturn(successDoc);
+
+        doThrow(new RuntimeException("OCR failed")).when(ocrService)
+                .processDocument(eq(failDocId), any(), any());
+
+        ocrBatchService.processBatchAsync(jobId, userId);
+
+        verify(ocrService).processDocument(eq(successDocId), eq(successDoc), eq(userId));
+        assertThat(failJobDoc.getStatus()).isEqualTo(OcrDocumentStatus.FAILED);
+        assertThat(successJobDoc.getStatus()).isEqualTo(OcrDocumentStatus.DONE);
+        assertThat(job.getStatus()).isEqualTo(OcrJobStatus.DONE);
+    }
+}
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrProgressServiceTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrProgressServiceTest.java
new file mode 100644
index 00000000..44ed276f
--- /dev/null
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrProgressServiceTest.java
@@ -0,0 +1,33 @@
+package org.raddatz.familienarchiv.service;
+
+import org.junit.jupiter.api.Test;
+import org.springframework.web.servlet.mvc.method.annotation.SseEmitter;
+
+import java.util.UUID;
+
+import static org.assertj.core.api.Assertions.assertThat;
+import static org.assertj.core.api.Assertions.assertThatCode;
+
+class OcrProgressServiceTest {
+
+    private final OcrProgressService progressService = new OcrProgressService();
+
+    @Test
+    void register_returnsNonNullEmitter() {
+        UUID jobId = UUID.randomUUID();
+        SseEmitter emitter = progressService.register(jobId);
+        assertThat(emitter).isNotNull();
+    }
+
+    @Test
+    void emit_doesNotThrow_whenNoEmittersRegistered() {
+        assertThatCode(() -> progressService.emit(UUID.randomUUID(), "test", "data"))
+                .doesNotThrowAnyException();
+    }
+
+    @Test
+    void complete_doesNotThrow_whenNoEmittersRegistered() {
+        assertThatCode(() -> progressService.complete(UUID.randomUUID()))
+                .doesNotThrowAnyException();
+    }
+}
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java
new file mode 100644
index 00000000..44c598e0
--- /dev/null
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java
@@ -0,0 +1,176 @@
+package org.raddatz.familienarchiv.service;
+
+import org.junit.jupiter.api.Test;
+import org.junit.jupiter.api.extension.ExtendWith;
+import org.mockito.ArgumentCaptor;
+import org.mockito.InjectMocks;
+import org.mockito.Mock;
+import org.mockito.junit.jupiter.MockitoExtension;
+import org.raddatz.familienarchiv.dto.CreateAnnotationDTO;
+import org.raddatz.familienarchiv.exception.DomainException;
+import org.raddatz.familienarchiv.exception.ErrorCode;
+import org.raddatz.familienarchiv.model.*;
+import org.raddatz.familienarchiv.repository.OcrJobRepository;
+import org.raddatz.familienarchiv.repository.TranscriptionBlockRepository;
+
+import java.util.List;
+import java.util.UUID;
+
+import static org.assertj.core.api.Assertions.assertThat;
+import static org.assertj.core.api.Assertions.assertThatThrownBy;
+import static org.mockito.ArgumentMatchers.any;
+import static org.mockito.ArgumentMatchers.eq;
+import static org.mockito.Mockito.*;
+import static org.springframework.http.HttpStatus.*;
+
+@ExtendWith(MockitoExtension.class)
+class OcrServiceTest {
+
+    @Mock OcrClient ocrClient;
+    @Mock OcrHealthClient ocrHealthClient;
+    @Mock DocumentService documentService;
+    @Mock TranscriptionService transcriptionService;
+    @Mock AnnotationService annotationService;
+    @Mock TranscriptionBlockRepository blockRepository;
+    @Mock OcrJobRepository ocrJobRepository;
+
+    @InjectMocks OcrService ocrService;
+
+    @Test
+    void startOcr_throwsBadRequest_whenDocumentIsPlaceholder() {
+        UUID docId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+        Document doc = Document.builder().id(docId).status(DocumentStatus.PLACEHOLDER).build();
+        when(documentService.getDocumentById(docId)).thenReturn(doc);
+
+        assertThatThrownBy(() -> ocrService.startOcr(docId, null, userId))
+                .isInstanceOf(DomainException.class)
+                .satisfies(e -> {
+                    DomainException de = (DomainException) e;
+                    assertThat(de.getStatus()).isEqualTo(BAD_REQUEST);
+                    assertThat(de.getCode()).isEqualTo(ErrorCode.OCR_DOCUMENT_NOT_UPLOADED);
+                });
+    }
+
+    @Test
+    void startOcr_throwsServiceUnavailable_whenOcrServiceIsDown() {
+        UUID docId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+        Document doc = Document.builder().id(docId).status(DocumentStatus.UPLOADED)
+                .filePath("documents/test.pdf").fileHash("hash123").build();
+        when(documentService.getDocumentById(docId)).thenReturn(doc);
+        when(ocrHealthClient.isHealthy()).thenReturn(false);
+
+        assertThatThrownBy(() -> ocrService.startOcr(docId, null, userId))
+                .isInstanceOf(DomainException.class)
+                .satisfies(e -> {
+                    DomainException de = (DomainException) e;
+                    assertThat(de.getCode()).isEqualTo(ErrorCode.OCR_SERVICE_UNAVAILABLE);
+                });
+    }
+
+    @Test
+    void startOcr_createsJobAndReturnsJobId() {
+        UUID docId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+        UUID jobId = UUID.randomUUID();
+        Document doc = Document.builder().id(docId).status(DocumentStatus.UPLOADED)
+                .filePath("documents/test.pdf").fileHash("hash123")
+                .scriptType(ScriptType.TYPEWRITER).build();
+        when(documentService.getDocumentById(docId)).thenReturn(doc);
+        when(ocrHealthClient.isHealthy()).thenReturn(true);
+        // ocrService constructs the internal MinIO URL from S3 key
+        when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of());
+        when(ocrJobRepository.save(any())).thenAnswer(inv -> {
+            OcrJob job = inv.getArgument(0);
+            job.setId(jobId);
+            return job;
+        });
+
+        UUID resultJobId = ocrService.startOcr(docId, ScriptType.TYPEWRITER, userId);
+
+        assertThat(resultJobId).isEqualTo(jobId);
+        verify(ocrJobRepository, atLeastOnce()).save(any());
+    }
+
+    @Test
+    void startOcr_setsScriptTypeOnDocument_whenProvided() {
+        UUID docId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+        Document doc = Document.builder().id(docId).status(DocumentStatus.UPLOADED)
+                .filePath("documents/test.pdf").fileHash("hash123")
+                .scriptType(ScriptType.UNKNOWN).build();
+        when(documentService.getDocumentById(docId)).thenReturn(doc);
+        when(ocrHealthClient.isHealthy()).thenReturn(true);
+        // ocrService constructs the internal MinIO URL from S3 key
+        when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of());
+        when(ocrJobRepository.save(any())).thenAnswer(inv -> {
+            OcrJob job = inv.getArgument(0);
+            job.setId(UUID.randomUUID());
+            return job;
+        });
+
+        ocrService.startOcr(docId, ScriptType.HANDWRITING_LATIN, userId);
+
+        assertThat(doc.getScriptType()).isEqualTo(ScriptType.HANDWRITING_LATIN);
+    }
+
+    @Test
+    void startOcr_clearsExistingBlocks_beforeCreatingNew() {
+        UUID docId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+        Document doc = Document.builder().id(docId).status(DocumentStatus.UPLOADED)
+                .filePath("documents/test.pdf").fileHash("hash123")
+                .scriptType(ScriptType.TYPEWRITER).build();
+        TranscriptionBlock existingBlock = TranscriptionBlock.builder()
+                .id(UUID.randomUUID()).documentId(docId).build();
+
+        when(documentService.getDocumentById(docId)).thenReturn(doc);
+        when(ocrHealthClient.isHealthy()).thenReturn(true);
+        // ocrService constructs the internal MinIO URL from S3 key
+        when(transcriptionService.listBlocks(docId)).thenReturn(List.of(existingBlock));
+        when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of(
+                new OcrBlockResult(0, 0.1, 0.1, 0.8, 0.04, null, "Hello")));
+        when(ocrJobRepository.save(any())).thenAnswer(inv -> {
+            OcrJob job = inv.getArgument(0);
+            job.setId(UUID.randomUUID());
+            return job;
+        });
+        DocumentAnnotation ann = DocumentAnnotation.builder().id(UUID.randomUUID()).build();
+        when(annotationService.createOcrAnnotation(any(), any(), any(), any(), any())).thenReturn(ann);
+
+        ocrService.startOcr(docId, null, userId);
+
+        verify(transcriptionService).deleteBlock(docId, existingBlock.getId());
+    }
+
+    @Test
+    void startOcr_createsAnnotationAndBlock_forEachOcrResult() {
+        UUID docId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+        Document doc = Document.builder().id(docId).status(DocumentStatus.UPLOADED)
+                .filePath("documents/test.pdf").fileHash("hash123")
+                .scriptType(ScriptType.TYPEWRITER).build();
+
+        OcrBlockResult block1 = new OcrBlockResult(0, 0.1, 0.1, 0.8, 0.04, null, "Line 1");
+        OcrBlockResult block2 = new OcrBlockResult(0, 0.1, 0.2, 0.8, 0.04, null, "Line 2");
+
+        when(documentService.getDocumentById(docId)).thenReturn(doc);
+        when(ocrHealthClient.isHealthy()).thenReturn(true);
+        // ocrService constructs the internal MinIO URL from S3 key
+        when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
+        when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of(block1, block2));
+        when(ocrJobRepository.save(any())).thenAnswer(inv -> {
+            OcrJob job = inv.getArgument(0);
+            job.setId(UUID.randomUUID());
+            return job;
+        });
+        DocumentAnnotation ann = DocumentAnnotation.builder().id(UUID.randomUUID()).build();
+        when(annotationService.createOcrAnnotation(any(), any(), any(), any(), any())).thenReturn(ann);
+
+        ocrService.startOcr(docId, null, userId);
+
+        verify(annotationService, times(2)).createOcrAnnotation(
+                eq(docId), any(CreateAnnotationDTO.class), eq(userId), eq("hash123"), any());
+    }
+}
-- 
2.49.1


From 6737bd6db5ef8c85a29b8fd3dcf2e19316ab7b0c Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 15:26:40 +0200
Subject: [PATCH 07/74] feat(ocr): add Python OCR microservice,
 RestClientOcrClient, Docker Compose

Python microservice (ocr-service/):
- FastAPI app with /ocr and /health endpoints
- Surya engine: transformer-based OCR for typewritten/modern handwriting
- Kraken engine: historical HTR for Kurrent/Suetterlin with
  pure-Python polygon-to-quad approximation (gift wrapping + rotating calipers)
- Eager model loading at startup via lifespan context manager
- PDF download via httpx, page rendering via pypdfium2 at 300 DPI

Java RestClientOcrClient:
- Implements OcrClient + OcrHealthClient interfaces
- Calls Python service via Spring RestClient
- Health check with graceful fallback

Docker Compose:
- New ocr-service container (mem_limit 6g, no host ports)
- Health check with start_period 60s for model loading
- ocr_models volume for Kraken model files
- Backend depends on ocr-service health

Refs #226, #227

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../service/RestClientOcrClient.java          |  73 +++++++
 docker-compose.yml                            |  27 +++
 ocr-service/Dockerfile                        |  23 +++
 ocr-service/engines/__init__.py               |   0
 ocr-service/engines/kraken.py                 | 192 ++++++++++++++++++
 ocr-service/engines/surya.py                  |  66 ++++++
 ocr-service/main.py                           |  93 +++++++++
 ocr-service/models.py                         |  20 ++
 ocr-service/requirements.txt                  |   6 +
 9 files changed, 500 insertions(+)
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/service/RestClientOcrClient.java
 create mode 100644 ocr-service/Dockerfile
 create mode 100644 ocr-service/engines/__init__.py
 create mode 100644 ocr-service/engines/kraken.py
 create mode 100644 ocr-service/engines/surya.py
 create mode 100644 ocr-service/main.py
 create mode 100644 ocr-service/models.py
 create mode 100644 ocr-service/requirements.txt

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/RestClientOcrClient.java b/backend/src/main/java/org/raddatz/familienarchiv/service/RestClientOcrClient.java
new file mode 100644
index 00000000..0bbb533c
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/RestClientOcrClient.java
@@ -0,0 +1,73 @@
+package org.raddatz.familienarchiv.service;
+
+import com.fasterxml.jackson.annotation.JsonProperty;
+import lombok.extern.slf4j.Slf4j;
+import org.raddatz.familienarchiv.model.ScriptType;
+import org.springframework.beans.factory.annotation.Value;
+import org.springframework.core.ParameterizedTypeReference;
+import org.springframework.http.MediaType;
+import org.springframework.stereotype.Component;
+import org.springframework.web.client.RestClient;
+
+import java.util.List;
+import java.util.Map;
+
+@Component
+@Slf4j
+public class RestClientOcrClient implements OcrClient, OcrHealthClient {
+
+    private final RestClient restClient;
+
+    public RestClientOcrClient(@Value("${app.ocr.base-url:http://ocr-service:8000}") String baseUrl) {
+        this.restClient = RestClient.builder().baseUrl(baseUrl).build();
+    }
+
+    @Override
+    public List<OcrBlockResult> extractBlocks(String pdfUrl, ScriptType scriptType) {
+        Map<String, String> body = Map.of(
+                "pdfUrl", pdfUrl,
+                "scriptType", scriptType.name(),
+                "language", "de");
+
+        List<OcrBlockJson> response = restClient.post()
+                .uri("/ocr")
+                .contentType(MediaType.APPLICATION_JSON)
+                .body(body)
+                .retrieve()
+                .body(new ParameterizedTypeReference<>() {});
+
+        if (response == null) return List.of();
+
+        return response.stream()
+                .map(OcrBlockJson::toResult)
+                .toList();
+    }
+
+    @Override
+    public boolean isHealthy() {
+        try {
+            restClient.get()
+                    .uri("/health")
+                    .retrieve()
+                    .toBodilessEntity();
+            return true;
+        } catch (Exception e) {
+            log.warn("OCR service health check failed: {}", e.getMessage());
+            return false;
+        }
+    }
+
+    record OcrBlockJson(
+            @JsonProperty("pageNumber") int pageNumber,
+            double x,
+            double y,
+            double width,
+            double height,
+            List<List<Double>> polygon,
+            String text
+    ) {
+        OcrBlockResult toResult() {
+            return new OcrBlockResult(pageNumber, x, y, width, height, polygon, text);
+        }
+    }
+}
diff --git a/docker-compose.yml b/docker-compose.yml
index 7ceabc66..0dd05942 100644
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -71,6 +71,28 @@ services:
     networks:
       - archive-net
 
+  # --- OCR: Python microservice (Surya + Kraken) ---
+  ocr-service:
+    build:
+      context: ./ocr-service
+      dockerfile: Dockerfile
+    container_name: archive-ocr
+    restart: unless-stopped
+    mem_limit: 6g
+    memswap_limit: 6g
+    volumes:
+      - ocr_models:/app/models
+    environment:
+      KRAKEN_MODEL_PATH: /app/models/german_kurrent.mlmodel
+    networks:
+      - archive-net
+    healthcheck:
+      test: ["CMD", "curl", "-f", "http://localhost:8000/health"]
+      interval: 10s
+      timeout: 5s
+      retries: 12
+      start_period: 60s
+
   # --- Backend: Spring Boot ---
   backend:
     build:
@@ -89,6 +111,8 @@ services:
         condition: service_healthy
       mailpit:
         condition: service_started
+      ocr-service:
+        condition: service_healthy
     environment:
       SPRING_DATASOURCE_URL: jdbc:postgresql://db:5432/${POSTGRES_DB}
       SPRING_DATASOURCE_USERNAME: ${POSTGRES_USER}
@@ -109,6 +133,8 @@ services:
       # Mailpit needs no auth or STARTTLS; production SMTP overrides these via .env
       SPRING_MAIL_PROPERTIES_MAIL_SMTP_AUTH: ${MAIL_SMTP_AUTH:-false}
       SPRING_MAIL_PROPERTIES_MAIL_SMTP_STARTTLS_ENABLE: ${MAIL_STARTTLS_ENABLE:-false}
+      APP_OCR_BASE_URL: http://ocr-service:8000
+      APP_S3_INTERNAL_URL: http://minio:9000
     ports:
       - "${PORT_BACKEND}:8080"
     networks:
@@ -155,3 +181,4 @@ networks:
 volumes:
   frontend_node_modules:
   maven_cache:
+  ocr_models:
diff --git a/ocr-service/Dockerfile b/ocr-service/Dockerfile
new file mode 100644
index 00000000..24f74be0
--- /dev/null
+++ b/ocr-service/Dockerfile
@@ -0,0 +1,23 @@
+FROM python:3.11-slim
+
+WORKDIR /app
+
+# curl for healthcheck; libgomp1 for PyTorch CPU threading
+RUN apt-get update && apt-get install -y --no-install-recommends \
+    curl \
+    libgomp1 \
+    && rm -rf /var/lib/apt/lists/*
+
+# PyTorch CPU-only — separate layer; the whl/cpu index strips all CUDA variants (~2 GB saved)
+RUN pip install --no-cache-dir \
+    torch==2.5.1 \
+    --index-url https://download.pytorch.org/whl/cpu
+
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+
+COPY . .
+
+EXPOSE 8000
+
+CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8000"]
diff --git a/ocr-service/engines/__init__.py b/ocr-service/engines/__init__.py
new file mode 100644
index 00000000..e69de29b
diff --git a/ocr-service/engines/kraken.py b/ocr-service/engines/kraken.py
new file mode 100644
index 00000000..16cb3d0b
--- /dev/null
+++ b/ocr-service/engines/kraken.py
@@ -0,0 +1,192 @@
+"""Kraken OCR engine wrapper — historical HTR model support for Kurrent/Suetterlin."""
+
+import logging
+import os
+
+logger = logging.getLogger(__name__)
+
+_model = None
+_model_path = os.environ.get("KRAKEN_MODEL_PATH", "/app/models/german_kurrent.mlmodel")
+
+
+def load_models():
+    """Load the Kraken model at startup. Skips if model file is not present."""
+    global _model
+
+    if not os.path.exists(_model_path):
+        logger.warning("Kraken model not found at %s — Kurrent OCR will not be available", _model_path)
+        return
+
+    logger.info("Loading Kraken model from %s...", _model_path)
+
+    from kraken.lib import models as kraken_models
+    _model = kraken_models.load_any(_model_path)
+
+    logger.info("Kraken model loaded successfully")
+
+
+def is_available() -> bool:
+    return _model is not None
+
+
+def extract_blocks(images: list, language: str = "de") -> list[dict]:
+    """Run Kraken segmentation + recognition on a list of PIL images.
+
+    Returns block dicts with pageNumber, x, y, width, height, polygon, text.
+    Polygon is a 4-point quadrilateral approximation of the baseline polygon.
+    Coordinates are normalized to [0, 1].
+    """
+    from kraken import blla, rpred
+
+    if _model is None:
+        raise RuntimeError("Kraken model is not loaded")
+
+    all_blocks = []
+
+    for page_idx, image in enumerate(images):
+        page_w, page_h = image.size
+
+        baseline_seg = blla.segment(image)
+
+        pred_it = rpred.rpred(_model, image, baseline_seg)
+
+        for record in pred_it:
+            # record.prediction is the recognized text
+            # record.cuts contains polygon points
+            # record.line is the baseline polygon
+
+            polygon_pts = record.cuts if hasattr(record, "cuts") else []
+
+            # Compute AABB from the polygon
+            if polygon_pts:
+                xs = [p[0] for p in polygon_pts]
+                ys = [p[1] for p in polygon_pts]
+                x1, y1 = min(xs), min(ys)
+                x2, y2 = max(xs), max(ys)
+            else:
+                # Fallback to line baseline
+                xs = [p[0] for p in record.line]
+                ys = [p[1] for p in record.line]
+                x1, y1 = min(xs), min(ys) - 5
+                x2, y2 = max(xs), max(ys) + 5
+
+            # Approximate polygon to quadrilateral
+            quad = _approximate_to_quad(polygon_pts, page_w, page_h) if polygon_pts else None
+
+            all_blocks.append({
+                "pageNumber": page_idx,
+                "x": x1 / page_w,
+                "y": y1 / page_h,
+                "width": (x2 - x1) / page_w,
+                "height": (y2 - y1) / page_h,
+                "polygon": quad,
+                "text": record.prediction,
+            })
+
+    return all_blocks
+
+
+def _approximate_to_quad(points: list[tuple], page_w: float, page_h: float) -> list[list[float]] | None:
+    """Approximate a polygon to a 4-point quadrilateral using the minimum bounding rectangle.
+
+    Uses gift-wrapping (Jarvis march) for convex hull, then rotating calipers
+    for the minimum area bounding rectangle. Pure Python, no scipy/numpy.
+    """
+    if len(points) < 3:
+        return None
+
+    try:
+        hull = _convex_hull(points)
+        if len(hull) < 3:
+            return None
+
+        rect = _min_bounding_rect(hull)
+
+        # Normalize to [0, 1]
+        return [[p[0] / page_w, p[1] / page_h] for p in rect]
+    except Exception:
+        logger.debug("Failed to approximate polygon to quad, returning None")
+        return None
+
+
+def _convex_hull(points: list[tuple]) -> list[tuple]:
+    """Jarvis march (gift wrapping) algorithm for 2D convex hull."""
+    pts = list(set(points))
+    if len(pts) < 3:
+        return pts
+
+    # Start from leftmost point
+    start = min(pts, key=lambda p: (p[0], p[1]))
+    hull = []
+    current = start
+
+    while True:
+        hull.append(current)
+        candidate = pts[0]
+        for p in pts[1:]:
+            if candidate == current:
+                candidate = p
+                continue
+            cross = _cross(current, candidate, p)
+            if cross < 0:
+                candidate = p
+            elif cross == 0:
+                # Collinear — pick the farther point
+                if _dist_sq(current, p) > _dist_sq(current, candidate):
+                    candidate = p
+
+        current = candidate
+        if current == start:
+            break
+
+    return hull
+
+
+def _min_bounding_rect(hull: list[tuple]) -> list[tuple]:
+    """Find the minimum area bounding rectangle of a convex hull using rotating calipers."""
+    n = len(hull)
+    if n < 2:
+        return hull
+
+    min_area = float("inf")
+    best_rect = None
+
+    for i in range(n):
+        # Edge vector
+        edge_x = hull[(i + 1) % n][0] - hull[i][0]
+        edge_y = hull[(i + 1) % n][1] - hull[i][1]
+        edge_len = (edge_x ** 2 + edge_y ** 2) ** 0.5
+        if edge_len == 0:
+            continue
+
+        # Unit vectors along and perpendicular to the edge
+        ux, uy = edge_x / edge_len, edge_y / edge_len
+        vx, vy = -uy, ux
+
+        # Project all hull points onto the edge coordinate system
+        projs_u = [p[0] * ux + p[1] * uy for p in hull]
+        projs_v = [p[0] * vx + p[1] * vy for p in hull]
+
+        min_u, max_u = min(projs_u), max(projs_u)
+        min_v, max_v = min(projs_v), max(projs_v)
+
+        area = (max_u - min_u) * (max_v - min_v)
+        if area < min_area:
+            min_area = area
+            # Reconstruct 4 corners in original coordinates
+            best_rect = [
+                (min_u * ux + min_v * vx, min_u * uy + min_v * vy),
+                (max_u * ux + min_v * vx, max_u * uy + min_v * vy),
+                (max_u * ux + max_v * vx, max_u * uy + max_v * vy),
+                (min_u * ux + max_v * vx, min_u * uy + max_v * vy),
+            ]
+
+    return best_rect if best_rect else hull[:4]
+
+
+def _cross(o: tuple, a: tuple, b: tuple) -> float:
+    return (a[0] - o[0]) * (b[1] - o[1]) - (a[1] - o[1]) * (b[0] - o[0])
+
+
+def _dist_sq(a: tuple, b: tuple) -> float:
+    return (a[0] - b[0]) ** 2 + (a[1] - b[1]) ** 2
diff --git a/ocr-service/engines/surya.py b/ocr-service/engines/surya.py
new file mode 100644
index 00000000..c6cc7768
--- /dev/null
+++ b/ocr-service/engines/surya.py
@@ -0,0 +1,66 @@
+"""Surya OCR engine wrapper — transformer-based, handles typewritten and modern Latin handwriting."""
+
+import logging
+
+logger = logging.getLogger(__name__)
+
+# Lazy-loaded at startup via load_models()
+_recognition_model = None
+_recognition_processor = None
+_detection_model = None
+_detection_processor = None
+
+
+def load_models():
+    """Eagerly load Surya models into memory. Called once at container startup."""
+    global _recognition_model, _recognition_processor, _detection_model, _detection_processor
+
+    logger.info("Loading Surya models...")
+
+    from surya.model.detection.model import load_model as load_det_model
+    from surya.model.detection.model import load_processor as load_det_processor
+    from surya.model.recognition.model import load_model as load_rec_model
+    from surya.model.recognition.processor import load_processor as load_rec_processor
+
+    _detection_model = load_det_model()
+    _detection_processor = load_det_processor()
+    _recognition_model = load_rec_model()
+    _recognition_processor = load_rec_processor()
+
+    logger.info("Surya models loaded successfully")
+
+
+def extract_blocks(images: list, language: str = "de") -> list[dict]:
+    """Run Surya OCR on a list of PIL images (one per page).
+
+    Returns a flat list of block dicts with pageNumber, x, y, width, height, text.
+    Coordinates are normalized to [0, 1] relative to page dimensions.
+    """
+    from surya.detection import batch_text_detection
+    from surya.recognition import batch_recognition
+
+    all_blocks = []
+
+    for page_idx, image in enumerate(images):
+        page_w, page_h = image.size
+
+        det_predictions = batch_text_detection([image], _detection_model, _detection_processor)
+        rec_predictions = batch_recognition(
+            [image], det_predictions, _recognition_model, _recognition_processor, [language]
+        )
+
+        for line in rec_predictions[0].text_lines:
+            bbox = line.bbox  # [x1, y1, x2, y2] in pixel coordinates
+            x1, y1, x2, y2 = bbox
+
+            all_blocks.append({
+                "pageNumber": page_idx,
+                "x": x1 / page_w,
+                "y": y1 / page_h,
+                "width": (x2 - x1) / page_w,
+                "height": (y2 - y1) / page_h,
+                "polygon": None,
+                "text": line.text,
+            })
+
+    return all_blocks
diff --git a/ocr-service/main.py b/ocr-service/main.py
new file mode 100644
index 00000000..d4e3f957
--- /dev/null
+++ b/ocr-service/main.py
@@ -0,0 +1,93 @@
+"""OCR microservice — FastAPI app with Surya and Kraken engine support."""
+
+import io
+import logging
+from contextlib import asynccontextmanager
+
+import httpx
+import pypdfium2 as pdfium
+from fastapi import FastAPI, HTTPException
+from PIL import Image
+
+from engines import kraken as kraken_engine
+from engines import surya as surya_engine
+from models import OcrBlock, OcrRequest
+
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+
+_models_ready = False
+
+
+@asynccontextmanager
+async def lifespan(app: FastAPI):
+    """Load all OCR models at startup before accepting requests."""
+    global _models_ready
+
+    logger.info("Loading OCR models at startup...")
+    surya_engine.load_models()
+    kraken_engine.load_models()
+    _models_ready = True
+    logger.info("All OCR models loaded — ready to accept requests")
+
+    yield
+
+    logger.info("Shutting down OCR service")
+
+
+app = FastAPI(title="Familienarchiv OCR Service", lifespan=lifespan)
+
+
+@app.get("/health")
+def health():
+    """Health endpoint — returns 200 only after models are loaded."""
+    if not _models_ready:
+        raise HTTPException(status_code=503, detail="Models not loaded yet")
+    return {"status": "ok", "surya": True, "kraken": kraken_engine.is_available()}
+
+
+@app.post("/ocr", response_model=list[OcrBlock])
+async def run_ocr(request: OcrRequest):
+    """Run OCR on a PDF document.
+
+    Downloads the PDF from the provided URL, converts pages to images,
+    and runs the appropriate OCR engine based on scriptType.
+    """
+    if not _models_ready:
+        raise HTTPException(status_code=503, detail="Models not loaded yet")
+
+    images = await _download_and_convert_pdf(request.pdf_url)
+
+    script_type = request.script_type.upper()
+
+    if script_type == "HANDWRITING_KURRENT":
+        if not kraken_engine.is_available():
+            raise HTTPException(
+                status_code=400,
+                detail="Kraken model not available — cannot process Kurrent script",
+            )
+        blocks = kraken_engine.extract_blocks(images, request.language)
+    else:
+        # TYPEWRITER, HANDWRITING_LATIN, UNKNOWN — all use Surya
+        blocks = surya_engine.extract_blocks(images, request.language)
+
+    return [OcrBlock(**b) for b in blocks]
+
+
+async def _download_and_convert_pdf(url: str) -> list[Image.Image]:
+    """Download a PDF from URL and convert each page to a PIL Image."""
+    async with httpx.AsyncClient(timeout=httpx.Timeout(300.0)) as client:
+        response = await client.get(url)
+        response.raise_for_status()
+
+    pdf = pdfium.PdfDocument(io.BytesIO(response.content))
+    images = []
+
+    for page_idx in range(len(pdf)):
+        page = pdf[page_idx]
+        # Render at 300 DPI for good OCR quality
+        bitmap = page.render(scale=300 / 72)
+        pil_image = bitmap.to_pil()
+        images.append(pil_image)
+
+    return images
diff --git a/ocr-service/models.py b/ocr-service/models.py
new file mode 100644
index 00000000..0d2c1590
--- /dev/null
+++ b/ocr-service/models.py
@@ -0,0 +1,20 @@
+from pydantic import BaseModel, Field
+
+
+class OcrRequest(BaseModel):
+    pdf_url: str = Field(..., alias="pdfUrl")
+    script_type: str = Field("UNKNOWN", alias="scriptType")
+    language: str = "de"
+
+
+class OcrBlock(BaseModel):
+    page_number: int = Field(..., alias="pageNumber")
+    x: float
+    y: float
+    width: float
+    height: float
+    polygon: list[list[float]] | None = None
+    text: str
+
+    class Config:
+        populate_by_name = True
diff --git a/ocr-service/requirements.txt b/ocr-service/requirements.txt
new file mode 100644
index 00000000..49bd00e9
--- /dev/null
+++ b/ocr-service/requirements.txt
@@ -0,0 +1,6 @@
+fastapi[standard]==0.115.6
+surya-ocr==0.6.3
+kraken==5.2.9
+pillow==11.1.0
+pypdfium2==4.30.0
+httpx==0.28.1
-- 
2.49.1


From cf8dc3559fe41321d0e0cf3cc2c7898fd8dcf45a Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 15:30:27 +0200
Subject: [PATCH 08/74] feat(frontend): extract AnnotationShape component with
 polygon support

- AnnotationShape.svelte: renders a single annotation as either a
  rectangle or a polygon-clipped div (via CSS clip-path: polygon())
- AnnotationLayer.svelte: refactored to delegate rendering to
  AnnotationShape, keeping draw logic and hover state management
- Annotation type: added optional polygon field ([number, number][] | null)
- Polygon coordinates are converted from page-normalized to
  bounding-box-relative percentages for clip-path

All 687 existing frontend tests pass.

Refs #227

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../src/lib/components/AnnotationLayer.svelte |  90 ++----------
 .../src/lib/components/AnnotationShape.svelte | 136 ++++++++++++++++++
 frontend/src/lib/types.ts                     |   1 +
 3 files changed, 147 insertions(+), 80 deletions(-)
 create mode 100644 frontend/src/lib/components/AnnotationShape.svelte

diff --git a/frontend/src/lib/components/AnnotationLayer.svelte b/frontend/src/lib/components/AnnotationLayer.svelte
index ec1c29c0..65e87b42 100644
--- a/frontend/src/lib/components/AnnotationLayer.svelte
+++ b/frontend/src/lib/components/AnnotationLayer.svelte
@@ -1,5 +1,6 @@
 <script lang="ts">
 import type { Annotation } from '$lib/types';
+import AnnotationShape from './AnnotationShape.svelte';
 
 type DrawRect = {
 	x: number;
@@ -33,13 +34,6 @@ let {
 let drawStart = $state<{ x: number; y: number } | null>(null);
 let drawRect = $state<DrawRect | null>(null);
 
-function hexToRgba(hex: string, alpha: number): string {
-	const r = parseInt(hex.slice(1, 3), 16);
-	const g = parseInt(hex.slice(3, 5), 16);
-	const b = parseInt(hex.slice(5, 7), 16);
-	return `rgba(${r}, ${g}, ${b}, ${alpha})`;
-}
-
 function getNormalizedCoords(event: PointerEvent, element: HTMLElement): { x: number; y: number } {
 	const rect = element.getBoundingClientRect();
 	return {
@@ -109,58 +103,18 @@ const containerStyle = $derived(
 	onpointerup={handlePointerUp}
 >
 	{#each annotations as annotation (annotation.id)}
-		<div
-			data-testid="annotation-{annotation.id}"
-			data-annotation
-			class:annotation-flash={flashAnnotationId === annotation.id}
-			role="button"
-			tabindex="0"
-			aria-label="Block anzeigen"
+		<AnnotationShape
+			annotation={annotation}
+			isHovered={hoveredId === annotation.id}
+			isActive={annotation.id === activeAnnotationId}
+			faded={!dimmed && !!activeAnnotationId && annotation.id !== activeAnnotationId}
+			dimmed={dimmed}
+			blockNumber={blockNumbers[annotation.id]}
+			isFlashing={flashAnnotationId === annotation.id}
 			onclick={() => onAnnotationClick?.(annotation.id)}
-			onkeydown={(e) => {
-				if (e.key === 'Enter' || e.key === ' ') onAnnotationClick?.(annotation.id);
-			}}
 			onpointerenter={() => (hoveredId = annotation.id)}
 			onpointerleave={() => (hoveredId = null)}
-			style="
-				position: absolute;
-				left: {annotation.x * 100}%;
-				top: {annotation.y * 100}%;
-				width: {annotation.width * 100}%;
-				height: {annotation.height * 100}%;
-				background-color: {hexToRgba(annotation.color, dimmed ? 0.3 : (hoveredId === annotation.id || annotation.id === activeAnnotationId ? 0.5 : 0.3))};
-				box-shadow: {dimmed ? 'none' : (annotation.id === activeAnnotationId ? `inset 0 0 0 2px ${hexToRgba(annotation.color, 0.8)}` : hoveredId === annotation.id ? `inset 0 0 0 2px ${hexToRgba(annotation.color, 0.8)}` : 'none')};
-				opacity: {dimmed ? 1 : (activeAnnotationId && annotation.id !== activeAnnotationId ? 0.3 : 1)};
-				pointer-events: auto;
-				cursor: pointer;
-				transition: background-color 0.15s ease, box-shadow 0.15s ease, opacity 0.3s ease;
-			"
-		>
-			{#if !dimmed && blockNumbers[annotation.id]}
-				<div
-					style="
-						position: absolute;
-						top: -8px;
-						left: -8px;
-						width: 20px;
-						height: 20px;
-						border-radius: 50%;
-						background-color: {annotation.color};
-						color: white;
-						font-size: 11px;
-						font-family: sans-serif;
-						font-weight: 700;
-						display: flex;
-						align-items: center;
-						justify-content: center;
-						pointer-events: none;
-						box-shadow: 0 1px 3px rgba(0,0,0,0.3);
-					"
-				>
-					{blockNumbers[annotation.id]}
-				</div>
-			{/if}
-		</div>
+		/>
 	{/each}
 
 	{#if drawRect && drawRect.width > 0}
@@ -178,27 +132,3 @@ const containerStyle = $derived(
 		></div>
 	{/if}
 </div>
-
-<style>
-@keyframes annotation-flash-anim {
-	0% {
-		outline: 3px solid color-mix(in srgb, var(--color-turquoise) 80%, transparent);
-		outline-offset: 0px;
-	}
-	100% {
-		outline: 3px solid color-mix(in srgb, var(--color-turquoise) 0%, transparent);
-		outline-offset: 2px;
-	}
-}
-
-.annotation-flash {
-	animation: annotation-flash-anim 1.5s ease-out;
-}
-
-@media (prefers-reduced-motion: reduce) {
-	.annotation-flash {
-		animation: none;
-		outline: 3px solid color-mix(in srgb, var(--color-turquoise) 80%, transparent);
-	}
-}
-</style>
diff --git a/frontend/src/lib/components/AnnotationShape.svelte b/frontend/src/lib/components/AnnotationShape.svelte
new file mode 100644
index 00000000..38856474
--- /dev/null
+++ b/frontend/src/lib/components/AnnotationShape.svelte
@@ -0,0 +1,136 @@
+<script lang="ts">
+import type { Annotation } from '$lib/types';
+
+let {
+	annotation,
+	isHovered,
+	isActive,
+	faded = false,
+	dimmed = false,
+	blockNumber = undefined,
+	isFlashing = false,
+	onclick,
+	onpointerenter,
+	onpointerleave
+}: {
+	annotation: Annotation;
+	isHovered: boolean;
+	isActive: boolean;
+	faded?: boolean;
+	dimmed?: boolean;
+	blockNumber?: number | undefined;
+	isFlashing?: boolean;
+	onclick: () => void;
+	onpointerenter: () => void;
+	onpointerleave: () => void;
+} = $props();
+
+function hexToRgba(hex: string, alpha: number): string {
+	const r = parseInt(hex.slice(1, 3), 16);
+	const g = parseInt(hex.slice(3, 5), 16);
+	const b = parseInt(hex.slice(5, 7), 16);
+	return `rgba(${r}, ${g}, ${b}, ${alpha})`;
+}
+
+let clipPath = $derived.by(() => {
+	if (!annotation.polygon || annotation.polygon.length !== 4) return 'none';
+	const points = annotation.polygon
+		.map(([px, py]) => {
+			const cx = ((px - annotation.x) / annotation.width) * 100;
+			const cy = ((py - annotation.y) / annotation.height) * 100;
+			return `${cx}% ${cy}%`;
+		})
+		.join(', ');
+	return `polygon(${points})`;
+});
+
+let bgAlpha = $derived(dimmed ? 0.3 : isHovered || isActive ? 0.5 : 0.3);
+
+let boxShadow = $derived.by(() => {
+	if (dimmed) return 'none';
+	if (isActive || isHovered) return `inset 0 0 0 2px ${hexToRgba(annotation.color, 0.8)}`;
+	return 'none';
+});
+
+let opacity = $derived(dimmed ? 1 : faded ? 0.3 : 1);
+
+let shapeStyle = $derived(
+	`position: absolute;` +
+		` left: ${annotation.x * 100}%;` +
+		` top: ${annotation.y * 100}%;` +
+		` width: ${annotation.width * 100}%;` +
+		` height: ${annotation.height * 100}%;` +
+		` background-color: ${hexToRgba(annotation.color, bgAlpha)};` +
+		` box-shadow: ${boxShadow};` +
+		` opacity: ${opacity};` +
+		` pointer-events: auto;` +
+		` cursor: pointer;` +
+		` transition: background-color 0.15s ease, box-shadow 0.15s ease, opacity 0.3s ease;` +
+		(clipPath !== 'none' ? ` clip-path: ${clipPath};` : '')
+);
+</script>
+
+<div
+	data-testid="annotation-{annotation.id}"
+	data-annotation
+	class:annotation-flash={isFlashing}
+	role="button"
+	tabindex="0"
+	aria-label="Block anzeigen"
+	onclick={onclick}
+	onkeydown={(e) => {
+		if (e.key === 'Enter' || e.key === ' ') onclick();
+	}}
+	onpointerenter={onpointerenter}
+	onpointerleave={onpointerleave}
+	style={shapeStyle}
+>
+	{#if !dimmed && blockNumber}
+		<div
+			style="
+				position: absolute;
+				top: -8px;
+				left: -8px;
+				width: 20px;
+				height: 20px;
+				border-radius: 50%;
+				background-color: {annotation.color};
+				color: white;
+				font-size: 11px;
+				font-family: sans-serif;
+				font-weight: 700;
+				display: flex;
+				align-items: center;
+				justify-content: center;
+				pointer-events: none;
+				box-shadow: 0 1px 3px rgba(0,0,0,0.3);
+			"
+		>
+			{blockNumber}
+		</div>
+	{/if}
+</div>
+
+<style>
+@keyframes annotation-flash-anim {
+	0% {
+		outline: 3px solid color-mix(in srgb, var(--color-turquoise) 80%, transparent);
+		outline-offset: 0px;
+	}
+	100% {
+		outline: 3px solid color-mix(in srgb, var(--color-turquoise) 0%, transparent);
+		outline-offset: 2px;
+	}
+}
+
+.annotation-flash {
+	animation: annotation-flash-anim 1.5s ease-out;
+}
+
+@media (prefers-reduced-motion: reduce) {
+	.annotation-flash {
+		animation: none;
+		outline: 3px solid color-mix(in srgb, var(--color-turquoise) 80%, transparent);
+	}
+}
+</style>
diff --git a/frontend/src/lib/types.ts b/frontend/src/lib/types.ts
index 7ddfd95c..adb2aec3 100644
--- a/frontend/src/lib/types.ts
+++ b/frontend/src/lib/types.ts
@@ -49,4 +49,5 @@ export type Annotation = {
 	color: string;
 	createdAt: string;
 	fileHash?: string | null;
+	polygon?: [number, number][] | null;
 };
-- 
2.49.1


From a4651aa317ffb9c0607e5e1b580d10206cce836b Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 15:36:00 +0200
Subject: [PATCH 09/74] feat(frontend): add OCR UI components and translations

- ScriptTypeSelect: native select for TYPEWRITER/HANDWRITING_LATIN/KURRENT
- OcrTrigger: wraps script type select + start button + confirmation dialog
- OcrProgress: SSE-based progress display with page counter and progress bar
- Paraglide translations for OCR (de/en/es): script types, trigger labels,
  confirmation dialog, progress messages, error messages
- ErrorCode type + getErrorMessage: OCR_SERVICE_UNAVAILABLE, OCR_JOB_NOT_FOUND,
  OCR_DOCUMENT_NOT_UPLOADED, OCR_PROCESSING_FAILED

All 687 frontend tests pass.

Refs #226

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 frontend/messages/de.json                     | 22 ++++-
 frontend/messages/en.json                     | 22 ++++-
 frontend/messages/es.json                     | 22 ++++-
 .../src/lib/components/OcrProgress.svelte     | 88 +++++++++++++++++++
 frontend/src/lib/components/OcrTrigger.svelte | 49 +++++++++++
 .../lib/components/ScriptTypeSelect.svelte    | 27 ++++++
 frontend/src/lib/errors.ts                    | 12 +++
 7 files changed, 239 insertions(+), 3 deletions(-)
 create mode 100644 frontend/src/lib/components/OcrProgress.svelte
 create mode 100644 frontend/src/lib/components/OcrTrigger.svelte
 create mode 100644 frontend/src/lib/components/ScriptTypeSelect.svelte

diff --git a/frontend/messages/de.json b/frontend/messages/de.json
index 53f8ed96..886c468a 100644
--- a/frontend/messages/de.json
+++ b/frontend/messages/de.json
@@ -500,5 +500,25 @@
 	"person_alias_delete_title": "Alias entfernen?",
 	"person_alias_delete_body": "Dieser Name wird aus der Suche entfernt.",
 	"person_alias_btn_delete": "Entfernen",
-	"error_alias_not_found": "Der Namensalias wurde nicht gefunden."
+	"error_alias_not_found": "Der Namensalias wurde nicht gefunden.",
+	"error_ocr_service_unavailable": "Der OCR-Dienst ist nicht verfügbar.",
+	"error_ocr_job_not_found": "Der OCR-Auftrag wurde nicht gefunden.",
+	"error_ocr_document_not_uploaded": "Das Dokument hat keine Datei — OCR ist nicht möglich.",
+	"error_ocr_processing_failed": "Die OCR-Verarbeitung ist fehlgeschlagen.",
+	"ocr_script_type_typewriter": "Schreibmaschine",
+	"ocr_script_type_handwriting_latin": "Handschrift (lateinisch)",
+	"ocr_script_type_handwriting_kurrent": "Handschrift (Kurrent/Sütterlin)",
+	"ocr_trigger_label": "Schrifttyp",
+	"ocr_trigger_select_placeholder": "Schrifttyp wählen…",
+	"ocr_trigger_btn": "OCR starten",
+	"ocr_trigger_btn_disabled": "Bitte wählen Sie einen Schrifttyp",
+	"ocr_confirm_title": "Vorhandene Transkription ersetzen?",
+	"ocr_confirm_body": "Alle {count} vorhandenen Blöcke werden gelöscht und durch die OCR-Ergebnisse ersetzt. Diese Aktion kann nicht rückgängig gemacht werden.",
+	"ocr_confirm_btn": "Ersetzen",
+	"ocr_progress_heading": "OCR läuft",
+	"ocr_progress_page": "Seite {current} von {total}",
+	"ocr_error_heading": "OCR fehlgeschlagen",
+	"ocr_error_retry": "Erneut versuchen",
+	"ocr_batch_running": "OCR läuft · {processed} von {total} Dokumente abgeschlossen",
+	"ocr_batch_done": "OCR abgeschlossen · {processed} erfolgreich · {errors} fehlgeschlagen"
 }
diff --git a/frontend/messages/en.json b/frontend/messages/en.json
index 7c535417..86777394 100644
--- a/frontend/messages/en.json
+++ b/frontend/messages/en.json
@@ -500,5 +500,25 @@
 	"person_alias_delete_title": "Remove alias?",
 	"person_alias_delete_body": "This name will be removed from search results.",
 	"person_alias_btn_delete": "Remove",
-	"error_alias_not_found": "The name alias was not found."
+	"error_alias_not_found": "The name alias was not found.",
+	"error_ocr_service_unavailable": "The OCR service is not available.",
+	"error_ocr_job_not_found": "The OCR job was not found.",
+	"error_ocr_document_not_uploaded": "The document has no file — OCR is not possible.",
+	"error_ocr_processing_failed": "OCR processing failed.",
+	"ocr_script_type_typewriter": "Typewriter",
+	"ocr_script_type_handwriting_latin": "Handwriting (Latin)",
+	"ocr_script_type_handwriting_kurrent": "Handwriting (Kurrent/Sütterlin)",
+	"ocr_trigger_label": "Script type",
+	"ocr_trigger_select_placeholder": "Select script type…",
+	"ocr_trigger_btn": "Start OCR",
+	"ocr_trigger_btn_disabled": "Please select a script type",
+	"ocr_confirm_title": "Replace existing transcription?",
+	"ocr_confirm_body": "All {count} existing blocks will be deleted and replaced with OCR results. This action cannot be undone.",
+	"ocr_confirm_btn": "Replace",
+	"ocr_progress_heading": "OCR running",
+	"ocr_progress_page": "Page {current} of {total}",
+	"ocr_error_heading": "OCR failed",
+	"ocr_error_retry": "Try again",
+	"ocr_batch_running": "OCR running · {processed} of {total} documents complete",
+	"ocr_batch_done": "OCR complete · {processed} successful · {errors} failed"
 }
diff --git a/frontend/messages/es.json b/frontend/messages/es.json
index 52502800..6764392c 100644
--- a/frontend/messages/es.json
+++ b/frontend/messages/es.json
@@ -500,5 +500,25 @@
 	"person_alias_delete_title": "Eliminar alias?",
 	"person_alias_delete_body": "Este nombre se eliminara de los resultados de busqueda.",
 	"person_alias_btn_delete": "Eliminar",
-	"error_alias_not_found": "No se encontro el alias de nombre."
+	"error_alias_not_found": "No se encontro el alias de nombre.",
+	"error_ocr_service_unavailable": "El servicio OCR no está disponible.",
+	"error_ocr_job_not_found": "No se encontró el trabajo OCR.",
+	"error_ocr_document_not_uploaded": "El documento no tiene archivo — OCR no es posible.",
+	"error_ocr_processing_failed": "El procesamiento OCR ha fallado.",
+	"ocr_script_type_typewriter": "Máquina de escribir",
+	"ocr_script_type_handwriting_latin": "Escritura manuscrita (latina)",
+	"ocr_script_type_handwriting_kurrent": "Escritura manuscrita (Kurrent/Sütterlin)",
+	"ocr_trigger_label": "Tipo de escritura",
+	"ocr_trigger_select_placeholder": "Seleccionar tipo de escritura…",
+	"ocr_trigger_btn": "Iniciar OCR",
+	"ocr_trigger_btn_disabled": "Por favor seleccione un tipo de escritura",
+	"ocr_confirm_title": "¿Reemplazar transcripción existente?",
+	"ocr_confirm_body": "Los {count} bloques existentes serán eliminados y reemplazados con los resultados del OCR. Esta acción no se puede deshacer.",
+	"ocr_confirm_btn": "Reemplazar",
+	"ocr_progress_heading": "OCR en curso",
+	"ocr_progress_page": "Página {current} de {total}",
+	"ocr_error_heading": "OCR fallido",
+	"ocr_error_retry": "Intentar de nuevo",
+	"ocr_batch_running": "OCR en curso · {processed} de {total} documentos completados",
+	"ocr_batch_done": "OCR completado · {processed} exitosos · {errors} fallidos"
 }
diff --git a/frontend/src/lib/components/OcrProgress.svelte b/frontend/src/lib/components/OcrProgress.svelte
new file mode 100644
index 00000000..17d60e46
--- /dev/null
+++ b/frontend/src/lib/components/OcrProgress.svelte
@@ -0,0 +1,88 @@
+<script lang="ts">
+import { m } from '$lib/paraglide/messages.js';
+
+interface Props {
+	jobId: string;
+	onDone: () => void;
+}
+
+let { jobId, onDone }: Props = $props();
+
+let status: 'running' | 'done' | 'error' = $state('running');
+let processed: number = $state(0);
+let total: number = $state(0);
+let currentPage: number = $state(0);
+let totalPages: number = $state(0);
+
+let progressPercent = $derived(total > 0 ? Math.round((processed / total) * 100) : 0);
+
+$effect(() => {
+	const source = new EventSource(`/api/ocr/jobs/${jobId}/progress`);
+
+	source.addEventListener('document', (e) => {
+		const data = JSON.parse(e.data);
+		processed = data.processed;
+		total = data.total;
+	});
+
+	source.addEventListener('page', (e) => {
+		const data = JSON.parse(e.data);
+		currentPage = data.page;
+		totalPages = data.totalPages;
+	});
+
+	source.addEventListener('done', () => {
+		status = 'done';
+		source.close();
+		onDone();
+	});
+
+	source.addEventListener('error', () => {
+		status = 'error';
+		source.close();
+	});
+
+	source.onerror = () => {
+		status = 'error';
+		source.close();
+	};
+
+	return () => {
+		source.close();
+	};
+});
+</script>
+
+{#if status === 'running'}
+	<div class="border-brand-sand rounded-sm border bg-white p-4">
+		<h3 class="mb-3 text-xs font-bold tracking-widest text-gray-400 uppercase">
+			{m.ocr_progress_heading()}
+		</h3>
+		<div class="bg-brand-sand h-2 w-full overflow-hidden rounded-full">
+			<div
+				class="h-full bg-brand-mint transition-all duration-300"
+				style="width: {progressPercent}%"
+				role="progressbar"
+				aria-valuenow={progressPercent}
+				aria-valuemin={0}
+				aria-valuemax={100}
+			></div>
+		</div>
+		<p class="mt-2 text-right text-sm text-gray-500">
+			{m.ocr_progress_page({ current: String(currentPage), total: String(totalPages) })}
+		</p>
+	</div>
+{:else if status === 'error'}
+	<div class="border-brand-sand rounded-sm border border-l-4 border-l-red-500 bg-white p-4">
+		<h3 class="mb-2 text-sm font-semibold text-red-700">
+			{m.ocr_error_heading()}
+		</h3>
+		<button
+			type="button"
+			onclick={() => { status = 'running'; }}
+			class="text-sm font-medium text-brand-navy transition-colors hover:text-brand-navy/80"
+		>
+			{m.ocr_error_retry()}
+		</button>
+	</div>
+{/if}
diff --git a/frontend/src/lib/components/OcrTrigger.svelte b/frontend/src/lib/components/OcrTrigger.svelte
new file mode 100644
index 00000000..45002059
--- /dev/null
+++ b/frontend/src/lib/components/OcrTrigger.svelte
@@ -0,0 +1,49 @@
+<script lang="ts">
+import { untrack } from 'svelte';
+import * as m from '$lib/paraglide/messages.js';
+import { getConfirmService } from '$lib/services/confirm.svelte';
+import ScriptTypeSelect from './ScriptTypeSelect.svelte';
+
+interface Props {
+	existingBlockCount: number;
+	storedScriptType: string;
+	onTrigger: (scriptType: string) => void;
+}
+
+let { existingBlockCount, storedScriptType, onTrigger }: Props = $props();
+
+const { confirm } = getConfirmService();
+
+let selectedScriptType: string = $state(
+	untrack(() => (storedScriptType && storedScriptType !== 'UNKNOWN' ? storedScriptType : ''))
+);
+
+async function handleClick() {
+	if (!selectedScriptType) return;
+
+	if (existingBlockCount > 0) {
+		const confirmed = await confirm({
+			title: m.ocr_confirm_title(),
+			body: m.ocr_confirm_body({ count: String(existingBlockCount) }),
+			confirmLabel: m.ocr_confirm_btn(),
+			destructive: true
+		});
+		if (!confirmed) return;
+	}
+
+	onTrigger(selectedScriptType);
+}
+</script>
+
+<div class="flex flex-col gap-3">
+	<ScriptTypeSelect bind:value={selectedScriptType} />
+	<button
+		type="button"
+		disabled={!selectedScriptType}
+		title={!selectedScriptType ? m.ocr_trigger_btn_disabled() : undefined}
+		onclick={handleClick}
+		class="min-h-[44px] w-full rounded-sm bg-brand-navy font-sans text-sm font-medium text-white transition-colors hover:bg-brand-navy/90 disabled:cursor-not-allowed disabled:opacity-50"
+	>
+		{m.ocr_trigger_btn()}
+	</button>
+</div>
diff --git a/frontend/src/lib/components/ScriptTypeSelect.svelte b/frontend/src/lib/components/ScriptTypeSelect.svelte
new file mode 100644
index 00000000..9db31811
--- /dev/null
+++ b/frontend/src/lib/components/ScriptTypeSelect.svelte
@@ -0,0 +1,27 @@
+<script lang="ts">
+import * as m from '$lib/paraglide/messages.js';
+
+interface Props {
+	value: string;
+	disabled?: boolean;
+}
+
+let { value = $bindable(), disabled = false }: Props = $props();
+</script>
+
+<div>
+	<label for="script-type-select" class="text-xs font-bold tracking-widest text-gray-400 uppercase">
+		{m.ocr_trigger_label()}
+	</label>
+	<select
+		id="script-type-select"
+		bind:value={value}
+		disabled={disabled}
+		class="border-brand-sand min-h-[44px] w-full rounded-sm border bg-white px-3 py-2 font-serif text-sm text-brand-navy focus:ring-2 focus:ring-brand-mint focus:outline-none"
+	>
+		<option value="" disabled>{m.ocr_trigger_select_placeholder()}</option>
+		<option value="TYPEWRITER">{m.ocr_script_type_typewriter()}</option>
+		<option value="HANDWRITING_LATIN">{m.ocr_script_type_handwriting_latin()}</option>
+		<option value="HANDWRITING_KURRENT">{m.ocr_script_type_handwriting_kurrent()}</option>
+	</select>
+</div>
diff --git a/frontend/src/lib/errors.ts b/frontend/src/lib/errors.ts
index 1adfaa03..1b8e8876 100644
--- a/frontend/src/lib/errors.ts
+++ b/frontend/src/lib/errors.ts
@@ -22,6 +22,10 @@ export type ErrorCode =
 	| 'TRANSCRIPTION_BLOCK_NOT_FOUND'
 	| 'TRANSCRIPTION_BLOCK_CONFLICT'
 	| 'COMMENT_NOT_FOUND'
+	| 'OCR_SERVICE_UNAVAILABLE'
+	| 'OCR_JOB_NOT_FOUND'
+	| 'OCR_DOCUMENT_NOT_UPLOADED'
+	| 'OCR_PROCESSING_FAILED'
 	| 'UNAUTHORIZED'
 	| 'FORBIDDEN'
 	| 'VALIDATION_ERROR'
@@ -85,6 +89,14 @@ export function getErrorMessage(code: ErrorCode | string | undefined): string {
 			return m.error_transcription_block_conflict();
 		case 'COMMENT_NOT_FOUND':
 			return m.error_comment_not_found();
+		case 'OCR_SERVICE_UNAVAILABLE':
+			return m.error_ocr_service_unavailable();
+		case 'OCR_JOB_NOT_FOUND':
+			return m.error_ocr_job_not_found();
+		case 'OCR_DOCUMENT_NOT_UPLOADED':
+			return m.error_ocr_document_not_uploaded();
+		case 'OCR_PROCESSING_FAILED':
+			return m.error_ocr_processing_failed();
 		case 'UNAUTHORIZED':
 			return m.error_unauthorized();
 		case 'FORBIDDEN':
-- 
2.49.1


From 931fbc28e54d4ce2790a47df1967ce16e6295be8 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 15:39:54 +0200
Subject: [PATCH 10/74] fix(annotations): use @JdbcTypeCode(JSON) for polygon
 JSONB column
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Replace @Convert(PolygonConverter) with Hibernate native @JdbcTypeCode(SqlTypes.JSON)
to fix JDBC type mismatch — PostgreSQL requires jsonb type, not varchar.

The PolygonConverter is retained as a standalone utility but no longer
used on the entity. Hibernate 6 natively handles List<List<Double>>
serialization to JSONB.

Refs #227

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../org/raddatz/familienarchiv/model/DocumentAnnotation.java  | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/model/DocumentAnnotation.java b/backend/src/main/java/org/raddatz/familienarchiv/model/DocumentAnnotation.java
index d4e02258..5aaaff2d 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/model/DocumentAnnotation.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/model/DocumentAnnotation.java
@@ -4,6 +4,8 @@ import io.swagger.v3.oas.annotations.media.Schema;
 import jakarta.persistence.*;
 import lombok.*;
 import org.hibernate.annotations.CreationTimestamp;
+import org.hibernate.annotations.JdbcTypeCode;
+import org.hibernate.type.SqlTypes;
 
 import java.time.LocalDateTime;
 import java.util.List;
@@ -53,8 +55,8 @@ public class DocumentAnnotation {
     @Column(name = "file_hash", length = 64)
     private String fileHash;
 
+    @JdbcTypeCode(SqlTypes.JSON)
     @Column(columnDefinition = "jsonb")
-    @Convert(converter = PolygonConverter.class)
     private List<List<Double>> polygon;
 
     @Column(name = "created_by")
-- 
2.49.1


From d49010cd7b13300bb16ea8e4c4b20b17bc709722 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 18:40:46 +0200
Subject: [PATCH 11/74] fix(ocr): relax pillow version to match surya-ocr
 constraint

surya-ocr 0.6.3 requires pillow<11.0.0,>=10.2.0. The previous
pin at 11.1.0 caused a dependency resolution failure during
Docker build.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 ocr-service/requirements.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ocr-service/requirements.txt b/ocr-service/requirements.txt
index 49bd00e9..d0d141bc 100644
--- a/ocr-service/requirements.txt
+++ b/ocr-service/requirements.txt
@@ -1,6 +1,6 @@
 fastapi[standard]==0.115.6
 surya-ocr==0.6.3
 kraken==5.2.9
-pillow==11.1.0
+pillow>=10.2.0,<11.0.0
 pypdfium2==4.30.0
 httpx==0.28.1
-- 
2.49.1


From e29c8650161504d10563f450f07820723b7c394a Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 18:48:14 +0200
Subject: [PATCH 12/74] fix(ocr): upgrade kraken to 6.0.3 for torch>=2.4
 compatibility

kraken 5.2.9 required torch~=2.1.0, incompatible with surya-ocr's
torch>=2.3.0. kraken 6.0.3 requires torch>=2.4.0,<=2.9 which
overlaps with surya and our pinned torch==2.5.1.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 ocr-service/requirements.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ocr-service/requirements.txt b/ocr-service/requirements.txt
index d0d141bc..130c76ef 100644
--- a/ocr-service/requirements.txt
+++ b/ocr-service/requirements.txt
@@ -1,6 +1,6 @@
 fastapi[standard]==0.115.6
 surya-ocr==0.6.3
-kraken==5.2.9
+kraken==6.0.3
 pillow>=10.2.0,<11.0.0
 pypdfium2==4.30.0
 httpx==0.28.1
-- 
2.49.1


From 49975154d9273559ce1938ae258e8396ab02d8bd Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 18:53:14 +0200
Subject: [PATCH 13/74] feat(ocr): bump to latest surya 0.17.1, kraken 7.0,
 torch 2.7.1
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

- surya-ocr 0.6.3 → 0.17.1: new predictor API (FoundationPredictor,
  RecognitionPredictor, DetectionPredictor), native polygon output
  on text lines (4-point clockwise)
- kraken 5.2.9 → 7.0: wider torch range (>=2.4,<=2.10), unpinned numpy
- torch 2.5.1 → 2.7.1: satisfies surya's >=2.7.0 requirement
- Rewrite engines/surya.py for the 0.17 predictor class API
- Surya now outputs polygons natively — no longer rectangle-only

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 ocr-service/Dockerfile       |  2 +-
 ocr-service/engines/surya.py | 52 +++++++++++++++++-------------------
 ocr-service/requirements.txt |  4 +--
 3 files changed, 28 insertions(+), 30 deletions(-)

diff --git a/ocr-service/Dockerfile b/ocr-service/Dockerfile
index 24f74be0..57368726 100644
--- a/ocr-service/Dockerfile
+++ b/ocr-service/Dockerfile
@@ -10,7 +10,7 @@ RUN apt-get update && apt-get install -y --no-install-recommends \
 
 # PyTorch CPU-only — separate layer; the whl/cpu index strips all CUDA variants (~2 GB saved)
 RUN pip install --no-cache-dir \
-    torch==2.5.1 \
+    torch==2.7.1 \
     --index-url https://download.pytorch.org/whl/cpu
 
 COPY requirements.txt .
diff --git a/ocr-service/engines/surya.py b/ocr-service/engines/surya.py
index c6cc7768..77a895d9 100644
--- a/ocr-service/engines/surya.py
+++ b/ocr-service/engines/surya.py
@@ -4,28 +4,23 @@ import logging
 
 logger = logging.getLogger(__name__)
 
-# Lazy-loaded at startup via load_models()
-_recognition_model = None
-_recognition_processor = None
-_detection_model = None
-_detection_processor = None
+_recognition_predictor = None
+_detection_predictor = None
 
 
 def load_models():
     """Eagerly load Surya models into memory. Called once at container startup."""
-    global _recognition_model, _recognition_processor, _detection_model, _detection_processor
+    global _recognition_predictor, _detection_predictor
 
     logger.info("Loading Surya models...")
 
-    from surya.model.detection.model import load_model as load_det_model
-    from surya.model.detection.model import load_processor as load_det_processor
-    from surya.model.recognition.model import load_model as load_rec_model
-    from surya.model.recognition.processor import load_processor as load_rec_processor
+    from surya.foundation import FoundationPredictor
+    from surya.recognition import RecognitionPredictor
+    from surya.detection import DetectionPredictor
 
-    _detection_model = load_det_model()
-    _detection_processor = load_det_processor()
-    _recognition_model = load_rec_model()
-    _recognition_processor = load_rec_processor()
+    foundation_predictor = FoundationPredictor()
+    _recognition_predictor = RecognitionPredictor(foundation_predictor)
+    _detection_predictor = DetectionPredictor()
 
     logger.info("Surya models loaded successfully")
 
@@ -33,33 +28,36 @@ def load_models():
 def extract_blocks(images: list, language: str = "de") -> list[dict]:
     """Run Surya OCR on a list of PIL images (one per page).
 
-    Returns a flat list of block dicts with pageNumber, x, y, width, height, text.
-    Coordinates are normalized to [0, 1] relative to page dimensions.
+    Returns a flat list of block dicts with pageNumber, x, y, width, height,
+    polygon, text. Coordinates are normalized to [0, 1] relative to page dimensions.
+    Surya 0.17+ returns polygon (4-point) natively on each text line.
     """
-    from surya.detection import batch_text_detection
-    from surya.recognition import batch_recognition
-
     all_blocks = []
 
-    for page_idx, image in enumerate(images):
-        page_w, page_h = image.size
+    predictions = _recognition_predictor(images, det_predictor=_detection_predictor)
 
-        det_predictions = batch_text_detection([image], _detection_model, _detection_processor)
-        rec_predictions = batch_recognition(
-            [image], det_predictions, _recognition_model, _recognition_processor, [language]
-        )
+    for page_idx, page_pred in enumerate(predictions):
+        page_w, page_h = images[page_idx].size
 
-        for line in rec_predictions[0].text_lines:
+        for line in page_pred.text_lines:
             bbox = line.bbox  # [x1, y1, x2, y2] in pixel coordinates
             x1, y1, x2, y2 = bbox
 
+            # Surya 0.17 provides polygon as list of (x, y) tuples (4 points, clockwise)
+            polygon = None
+            if hasattr(line, "polygon") and line.polygon and len(line.polygon) == 4:
+                polygon = [
+                    [p[0] / page_w, p[1] / page_h]
+                    for p in line.polygon
+                ]
+
             all_blocks.append({
                 "pageNumber": page_idx,
                 "x": x1 / page_w,
                 "y": y1 / page_h,
                 "width": (x2 - x1) / page_w,
                 "height": (y2 - y1) / page_h,
-                "polygon": None,
+                "polygon": polygon,
                 "text": line.text,
             })
 
diff --git a/ocr-service/requirements.txt b/ocr-service/requirements.txt
index 130c76ef..5a090f8b 100644
--- a/ocr-service/requirements.txt
+++ b/ocr-service/requirements.txt
@@ -1,6 +1,6 @@
 fastapi[standard]==0.115.6
-surya-ocr==0.6.3
-kraken==6.0.3
+surya-ocr==0.17.1
+kraken==7.0
 pillow>=10.2.0,<11.0.0
 pypdfium2==4.30.0
 httpx==0.28.1
-- 
2.49.1


From c74539b04b7a97c06e0f6632b3922e65823976fb Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 19:16:17 +0200
Subject: [PATCH 14/74] feat(ocr): auto-insert [unleserlich] markers for
 low-confidence words

New confidence.py module with two functions:
- apply_confidence_markers(): replaces words below threshold with
  [unleserlich], collapses adjacent markers into one
- words_from_characters(): reconstructs word-level confidence from
  Kraken's character-level data

Surya 0.17 provides native word-level confidence via line.words.
Kraken 7.0 provides per-character confidences via record.confidences.
Both engines now pass word+confidence data through main.py, which
applies the marker post-processing before returning the API response.

Threshold configurable via OCR_CONFIDENCE_THRESHOLD env var (default 0.3).
Frontend already renders [unleserlich] markers via transcriptionMarkers.ts.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 docker-compose.yml             |   1 +
 ocr-service/confidence.py      |  79 +++++++++++++++++
 ocr-service/engines/kraken.py  |   6 ++
 ocr-service/engines/surya.py   |  12 +++
 ocr-service/main.py            |   6 ++
 ocr-service/test_confidence.py | 153 +++++++++++++++++++++++++++++++++
 6 files changed, 257 insertions(+)
 create mode 100644 ocr-service/confidence.py
 create mode 100644 ocr-service/test_confidence.py

diff --git a/docker-compose.yml b/docker-compose.yml
index 0dd05942..5e88f381 100644
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -84,6 +84,7 @@ services:
       - ocr_models:/app/models
     environment:
       KRAKEN_MODEL_PATH: /app/models/german_kurrent.mlmodel
+      OCR_CONFIDENCE_THRESHOLD: "0.3"
     networks:
       - archive-net
     healthcheck:
diff --git a/ocr-service/confidence.py b/ocr-service/confidence.py
new file mode 100644
index 00000000..092c2892
--- /dev/null
+++ b/ocr-service/confidence.py
@@ -0,0 +1,79 @@
+"""Confidence-based [unleserlich] marker insertion for OCR output."""
+
+import os
+
+CONFIDENCE_THRESHOLD = float(os.environ.get("OCR_CONFIDENCE_THRESHOLD", "0.3"))
+
+ILLEGIBLE_MARKER = "[unleserlich]"
+
+
+def apply_confidence_markers(words: list[dict]) -> str:
+    """Replace low-confidence words with [unleserlich], collapsing adjacent markers.
+
+    Args:
+        words: list of {"text": str, "confidence": float} dicts
+
+    Returns:
+        Reconstructed text string with [unleserlich] substitutions.
+    """
+    if not words:
+        return ""
+
+    result: list[str] = []
+    prev_was_marker = False
+
+    for word in words:
+        if word["confidence"] < CONFIDENCE_THRESHOLD:
+            if not prev_was_marker:
+                result.append(ILLEGIBLE_MARKER)
+            prev_was_marker = True
+        else:
+            result.append(word["text"])
+            prev_was_marker = False
+
+    return " ".join(result)
+
+
+def words_from_characters(prediction: str, confidences: list[float]) -> list[dict]:
+    """Reconstruct word-level confidence from character-level data.
+
+    Splits prediction on whitespace, maps characters to their confidences,
+    computes mean confidence per word.
+
+    Args:
+        prediction: full line text from Kraken
+        confidences: per-character confidence list (same length as prediction)
+
+    Returns:
+        list of {"text": str, "confidence": float} dicts
+    """
+    if not prediction or not prediction.strip():
+        return []
+
+    if len(confidences) != len(prediction):
+        return [{"text": prediction, "confidence": 1.0}]
+
+    result: list[dict] = []
+    current_word: list[str] = []
+    current_confs: list[float] = []
+
+    for char, conf in zip(prediction, confidences):
+        if char == " ":
+            if current_word:
+                result.append({
+                    "text": "".join(current_word),
+                    "confidence": sum(current_confs) / len(current_confs),
+                })
+                current_word = []
+                current_confs = []
+        else:
+            current_word.append(char)
+            current_confs.append(conf)
+
+    if current_word:
+        result.append({
+            "text": "".join(current_word),
+            "confidence": sum(current_confs) / len(current_confs),
+        })
+
+    return result
diff --git a/ocr-service/engines/kraken.py b/ocr-service/engines/kraken.py
index 16cb3d0b..a0fec491 100644
--- a/ocr-service/engines/kraken.py
+++ b/ocr-service/engines/kraken.py
@@ -37,6 +37,7 @@ def extract_blocks(images: list, language: str = "de") -> list[dict]:
     Coordinates are normalized to [0, 1].
     """
     from kraken import blla, rpred
+    from confidence import words_from_characters
 
     if _model is None:
         raise RuntimeError("Kraken model is not loaded")
@@ -73,6 +74,10 @@ def extract_blocks(images: list, language: str = "de") -> list[dict]:
             # Approximate polygon to quadrilateral
             quad = _approximate_to_quad(polygon_pts, page_w, page_h) if polygon_pts else None
 
+            # Extract word-level confidence for [unleserlich] marking
+            char_confidences = getattr(record, "confidences", [])
+            words = words_from_characters(record.prediction, char_confidences)
+
             all_blocks.append({
                 "pageNumber": page_idx,
                 "x": x1 / page_w,
@@ -81,6 +86,7 @@ def extract_blocks(images: list, language: str = "de") -> list[dict]:
                 "height": (y2 - y1) / page_h,
                 "polygon": quad,
                 "text": record.prediction,
+                "words": words,
             })
 
     return all_blocks
diff --git a/ocr-service/engines/surya.py b/ocr-service/engines/surya.py
index 77a895d9..94fc330b 100644
--- a/ocr-service/engines/surya.py
+++ b/ocr-service/engines/surya.py
@@ -51,6 +51,17 @@ def extract_blocks(images: list, language: str = "de") -> list[dict]:
                     for p in line.polygon
                 ]
 
+            # Extract word-level confidence for [unleserlich] marking
+            words = []
+            if hasattr(line, "words") and line.words:
+                for word in line.words:
+                    words.append({
+                        "text": word.text,
+                        "confidence": word.confidence,
+                    })
+            else:
+                words = [{"text": line.text, "confidence": getattr(line, "confidence", 1.0)}]
+
             all_blocks.append({
                 "pageNumber": page_idx,
                 "x": x1 / page_w,
@@ -59,6 +70,7 @@ def extract_blocks(images: list, language: str = "de") -> list[dict]:
                 "height": (y2 - y1) / page_h,
                 "polygon": polygon,
                 "text": line.text,
+                "words": words,
             })
 
     return all_blocks
diff --git a/ocr-service/main.py b/ocr-service/main.py
index d4e3f957..f87985e6 100644
--- a/ocr-service/main.py
+++ b/ocr-service/main.py
@@ -9,6 +9,7 @@ import pypdfium2 as pdfium
 from fastapi import FastAPI, HTTPException
 from PIL import Image
 
+from confidence import apply_confidence_markers
 from engines import kraken as kraken_engine
 from engines import surya as surya_engine
 from models import OcrBlock, OcrRequest
@@ -71,6 +72,11 @@ async def run_ocr(request: OcrRequest):
         # TYPEWRITER, HANDWRITING_LATIN, UNKNOWN — all use Surya
         blocks = surya_engine.extract_blocks(images, request.language)
 
+    for block in blocks:
+        if block.get("words"):
+            block["text"] = apply_confidence_markers(block["words"])
+        block.pop("words", None)
+
     return [OcrBlock(**b) for b in blocks]
 
 
diff --git a/ocr-service/test_confidence.py b/ocr-service/test_confidence.py
new file mode 100644
index 00000000..e1359eb1
--- /dev/null
+++ b/ocr-service/test_confidence.py
@@ -0,0 +1,153 @@
+"""Tests for confidence-based [unleserlich] marker insertion."""
+
+import os
+import pytest
+from confidence import apply_confidence_markers, words_from_characters
+
+
+# ─── apply_confidence_markers ─────────────────────────────────────────────────
+
+
+def test_all_words_above_threshold_passes_through():
+    words = [
+        {"text": "Lieber", "confidence": 0.95},
+        {"text": "Freund", "confidence": 0.88},
+    ]
+    assert apply_confidence_markers(words) == "Lieber Freund"
+
+
+def test_single_low_confidence_word_replaced():
+    words = [
+        {"text": "Lieber", "confidence": 0.95},
+        {"text": "xkqz", "confidence": 0.1},
+        {"text": "Freund", "confidence": 0.88},
+    ]
+    assert apply_confidence_markers(words) == "Lieber [unleserlich] Freund"
+
+
+def test_adjacent_low_confidence_words_collapsed():
+    words = [
+        {"text": "Lieber", "confidence": 0.95},
+        {"text": "xkqz", "confidence": 0.1},
+        {"text": "abc", "confidence": 0.05},
+        {"text": "yyy", "confidence": 0.2},
+        {"text": "Freund", "confidence": 0.88},
+    ]
+    assert apply_confidence_markers(words) == "Lieber [unleserlich] Freund"
+
+
+def test_mixed_high_low_each_group_gets_marker():
+    words = [
+        {"text": "Lieber", "confidence": 0.95},
+        {"text": "xkqz", "confidence": 0.1},
+        {"text": "wie", "confidence": 0.9},
+        {"text": "abc", "confidence": 0.05},
+        {"text": "dir", "confidence": 0.88},
+    ]
+    assert apply_confidence_markers(words) == "Lieber [unleserlich] wie [unleserlich] dir"
+
+
+def test_all_below_threshold_returns_single_marker():
+    words = [
+        {"text": "xkq", "confidence": 0.1},
+        {"text": "zzz", "confidence": 0.05},
+    ]
+    assert apply_confidence_markers(words) == "[unleserlich]"
+
+
+def test_empty_list_returns_empty_string():
+    assert apply_confidence_markers([]) == ""
+
+
+def test_single_word_above_threshold():
+    words = [{"text": "Hallo", "confidence": 0.9}]
+    assert apply_confidence_markers(words) == "Hallo"
+
+
+def test_exact_threshold_passes_through():
+    """Confidence exactly at threshold should NOT be replaced (strict <)."""
+    words = [{"text": "Wort", "confidence": 0.3}]
+    assert apply_confidence_markers(words) == "Wort"
+
+
+def test_just_below_threshold_replaced():
+    words = [{"text": "Wort", "confidence": 0.29}]
+    assert apply_confidence_markers(words) == "[unleserlich]"
+
+
+def test_custom_threshold_via_env(monkeypatch):
+    monkeypatch.setenv("OCR_CONFIDENCE_THRESHOLD", "0.8")
+    # Need to reload the module to pick up the new env var
+    import importlib
+    import confidence
+    importlib.reload(confidence)
+
+    words = [
+        {"text": "Lieber", "confidence": 0.95},
+        {"text": "Freund", "confidence": 0.5},
+    ]
+    assert confidence.apply_confidence_markers(words) == "Lieber [unleserlich]"
+
+    # Reset
+    monkeypatch.setenv("OCR_CONFIDENCE_THRESHOLD", "0.3")
+    importlib.reload(confidence)
+
+
+def test_low_confidence_at_start():
+    words = [
+        {"text": "xkq", "confidence": 0.1},
+        {"text": "Freund", "confidence": 0.88},
+    ]
+    assert apply_confidence_markers(words) == "[unleserlich] Freund"
+
+
+def test_low_confidence_at_end():
+    words = [
+        {"text": "Lieber", "confidence": 0.95},
+        {"text": "xkq", "confidence": 0.1},
+    ]
+    assert apply_confidence_markers(words) == "Lieber [unleserlich]"
+
+
+# ─── words_from_characters ────────────────────────────────────────────────────
+
+
+def test_single_word_matching_confidences():
+    words = words_from_characters("Hallo", [0.9, 0.8, 0.85, 0.7, 0.95])
+    assert len(words) == 1
+    assert words[0]["text"] == "Hallo"
+    assert abs(words[0]["confidence"] - 0.84) < 0.01
+
+
+def test_multi_word_with_spaces():
+    prediction = "Sehr geehrter"
+    confidences = [0.9, 0.8, 0.7, 0.6, 0.5, 0.9, 0.8, 0.7, 0.6, 0.5, 0.4, 0.3, 0.2]
+    words = words_from_characters(prediction, confidences)
+    assert len(words) == 2
+    assert words[0]["text"] == "Sehr"
+    assert words[1]["text"] == "geehrter"
+
+
+def test_length_mismatch_falls_back_safely():
+    words = words_from_characters("Hallo Welt", [0.9, 0.8])
+    assert len(words) == 1
+    assert words[0]["text"] == "Hallo Welt"
+    assert words[0]["confidence"] == 1.0
+
+
+def test_empty_prediction_returns_empty():
+    assert words_from_characters("", []) == []
+
+
+def test_single_character_word():
+    words = words_from_characters("A B", [0.9, 0.5, 0.3])
+    assert len(words) == 2
+    assert words[0]["text"] == "A"
+    assert words[0]["confidence"] == 0.9
+    assert words[1]["text"] == "B"
+    assert words[1]["confidence"] == 0.3
+
+
+def test_whitespace_only_prediction():
+    words = words_from_characters("   ", [0.5, 0.5, 0.5])
+    assert words == []
-- 
2.49.1


From 41f92622382fa019d89fb1cd0a0b720bb84d233d Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 19:19:39 +0200
Subject: [PATCH 15/74] feat(ocr): add Kraken model download and evaluation
 script

Runbook script to download both HTR-United Kurrent model candidates
(german_kurrent_manu_9, kurrent-de) into the ocr_models Docker volume,
test them against sample documents, and activate the winner.

Usage:
  ./scripts/download-kraken-models.sh              # download both
  ./scripts/download-kraken-models.sh --activate 1  # pick model 1

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 scripts/download-kraken-models.sh | 89 +++++++++++++++++++++++++++++++
 1 file changed, 89 insertions(+)
 create mode 100755 scripts/download-kraken-models.sh

diff --git a/scripts/download-kraken-models.sh b/scripts/download-kraken-models.sh
new file mode 100755
index 00000000..1486e66b
--- /dev/null
+++ b/scripts/download-kraken-models.sh
@@ -0,0 +1,89 @@
+#!/bin/bash
+set -euo pipefail
+
+# Downloads Kraken HTR models for German Kurrent/Suetterlin into the ocr_models volume.
+# Run this once after first deployment, or whenever you want to switch models.
+#
+# Usage:
+#   ./scripts/download-kraken-models.sh              # download both candidates
+#   ./scripts/download-kraken-models.sh --activate 1  # activate model 1 (german_kurrent_manu_9)
+#   ./scripts/download-kraken-models.sh --activate 2  # activate model 2 (kurrent-de)
+
+COMPOSE_SERVICE="ocr-service"
+MODEL_DIR="/app/models"
+ACTIVE_MODEL="$MODEL_DIR/german_kurrent.mlmodel"
+
+MODEL_1_NAME="german_kurrent_manu_9"
+MODEL_1_DESC="19th-century German administrative Kurrent (HTR-United)"
+MODEL_1_PATH="$MODEL_DIR/$MODEL_1_NAME.mlmodel"
+
+MODEL_2_NAME="kurrent-de"
+MODEL_2_DESC="Broad German Kurrent coverage (HTR-United)"
+MODEL_2_PATH="$MODEL_DIR/$MODEL_2_NAME.mlmodel"
+
+# ─── Functions ────────────────────────────────────────────────────────────────
+
+download_models() {
+    echo "Downloading Kraken HTR models into the ocr_models volume..."
+    echo ""
+
+    echo "Model 1: $MODEL_1_NAME"
+    echo "  $MODEL_1_DESC"
+    docker compose run --rm "$COMPOSE_SERVICE" \
+        kraken get "$MODEL_1_NAME" -o "$MODEL_1_PATH"
+    echo ""
+
+    echo "Model 2: $MODEL_2_NAME"
+    echo "  $MODEL_2_DESC"
+    docker compose run --rm "$COMPOSE_SERVICE" \
+        kraken get "$MODEL_2_NAME" -o "$MODEL_2_PATH"
+    echo ""
+
+    echo "Both models downloaded. To test them against a sample document:"
+    echo ""
+    echo "  # Copy a sample Kurrent scan into the container:"
+    echo "  docker cp sample-kurrent.png archive-ocr:/tmp/sample.png"
+    echo ""
+    echo "  # Test model 1:"
+    echo "  docker compose exec ocr-service kraken -i /tmp/sample.png /tmp/out1.txt segment -bl ocr -m $MODEL_1_PATH"
+    echo "  docker compose exec ocr-service cat /tmp/out1.txt"
+    echo ""
+    echo "  # Test model 2:"
+    echo "  docker compose exec ocr-service kraken -i /tmp/sample.png /tmp/out2.txt segment -bl ocr -m $MODEL_2_PATH"
+    echo "  docker compose exec ocr-service cat /tmp/out2.txt"
+    echo ""
+    echo "Then activate the better model:"
+    echo "  ./scripts/download-kraken-models.sh --activate 1   # or 2"
+}
+
+activate_model() {
+    local choice="$1"
+    case "$choice" in
+        1)
+            echo "Activating model 1: $MODEL_1_NAME"
+            docker compose run --rm "$COMPOSE_SERVICE" \
+                cp "$MODEL_1_PATH" "$ACTIVE_MODEL"
+            ;;
+        2)
+            echo "Activating model 2: $MODEL_2_NAME"
+            docker compose run --rm "$COMPOSE_SERVICE" \
+                cp "$MODEL_2_PATH" "$ACTIVE_MODEL"
+            ;;
+        *)
+            echo "Error: --activate expects 1 or 2"
+            exit 1
+            ;;
+    esac
+
+    echo "Active model is now: $ACTIVE_MODEL"
+    echo "Restart the OCR service to load the new model:"
+    echo "  docker compose restart ocr-service"
+}
+
+# ─── Main ─────────────────────────────────────────────────────────────────────
+
+if [[ "${1:-}" == "--activate" ]]; then
+    activate_model "${2:-}"
+else
+    download_models
+fi
-- 
2.49.1


From 6669fffeade9efe91310a3a0de9a67e8383cf105 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 19:34:03 +0200
Subject: [PATCH 16/74] fix(ocr): pin transformers<5.0 and torch==2.7.1 in
 requirements.txt
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

transformers 5.x breaks surya 0.17.1 — SuryaDecoderConfig is missing
pad_token_id. Pin to transformers>=4.56.1,<5.0.0.

Also add torch==2.7.1 to requirements.txt to prevent pip from upgrading
it past the CPU-only build installed in the Dockerfile layer.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 ocr-service/requirements.txt | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/ocr-service/requirements.txt b/ocr-service/requirements.txt
index 5a090f8b..5337edef 100644
--- a/ocr-service/requirements.txt
+++ b/ocr-service/requirements.txt
@@ -1,6 +1,8 @@
 fastapi[standard]==0.115.6
 surya-ocr==0.17.1
 kraken==7.0
+torch==2.7.1
+transformers>=4.56.1,<5.0.0
 pillow>=10.2.0,<11.0.0
 pypdfium2==4.30.0
 httpx==0.28.1
-- 
2.49.1


From 0af474967743a936dafcbd253898d25219cabdbc Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 19:41:59 +0200
Subject: [PATCH 17/74] feat(ocr): extend model script with automatic OCR
 evaluation

Downloads both Kraken models, then runs each against 4 sample PDFs
from the import folder (Eu-0693, Eu-0692, W-0150, W-0575). Output
goes to ocr-model-evaluation/<model-name>/<doc>.txt for side-by-side
comparison.

Usage:
  ./scripts/download-kraken-models.sh           # download + evaluate
  ./scripts/download-kraken-models.sh --eval-only  # re-run evaluation
  ./scripts/download-kraken-models.sh --activate 1  # pick winner

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 scripts/download-kraken-models.sh | 117 ++++++++++++++++++++++--------
 1 file changed, 88 insertions(+), 29 deletions(-)

diff --git a/scripts/download-kraken-models.sh b/scripts/download-kraken-models.sh
index 1486e66b..18d2cdc7 100755
--- a/scripts/download-kraken-models.sh
+++ b/scripts/download-kraken-models.sh
@@ -1,13 +1,13 @@
 #!/bin/bash
 set -euo pipefail
 
-# Downloads Kraken HTR models for German Kurrent/Suetterlin into the ocr_models volume.
-# Run this once after first deployment, or whenever you want to switch models.
+# Downloads Kraken HTR models, runs OCR evaluation on sample PDFs, and activates the winner.
 #
 # Usage:
-#   ./scripts/download-kraken-models.sh              # download both candidates
-#   ./scripts/download-kraken-models.sh --activate 1  # activate model 1 (german_kurrent_manu_9)
-#   ./scripts/download-kraken-models.sh --activate 2  # activate model 2 (kurrent-de)
+#   ./scripts/download-kraken-models.sh                # download models + run evaluation
+#   ./scripts/download-kraken-models.sh --activate 1   # activate model 1 (german_kurrent_manu_9)
+#   ./scripts/download-kraken-models.sh --activate 2   # activate model 2 (kurrent-de)
+#   ./scripts/download-kraken-models.sh --eval-only    # re-run evaluation (models already downloaded)
 
 COMPOSE_SERVICE="ocr-service"
 MODEL_DIR="/app/models"
@@ -21,6 +21,10 @@ MODEL_2_NAME="kurrent-de"
 MODEL_2_DESC="Broad German Kurrent coverage (HTR-United)"
 MODEL_2_PATH="$MODEL_DIR/$MODEL_2_NAME.mlmodel"
 
+EVAL_PDFS=("Eu-0693.pdf" "Eu-0692.pdf" "W-0150.pdf" "W-0575.pdf")
+IMPORT_DIR="./import"
+OUTPUT_BASE="./ocr-model-evaluation"
+
 # ─── Functions ────────────────────────────────────────────────────────────────
 
 download_models() {
@@ -29,31 +33,81 @@ download_models() {
 
     echo "Model 1: $MODEL_1_NAME"
     echo "  $MODEL_1_DESC"
-    docker compose run --rm "$COMPOSE_SERVICE" \
-        kraken get "$MODEL_1_NAME" -o "$MODEL_1_PATH"
+    docker compose run --rm "$COMPOSE_SERVICE" kraken get "$MODEL_1_NAME" -o "$MODEL_1_PATH"
     echo ""
 
     echo "Model 2: $MODEL_2_NAME"
     echo "  $MODEL_2_DESC"
-    docker compose run --rm "$COMPOSE_SERVICE" \
-        kraken get "$MODEL_2_NAME" -o "$MODEL_2_PATH"
+    docker compose run --rm "$COMPOSE_SERVICE" kraken get "$MODEL_2_NAME" -o "$MODEL_2_PATH"
     echo ""
 
-    echo "Both models downloaded. To test them against a sample document:"
+    echo "Both models downloaded."
+}
+
+run_evaluation() {
     echo ""
-    echo "  # Copy a sample Kurrent scan into the container:"
-    echo "  docker cp sample-kurrent.png archive-ocr:/tmp/sample.png"
+    echo "═══════════════════════════════════════════════════════"
+    echo "  Running OCR evaluation on ${#EVAL_PDFS[@]} documents"
+    echo "═══════════════════════════════════════════════════════"
     echo ""
-    echo "  # Test model 1:"
-    echo "  docker compose exec ocr-service kraken -i /tmp/sample.png /tmp/out1.txt segment -bl ocr -m $MODEL_1_PATH"
-    echo "  docker compose exec ocr-service cat /tmp/out1.txt"
+
+    # Create output directories on the host
+    local dir_1="$OUTPUT_BASE/$MODEL_1_NAME"
+    local dir_2="$OUTPUT_BASE/$MODEL_2_NAME"
+    mkdir -p "$dir_1" "$dir_2"
+
+    for pdf in "${EVAL_PDFS[@]}"; do
+        local src="$IMPORT_DIR/$pdf"
+        local basename="${pdf%.pdf}"
+
+        if [[ ! -f "$src" ]]; then
+            echo "SKIP: $src not found"
+            continue
+        fi
+
+        echo "──── $pdf ────"
+
+        # Model 1
+        echo "  Model 1: $MODEL_1_NAME ..."
+        docker compose run --rm \
+            -v "$(cd "$IMPORT_DIR" && pwd):/eval-input:ro" \
+            -v "$(cd "$dir_1" && pwd):/eval-output" \
+            "$COMPOSE_SERVICE" \
+            kraken -i "/eval-input/$pdf" "/eval-output/${basename}.txt" segment -bl ocr -m "$MODEL_1_PATH" \
+            2>/dev/null || echo "  ⚠ Model 1 failed on $pdf"
+
+        # Model 2
+        echo "  Model 2: $MODEL_2_NAME ..."
+        docker compose run --rm \
+            -v "$(cd "$IMPORT_DIR" && pwd):/eval-input:ro" \
+            -v "$(cd "$dir_2" && pwd):/eval-output" \
+            "$COMPOSE_SERVICE" \
+            kraken -i "/eval-input/$pdf" "/eval-output/${basename}.txt" segment -bl ocr -m "$MODEL_2_PATH" \
+            2>/dev/null || echo "  ⚠ Model 2 failed on $pdf"
+
+        echo ""
+    done
+
+    echo "═══════════════════════════════════════════════════════"
+    echo "  Evaluation complete. Results:"
     echo ""
-    echo "  # Test model 2:"
-    echo "  docker compose exec ocr-service kraken -i /tmp/sample.png /tmp/out2.txt segment -bl ocr -m $MODEL_2_PATH"
-    echo "  docker compose exec ocr-service cat /tmp/out2.txt"
+    echo "  Model 1 ($MODEL_1_NAME):"
+    for f in "$dir_1"/*.txt; do
+        [[ -f "$f" ]] && echo "    $(basename "$f"): $(wc -l < "$f") lines, $(wc -c < "$f") bytes"
+    done
     echo ""
-    echo "Then activate the better model:"
-    echo "  ./scripts/download-kraken-models.sh --activate 1   # or 2"
+    echo "  Model 2 ($MODEL_2_NAME):"
+    for f in "$dir_2"/*.txt; do
+        [[ -f "$f" ]] && echo "    $(basename "$f"): $(wc -l < "$f") lines, $(wc -c < "$f") bytes"
+    done
+    echo ""
+    echo "  Compare the outputs side by side:"
+    echo "    diff $dir_1/Eu-0693.txt $dir_2/Eu-0693.txt"
+    echo ""
+    echo "  Then activate the better model:"
+    echo "    ./scripts/download-kraken-models.sh --activate 1   # $MODEL_1_NAME"
+    echo "    ./scripts/download-kraken-models.sh --activate 2   # $MODEL_2_NAME"
+    echo "═══════════════════════════════════════════════════════"
 }
 
 activate_model() {
@@ -61,13 +115,11 @@ activate_model() {
     case "$choice" in
         1)
             echo "Activating model 1: $MODEL_1_NAME"
-            docker compose run --rm "$COMPOSE_SERVICE" \
-                cp "$MODEL_1_PATH" "$ACTIVE_MODEL"
+            docker compose run --rm "$COMPOSE_SERVICE" cp "$MODEL_1_PATH" "$ACTIVE_MODEL"
             ;;
         2)
             echo "Activating model 2: $MODEL_2_NAME"
-            docker compose run --rm "$COMPOSE_SERVICE" \
-                cp "$MODEL_2_PATH" "$ACTIVE_MODEL"
+            docker compose run --rm "$COMPOSE_SERVICE" cp "$MODEL_2_PATH" "$ACTIVE_MODEL"
             ;;
         *)
             echo "Error: --activate expects 1 or 2"
@@ -82,8 +134,15 @@ activate_model() {
 
 # ─── Main ─────────────────────────────────────────────────────────────────────
 
-if [[ "${1:-}" == "--activate" ]]; then
-    activate_model "${2:-}"
-else
-    download_models
-fi
+case "${1:-}" in
+    --activate)
+        activate_model "${2:-}"
+        ;;
+    --eval-only)
+        run_evaluation
+        ;;
+    *)
+        download_models
+        run_evaluation
+        ;;
+esac
-- 
2.49.1


From 37abc376ec01847638314fe6f05cc352f559fd24 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 19:46:37 +0200
Subject: [PATCH 18/74] fix(ocr): install torchvision from CPU index alongside
 torch

torchvision installed from PyPI expects CUDA torch operator
registrations. Installing from the CPU whl index ensures torchvision
matches the CPU-only torch build. Fixes 'torchvision::nms does not
exist' RuntimeError on startup.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 ocr-service/Dockerfile       | 2 ++
 ocr-service/requirements.txt | 1 +
 2 files changed, 3 insertions(+)

diff --git a/ocr-service/Dockerfile b/ocr-service/Dockerfile
index 57368726..99ac88fc 100644
--- a/ocr-service/Dockerfile
+++ b/ocr-service/Dockerfile
@@ -9,8 +9,10 @@ RUN apt-get update && apt-get install -y --no-install-recommends \
     && rm -rf /var/lib/apt/lists/*
 
 # PyTorch CPU-only — separate layer; the whl/cpu index strips all CUDA variants (~2 GB saved)
+# torchvision must also come from the CPU index to match torch's operator registrations
 RUN pip install --no-cache-dir \
     torch==2.7.1 \
+    torchvision==0.22.1 \
     --index-url https://download.pytorch.org/whl/cpu
 
 COPY requirements.txt .
diff --git a/ocr-service/requirements.txt b/ocr-service/requirements.txt
index 5337edef..7ee1d67a 100644
--- a/ocr-service/requirements.txt
+++ b/ocr-service/requirements.txt
@@ -2,6 +2,7 @@ fastapi[standard]==0.115.6
 surya-ocr==0.17.1
 kraken==7.0
 torch==2.7.1
+torchvision==0.22.1
 transformers>=4.56.1,<5.0.0
 pillow>=10.2.0,<11.0.0
 pypdfium2==4.30.0
-- 
2.49.1


From f12b41161ecf088a6f5a954ce74466b53a07178f Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 20:05:29 +0200
Subject: [PATCH 19/74] fix(ocr): update model script for kraken 7 DOI-based
 downloads
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Kraken 7 uses DOIs (not short names) to identify models from Zenodo.
Updated to use actual DOIs:
- 10.5281/zenodo.7933463 — German handwriting HTR
- 10.5281/zenodo.13788177 — McCATMuS generic handwritten/printed/typed

Added -f pdf flag for PDF input, volume mounts for import dir,
and post-download copy from htrmopo cache to the models volume.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 scripts/download-kraken-models.sh | 62 ++++++++++++++++++++++---------
 1 file changed, 45 insertions(+), 17 deletions(-)

diff --git a/scripts/download-kraken-models.sh b/scripts/download-kraken-models.sh
index 18d2cdc7..8c9898b1 100755
--- a/scripts/download-kraken-models.sh
+++ b/scripts/download-kraken-models.sh
@@ -5,20 +5,23 @@ set -euo pipefail
 #
 # Usage:
 #   ./scripts/download-kraken-models.sh                # download models + run evaluation
-#   ./scripts/download-kraken-models.sh --activate 1   # activate model 1 (german_kurrent_manu_9)
-#   ./scripts/download-kraken-models.sh --activate 2   # activate model 2 (kurrent-de)
+#   ./scripts/download-kraken-models.sh --activate 1   # activate model 1
+#   ./scripts/download-kraken-models.sh --activate 2   # activate model 2
 #   ./scripts/download-kraken-models.sh --eval-only    # re-run evaluation (models already downloaded)
 
 COMPOSE_SERVICE="ocr-service"
 MODEL_DIR="/app/models"
 ACTIVE_MODEL="$MODEL_DIR/german_kurrent.mlmodel"
 
-MODEL_1_NAME="german_kurrent_manu_9"
-MODEL_1_DESC="19th-century German administrative Kurrent (HTR-United)"
+# Kraken 7 uses DOIs to identify models from HTR-United / Zenodo
+MODEL_1_DOI="10.5281/zenodo.7933463"
+MODEL_1_NAME="german_handwriting"
+MODEL_1_DESC="HTR model for German manuscripts (handwritten text recognition)"
 MODEL_1_PATH="$MODEL_DIR/$MODEL_1_NAME.mlmodel"
 
-MODEL_2_NAME="kurrent-de"
-MODEL_2_DESC="Broad German Kurrent coverage (HTR-United)"
+MODEL_2_DOI="10.5281/zenodo.13788177"
+MODEL_2_NAME="mccatmus"
+MODEL_2_DESC="McCATMuS — generic model for handwritten, printed & typewritten (16th c. onward)"
 MODEL_2_PATH="$MODEL_DIR/$MODEL_2_NAME.mlmodel"
 
 EVAL_PDFS=("Eu-0693.pdf" "Eu-0692.pdf" "W-0150.pdf" "W-0575.pdf")
@@ -27,18 +30,44 @@ OUTPUT_BASE="./ocr-model-evaluation"
 
 # ─── Functions ────────────────────────────────────────────────────────────────
 
+download_model() {
+    local doi="$1"
+    local dest="$2"
+    local name="$3"
+
+    echo "  Downloading $name ($doi)..."
+
+    # kraken get downloads to /root/.local/share/htrmopo/<uuid>/
+    # We find the .mlmodel file after download and copy it to our volume
+    docker compose run --rm "$COMPOSE_SERVICE" sh -c "
+        kraken get $doi 2>&1
+        # Find the most recently downloaded .mlmodel and copy to target
+        FOUND=\$(find /root/.local/share/htrmopo -name '*.mlmodel' -newer /tmp 2>/dev/null | head -1)
+        if [ -n \"\$FOUND\" ]; then
+            cp \"\$FOUND\" $dest
+            echo \"Saved to $dest\"
+        else
+            echo 'ERROR: No .mlmodel file found after download'
+            exit 1
+        fi
+    "
+}
+
 download_models() {
     echo "Downloading Kraken HTR models into the ocr_models volume..."
     echo ""
 
+    # Create a timestamp marker so we can find newly downloaded files
+    docker compose run --rm "$COMPOSE_SERVICE" touch /tmp/.download-marker
+
     echo "Model 1: $MODEL_1_NAME"
     echo "  $MODEL_1_DESC"
-    docker compose run --rm "$COMPOSE_SERVICE" kraken get "$MODEL_1_NAME" -o "$MODEL_1_PATH"
+    download_model "$MODEL_1_DOI" "$MODEL_1_PATH" "$MODEL_1_NAME"
     echo ""
 
     echo "Model 2: $MODEL_2_NAME"
     echo "  $MODEL_2_DESC"
-    docker compose run --rm "$COMPOSE_SERVICE" kraken get "$MODEL_2_NAME" -o "$MODEL_2_PATH"
+    download_model "$MODEL_2_DOI" "$MODEL_2_PATH" "$MODEL_2_NAME"
     echo ""
 
     echo "Both models downloaded."
@@ -51,7 +80,6 @@ run_evaluation() {
     echo "═══════════════════════════════════════════════════════"
     echo ""
 
-    # Create output directories on the host
     local dir_1="$OUTPUT_BASE/$MODEL_1_NAME"
     local dir_2="$OUTPUT_BASE/$MODEL_2_NAME"
     mkdir -p "$dir_1" "$dir_2"
@@ -67,22 +95,20 @@ run_evaluation() {
 
         echo "──── $pdf ────"
 
-        # Model 1
         echo "  Model 1: $MODEL_1_NAME ..."
         docker compose run --rm \
             -v "$(cd "$IMPORT_DIR" && pwd):/eval-input:ro" \
             -v "$(cd "$dir_1" && pwd):/eval-output" \
             "$COMPOSE_SERVICE" \
-            kraken -i "/eval-input/$pdf" "/eval-output/${basename}.txt" segment -bl ocr -m "$MODEL_1_PATH" \
+            kraken -f pdf -i "/eval-input/$pdf" "/eval-output/${basename}.txt" segment -bl ocr -m "$MODEL_1_PATH" \
             2>/dev/null || echo "  ⚠ Model 1 failed on $pdf"
 
-        # Model 2
         echo "  Model 2: $MODEL_2_NAME ..."
         docker compose run --rm \
             -v "$(cd "$IMPORT_DIR" && pwd):/eval-input:ro" \
             -v "$(cd "$dir_2" && pwd):/eval-output" \
             "$COMPOSE_SERVICE" \
-            kraken -i "/eval-input/$pdf" "/eval-output/${basename}.txt" segment -bl ocr -m "$MODEL_2_PATH" \
+            kraken -f pdf -i "/eval-input/$pdf" "/eval-output/${basename}.txt" segment -bl ocr -m "$MODEL_2_PATH" \
             2>/dev/null || echo "  ⚠ Model 2 failed on $pdf"
 
         echo ""
@@ -91,20 +117,22 @@ run_evaluation() {
     echo "═══════════════════════════════════════════════════════"
     echo "  Evaluation complete. Results:"
     echo ""
-    echo "  Model 1 ($MODEL_1_NAME):"
+    echo "  Model 1 — $MODEL_1_NAME ($MODEL_1_DOI):"
     for f in "$dir_1"/*.txt; do
         [[ -f "$f" ]] && echo "    $(basename "$f"): $(wc -l < "$f") lines, $(wc -c < "$f") bytes"
     done
     echo ""
-    echo "  Model 2 ($MODEL_2_NAME):"
+    echo "  Model 2 — $MODEL_2_NAME ($MODEL_2_DOI):"
     for f in "$dir_2"/*.txt; do
         [[ -f "$f" ]] && echo "    $(basename "$f"): $(wc -l < "$f") lines, $(wc -c < "$f") bytes"
     done
     echo ""
-    echo "  Compare the outputs side by side:"
+    echo "  Compare outputs:"
     echo "    diff $dir_1/Eu-0693.txt $dir_2/Eu-0693.txt"
+    echo "    # or view individually:"
+    echo "    cat $dir_1/Eu-0693.txt"
     echo ""
-    echo "  Then activate the better model:"
+    echo "  Activate the better model:"
     echo "    ./scripts/download-kraken-models.sh --activate 1   # $MODEL_1_NAME"
     echo "    ./scripts/download-kraken-models.sh --activate 2   # $MODEL_2_NAME"
     echo "═══════════════════════════════════════════════════════"
-- 
2.49.1


From c0004f5e6f0906fb8f2b7af6782966e786aff1c7 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 20:09:23 +0200
Subject: [PATCH 20/74] fix(ocr): parse kraken 'Model dir' output to locate
 downloaded model

The previous approach used find across the htrmopo cache which failed
because -newer /tmp ran in a separate container. Now parses the
'Model dir: <path>' line from kraken get output directly.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 scripts/download-kraken-models.sh | 32 +++++++++++++++++--------------
 1 file changed, 18 insertions(+), 14 deletions(-)

diff --git a/scripts/download-kraken-models.sh b/scripts/download-kraken-models.sh
index 8c9898b1..6e3d5a47 100755
--- a/scripts/download-kraken-models.sh
+++ b/scripts/download-kraken-models.sh
@@ -37,29 +37,33 @@ download_model() {
 
     echo "  Downloading $name ($doi)..."
 
-    # kraken get downloads to /root/.local/share/htrmopo/<uuid>/
-    # We find the .mlmodel file after download and copy it to our volume
-    docker compose run --rm "$COMPOSE_SERVICE" sh -c "
-        kraken get $doi 2>&1
-        # Find the most recently downloaded .mlmodel and copy to target
-        FOUND=\$(find /root/.local/share/htrmopo -name '*.mlmodel' -newer /tmp 2>/dev/null | head -1)
-        if [ -n \"\$FOUND\" ]; then
-            cp \"\$FOUND\" $dest
-            echo \"Saved to $dest\"
+    # kraken get downloads to /root/.local/share/htrmopo/<uuid>/<name>.mlmodel
+    # Parse the "Model dir: <path>" line from kraken output to locate the file
+    docker compose run --rm "$COMPOSE_SERVICE" sh -c '
+        OUTPUT=$(kraken get '"$doi"' 2>&1)
+        echo "$OUTPUT"
+        MODEL_DIR=$(echo "$OUTPUT" | grep -oP "Model dir: \K[^ ]+")
+        if [ -n "$MODEL_DIR" ] && [ -d "$MODEL_DIR" ]; then
+            FOUND=$(find "$MODEL_DIR" -name "*.mlmodel" | head -1)
+            if [ -n "$FOUND" ]; then
+                cp "$FOUND" '"$dest"'
+                echo "Saved to '"$dest"'"
+            else
+                echo "ERROR: No .mlmodel file in $MODEL_DIR"
+                ls -la "$MODEL_DIR"
+                exit 1
+            fi
         else
-            echo 'ERROR: No .mlmodel file found after download'
+            echo "ERROR: Could not parse model directory from kraken output"
             exit 1
         fi
-    "
+    '
 }
 
 download_models() {
     echo "Downloading Kraken HTR models into the ocr_models volume..."
     echo ""
 
-    # Create a timestamp marker so we can find newly downloaded files
-    docker compose run --rm "$COMPOSE_SERVICE" touch /tmp/.download-marker
-
     echo "Model 1: $MODEL_1_NAME"
     echo "  $MODEL_1_DESC"
     download_model "$MODEL_1_DOI" "$MODEL_1_PATH" "$MODEL_1_NAME"
-- 
2.49.1


From 31519af1a4d32c9b73191678930569846b01fc4b Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 20:11:14 +0200
Subject: [PATCH 21/74] fix(ocr): add pyvips for kraken PDF input support

Kraken 7 requires pyvips (optional dep) for -f pdf mode.
Added libvips42 system package and pyvips Python package.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 ocr-service/Dockerfile       | 3 ++-
 ocr-service/requirements.txt | 1 +
 2 files changed, 3 insertions(+), 1 deletion(-)

diff --git a/ocr-service/Dockerfile b/ocr-service/Dockerfile
index 99ac88fc..0c90503c 100644
--- a/ocr-service/Dockerfile
+++ b/ocr-service/Dockerfile
@@ -2,10 +2,11 @@ FROM python:3.11-slim
 
 WORKDIR /app
 
-# curl for healthcheck; libgomp1 for PyTorch CPU threading
+# curl for healthcheck; libgomp1 for PyTorch CPU threading; libvips for kraken PDF support
 RUN apt-get update && apt-get install -y --no-install-recommends \
     curl \
     libgomp1 \
+    libvips42 \
     && rm -rf /var/lib/apt/lists/*
 
 # PyTorch CPU-only — separate layer; the whl/cpu index strips all CUDA variants (~2 GB saved)
diff --git a/ocr-service/requirements.txt b/ocr-service/requirements.txt
index 7ee1d67a..5c3023d8 100644
--- a/ocr-service/requirements.txt
+++ b/ocr-service/requirements.txt
@@ -6,4 +6,5 @@ torchvision==0.22.1
 transformers>=4.56.1,<5.0.0
 pillow>=10.2.0,<11.0.0
 pypdfium2==4.30.0
+pyvips>=2.2.0
 httpx==0.28.1
-- 
2.49.1


From dd078d50da7fd36ef8fed45238edafc56e67c542 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 20:37:29 +0200
Subject: [PATCH 22/74] fix(ocr): extract PDF pages as PNGs before running
 kraken OCR

Kraken's -f pdf mode tries to write output next to the input file,
which fails on read-only mounts. Instead, extract pages as PNGs via
pypdfium2 (already installed), then run kraken on each image.
Both models run in a single container per PDF to avoid overhead.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 scripts/download-kraken-models.sh | 45 +++++++++++++++++++++++--------
 1 file changed, 34 insertions(+), 11 deletions(-)

diff --git a/scripts/download-kraken-models.sh b/scripts/download-kraken-models.sh
index 6e3d5a47..c7387322 100755
--- a/scripts/download-kraken-models.sh
+++ b/scripts/download-kraken-models.sh
@@ -99,21 +99,44 @@ run_evaluation() {
 
         echo "──── $pdf ────"
 
-        echo "  Model 1: $MODEL_1_NAME ..."
+        # Run both models inside a single container run:
+        # 1. Extract PDF pages as PNGs (pypdfium2 is already installed)
+        # 2. Run kraken on each page image for both models
+        # 3. Concatenate per-page output into one file per model
         docker compose run --rm \
             -v "$(cd "$IMPORT_DIR" && pwd):/eval-input:ro" \
-            -v "$(cd "$dir_1" && pwd):/eval-output" \
+            -v "$(cd "$dir_1" && pwd):/eval-out-1" \
+            -v "$(cd "$dir_2" && pwd):/eval-out-2" \
             "$COMPOSE_SERVICE" \
-            kraken -f pdf -i "/eval-input/$pdf" "/eval-output/${basename}.txt" segment -bl ocr -m "$MODEL_1_PATH" \
-            2>/dev/null || echo "  ⚠ Model 1 failed on $pdf"
+            python3 -c "
+import pypdfium2 as pdfium, subprocess, sys, os
 
-        echo "  Model 2: $MODEL_2_NAME ..."
-        docker compose run --rm \
-            -v "$(cd "$IMPORT_DIR" && pwd):/eval-input:ro" \
-            -v "$(cd "$dir_2" && pwd):/eval-output" \
-            "$COMPOSE_SERVICE" \
-            kraken -f pdf -i "/eval-input/$pdf" "/eval-output/${basename}.txt" segment -bl ocr -m "$MODEL_2_PATH" \
-            2>/dev/null || echo "  ⚠ Model 2 failed on $pdf"
+pdf = pdfium.PdfDocument('/eval-input/$pdf')
+pages = []
+for i in range(len(pdf)):
+    bmp = pdf[i].render(scale=300/72)
+    path = f'/tmp/page_{i:04d}.png'
+    bmp.to_pil().save(path)
+    pages.append(path)
+print(f'Extracted {len(pages)} pages')
+
+for label, model, outdir in [
+    ('Model 1', '$MODEL_1_PATH', '/eval-out-1'),
+    ('Model 2', '$MODEL_2_PATH', '/eval-out-2'),
+]:
+    print(f'  {label}...')
+    combined = ''
+    for p in pages:
+        args = ['kraken', '-i', p, '/dev/stdout', 'segment', '-bl', 'ocr', '-m', model]
+        r = subprocess.run(args, capture_output=True, text=True)
+        combined += r.stdout
+        if r.returncode != 0:
+            print(f'    ⚠ failed on {os.path.basename(p)}: {r.stderr[:200]}', file=sys.stderr)
+    with open(f'{outdir}/${basename}.txt', 'w') as f:
+        f.write(combined)
+    lines = combined.count(chr(10))
+    print(f'    → {lines} lines')
+" || echo "  ⚠ Failed on $pdf"
 
         echo ""
     done
-- 
2.49.1


From f064b27439bfe13aff0298608b5f86d9b943251f Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 20:50:59 +0200
Subject: [PATCH 23/74] feat(ocr): per-script-type confidence thresholds

Kurrent OCR produces much lower confidence than typewriter/Latin.
Separate thresholds allow aggressive filtering for Kurrent (0.5)
while keeping typewriter lenient (0.3).

- OCR_CONFIDENCE_THRESHOLD: default for Surya paths (0.3)
- OCR_CONFIDENCE_THRESHOLD_KURRENT: Kraken Kurrent path (0.5)
- apply_confidence_markers() now accepts threshold parameter
- get_threshold(script_type) selects the right threshold

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 docker-compose.yml             |  1 +
 ocr-service/confidence.py      | 17 ++++++++++++++---
 ocr-service/main.py            |  5 +++--
 ocr-service/test_confidence.py | 31 +++++++++++++++++++------------
 4 files changed, 37 insertions(+), 17 deletions(-)

diff --git a/docker-compose.yml b/docker-compose.yml
index 5e88f381..6d68e1aa 100644
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -85,6 +85,7 @@ services:
     environment:
       KRAKEN_MODEL_PATH: /app/models/german_kurrent.mlmodel
       OCR_CONFIDENCE_THRESHOLD: "0.3"
+      OCR_CONFIDENCE_THRESHOLD_KURRENT: "0.5"
     networks:
       - archive-net
     healthcheck:
diff --git a/ocr-service/confidence.py b/ocr-service/confidence.py
index 092c2892..e331443f 100644
--- a/ocr-service/confidence.py
+++ b/ocr-service/confidence.py
@@ -2,16 +2,24 @@
 
 import os
 
-CONFIDENCE_THRESHOLD = float(os.environ.get("OCR_CONFIDENCE_THRESHOLD", "0.3"))
+THRESHOLD_DEFAULT = float(os.environ.get("OCR_CONFIDENCE_THRESHOLD", "0.3"))
+THRESHOLD_KURRENT = float(os.environ.get("OCR_CONFIDENCE_THRESHOLD_KURRENT", "0.5"))
 
 ILLEGIBLE_MARKER = "[unleserlich]"
 
 
-def apply_confidence_markers(words: list[dict]) -> str:
+def get_threshold(script_type: str) -> float:
+    if script_type and script_type.upper() == "HANDWRITING_KURRENT":
+        return THRESHOLD_KURRENT
+    return THRESHOLD_DEFAULT
+
+
+def apply_confidence_markers(words: list[dict], threshold: float | None = None) -> str:
     """Replace low-confidence words with [unleserlich], collapsing adjacent markers.
 
     Args:
         words: list of {"text": str, "confidence": float} dicts
+        threshold: confidence threshold (uses THRESHOLD_DEFAULT if None)
 
     Returns:
         Reconstructed text string with [unleserlich] substitutions.
@@ -19,11 +27,14 @@ def apply_confidence_markers(words: list[dict]) -> str:
     if not words:
         return ""
 
+    if threshold is None:
+        threshold = THRESHOLD_DEFAULT
+
     result: list[str] = []
     prev_was_marker = False
 
     for word in words:
-        if word["confidence"] < CONFIDENCE_THRESHOLD:
+        if word["confidence"] < threshold:
             if not prev_was_marker:
                 result.append(ILLEGIBLE_MARKER)
             prev_was_marker = True
diff --git a/ocr-service/main.py b/ocr-service/main.py
index f87985e6..b1766516 100644
--- a/ocr-service/main.py
+++ b/ocr-service/main.py
@@ -9,7 +9,7 @@ import pypdfium2 as pdfium
 from fastapi import FastAPI, HTTPException
 from PIL import Image
 
-from confidence import apply_confidence_markers
+from confidence import apply_confidence_markers, get_threshold
 from engines import kraken as kraken_engine
 from engines import surya as surya_engine
 from models import OcrBlock, OcrRequest
@@ -72,9 +72,10 @@ async def run_ocr(request: OcrRequest):
         # TYPEWRITER, HANDWRITING_LATIN, UNKNOWN — all use Surya
         blocks = surya_engine.extract_blocks(images, request.language)
 
+    threshold = get_threshold(script_type)
     for block in blocks:
         if block.get("words"):
-            block["text"] = apply_confidence_markers(block["words"])
+            block["text"] = apply_confidence_markers(block["words"], threshold)
         block.pop("words", None)
 
     return [OcrBlock(**b) for b in blocks]
diff --git a/ocr-service/test_confidence.py b/ocr-service/test_confidence.py
index e1359eb1..c89ade9b 100644
--- a/ocr-service/test_confidence.py
+++ b/ocr-service/test_confidence.py
@@ -2,7 +2,7 @@
 
 import os
 import pytest
-from confidence import apply_confidence_markers, words_from_characters
+from confidence import apply_confidence_markers, words_from_characters, get_threshold
 
 
 # ─── apply_confidence_markers ─────────────────────────────────────────────────
@@ -75,22 +75,29 @@ def test_just_below_threshold_replaced():
     assert apply_confidence_markers(words) == "[unleserlich]"
 
 
-def test_custom_threshold_via_env(monkeypatch):
-    monkeypatch.setenv("OCR_CONFIDENCE_THRESHOLD", "0.8")
-    # Need to reload the module to pick up the new env var
-    import importlib
-    import confidence
-    importlib.reload(confidence)
-
+def test_custom_threshold_via_parameter():
     words = [
         {"text": "Lieber", "confidence": 0.95},
         {"text": "Freund", "confidence": 0.5},
     ]
-    assert confidence.apply_confidence_markers(words) == "Lieber [unleserlich]"
+    assert apply_confidence_markers(words, threshold=0.8) == "Lieber [unleserlich]"
+    assert apply_confidence_markers(words, threshold=0.3) == "Lieber Freund"
 
-    # Reset
-    monkeypatch.setenv("OCR_CONFIDENCE_THRESHOLD", "0.3")
-    importlib.reload(confidence)
+
+def test_kurrent_threshold_is_higher_than_default():
+    default = get_threshold("TYPEWRITER")
+    kurrent = get_threshold("HANDWRITING_KURRENT")
+    assert kurrent > default
+
+
+def test_get_threshold_kurrent():
+    assert get_threshold("HANDWRITING_KURRENT") == 0.5
+
+
+def test_get_threshold_default():
+    assert get_threshold("TYPEWRITER") == 0.3
+    assert get_threshold("HANDWRITING_LATIN") == 0.3
+    assert get_threshold("UNKNOWN") == 0.3
 
 
 def test_low_confidence_at_start():
-- 
2.49.1


From 3aaec014212176c811b307be5619ff69f61bc1e8 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 21:44:51 +0200
Subject: [PATCH 24/74] feat(transcription): add source/reviewed fields for
 training pipeline

- BlockSource enum: MANUAL, OCR
- V26 migration adds source + reviewed columns to transcription_blocks
- OcrService sets source=OCR when creating blocks
- TranscriptionService.reviewBlock() toggles the reviewed flag
- PUT /api/documents/{id}/transcription-blocks/{blockId}/review endpoint
- 5 new tests: reviewBlock toggle/untoggle/notfound, controller,
  OcrService source=OCR verification

The reviewed flag enables the Kraken fine-tuning pipeline: only blocks
marked as reviewed by a human are exported as training data.

Refs #226

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../TranscriptionBlockController.java         |  8 ++++
 .../familienarchiv/model/BlockSource.java     |  6 +++
 .../model/TranscriptionBlock.java             | 11 +++++
 .../familienarchiv/service/OcrService.java    |  1 +
 .../service/TranscriptionService.java         |  7 +++
 ...e_and_reviewed_to_transcription_blocks.sql |  2 +
 .../TranscriptionBlockControllerTest.java     | 16 +++++++
 .../service/OcrServiceTest.java               | 29 +++++++++++++
 .../service/TranscriptionServiceTest.java     | 43 +++++++++++++++++++
 9 files changed, 123 insertions(+)
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/model/BlockSource.java
 create mode 100644 backend/src/main/resources/db/migration/V26__add_source_and_reviewed_to_transcription_blocks.sql

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/controller/TranscriptionBlockController.java b/backend/src/main/java/org/raddatz/familienarchiv/controller/TranscriptionBlockController.java
index 227713d0..fd52d8f4 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/controller/TranscriptionBlockController.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/controller/TranscriptionBlockController.java
@@ -81,6 +81,14 @@ public class TranscriptionBlockController {
         return transcriptionService.listBlocks(documentId);
     }
 
+    @PutMapping("/{blockId}/review")
+    @RequirePermission(Permission.WRITE_ALL)
+    public TranscriptionBlock reviewBlock(
+            @PathVariable UUID documentId,
+            @PathVariable UUID blockId) {
+        return transcriptionService.reviewBlock(documentId, blockId);
+    }
+
     @GetMapping("/{blockId}/history")
     @RequirePermission(Permission.READ_ALL)
     public List<TranscriptionBlockVersion> getBlockHistory(
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/model/BlockSource.java b/backend/src/main/java/org/raddatz/familienarchiv/model/BlockSource.java
new file mode 100644
index 00000000..eb412e64
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/model/BlockSource.java
@@ -0,0 +1,6 @@
+package org.raddatz.familienarchiv.model;
+
+public enum BlockSource {
+    MANUAL,
+    OCR
+}
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/model/TranscriptionBlock.java b/backend/src/main/java/org/raddatz/familienarchiv/model/TranscriptionBlock.java
index 6f1e008e..8f01dbeb 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/model/TranscriptionBlock.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/model/TranscriptionBlock.java
@@ -41,6 +41,17 @@ public class TranscriptionBlock {
     @Schema(requiredMode = Schema.RequiredMode.REQUIRED)
     private int sortOrder;
 
+    @Enumerated(EnumType.STRING)
+    @Column(nullable = false, length = 10)
+    @Schema(requiredMode = Schema.RequiredMode.REQUIRED)
+    @Builder.Default
+    private BlockSource source = BlockSource.MANUAL;
+
+    @Column(nullable = false)
+    @Schema(requiredMode = Schema.RequiredMode.REQUIRED)
+    @Builder.Default
+    private boolean reviewed = false;
+
     @Version
     @Column(nullable = false)
     @Schema(requiredMode = Schema.RequiredMode.REQUIRED)
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
index 5ec7a2f1..5587b588 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
@@ -107,6 +107,7 @@ public class OcrService {
                     .documentId(documentId)
                     .text(block.text() != null ? block.text() : "")
                     .sortOrder(i)
+                    .source(BlockSource.OCR)
                     .createdBy(userId)
                     .updatedBy(userId)
                     .build();
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/TranscriptionService.java b/backend/src/main/java/org/raddatz/familienarchiv/service/TranscriptionService.java
index 2aff91bb..1f8126c1 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/TranscriptionService.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/TranscriptionService.java
@@ -116,6 +116,13 @@ public class TranscriptionService {
         }
     }
 
+    @Transactional
+    public TranscriptionBlock reviewBlock(UUID documentId, UUID blockId) {
+        TranscriptionBlock block = getBlock(documentId, blockId);
+        block.setReviewed(!block.isReviewed());
+        return blockRepository.save(block);
+    }
+
     public List<TranscriptionBlockVersion> getBlockHistory(UUID documentId, UUID blockId) {
         getBlock(documentId, blockId);
         return versionRepository.findByBlockIdOrderByChangedAtDesc(blockId);
diff --git a/backend/src/main/resources/db/migration/V26__add_source_and_reviewed_to_transcription_blocks.sql b/backend/src/main/resources/db/migration/V26__add_source_and_reviewed_to_transcription_blocks.sql
new file mode 100644
index 00000000..de655f91
--- /dev/null
+++ b/backend/src/main/resources/db/migration/V26__add_source_and_reviewed_to_transcription_blocks.sql
@@ -0,0 +1,2 @@
+ALTER TABLE transcription_blocks ADD COLUMN source VARCHAR(10) NOT NULL DEFAULT 'MANUAL';
+ALTER TABLE transcription_blocks ADD COLUMN reviewed BOOLEAN NOT NULL DEFAULT FALSE;
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/controller/TranscriptionBlockControllerTest.java b/backend/src/test/java/org/raddatz/familienarchiv/controller/TranscriptionBlockControllerTest.java
index a891413e..54a9be2a 100644
--- a/backend/src/test/java/org/raddatz/familienarchiv/controller/TranscriptionBlockControllerTest.java
+++ b/backend/src/test/java/org/raddatz/familienarchiv/controller/TranscriptionBlockControllerTest.java
@@ -356,4 +356,20 @@ class TranscriptionBlockControllerTest {
                 .andExpect(status().isOk())
                 .andExpect(jsonPath("$").isEmpty());
     }
+
+    // ─── PUT .../review ──────────────────────────────────────────────────────
+
+    @Test
+    @WithMockUser(authorities = "WRITE_ALL")
+    void reviewBlock_returns200_withToggledBlock() throws Exception {
+        TranscriptionBlock reviewed = TranscriptionBlock.builder()
+                .id(BLOCK_ID).documentId(DOC_ID).annotationId(UUID.randomUUID())
+                .text("text").sortOrder(0).reviewed(true).build();
+        when(transcriptionService.reviewBlock(DOC_ID, BLOCK_ID)).thenReturn(reviewed);
+
+        mockMvc.perform(put("/api/documents/{documentId}/transcription-blocks/{blockId}/review",
+                        DOC_ID, BLOCK_ID))
+                .andExpect(status().isOk())
+                .andExpect(jsonPath("$.reviewed").value(true));
+    }
 }
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java
index 44c598e0..61c62fa3 100644
--- a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java
@@ -6,6 +6,7 @@ import org.mockito.ArgumentCaptor;
 import org.mockito.InjectMocks;
 import org.mockito.Mock;
 import org.mockito.junit.jupiter.MockitoExtension;
+import org.mockito.ArgumentCaptor;
 import org.raddatz.familienarchiv.dto.CreateAnnotationDTO;
 import org.raddatz.familienarchiv.exception.DomainException;
 import org.raddatz.familienarchiv.exception.ErrorCode;
@@ -173,4 +174,32 @@ class OcrServiceTest {
         verify(annotationService, times(2)).createOcrAnnotation(
                 eq(docId), any(CreateAnnotationDTO.class), eq(userId), eq("hash123"), any());
     }
+
+    @Test
+    void startOcr_setsBlockSourceToOcr() {
+        UUID docId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+        Document doc = Document.builder().id(docId).status(DocumentStatus.UPLOADED)
+                .filePath("documents/test.pdf").fileHash("hash123")
+                .scriptType(ScriptType.TYPEWRITER).build();
+        OcrBlockResult block = new OcrBlockResult(0, 0.1, 0.1, 0.8, 0.04, null, "Test");
+
+        when(documentService.getDocumentById(docId)).thenReturn(doc);
+        when(ocrHealthClient.isHealthy()).thenReturn(true);
+        when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
+        when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of(block));
+        when(ocrJobRepository.save(any())).thenAnswer(inv -> {
+            OcrJob job = inv.getArgument(0);
+            job.setId(UUID.randomUUID());
+            return job;
+        });
+        DocumentAnnotation ann = DocumentAnnotation.builder().id(UUID.randomUUID()).build();
+        when(annotationService.createOcrAnnotation(any(), any(), any(), any(), any())).thenReturn(ann);
+
+        ocrService.startOcr(docId, null, userId);
+
+        ArgumentCaptor<TranscriptionBlock> captor = ArgumentCaptor.forClass(TranscriptionBlock.class);
+        verify(blockRepository).save(captor.capture());
+        assertThat(captor.getValue().getSource()).isEqualTo(BlockSource.OCR);
+    }
 }
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/TranscriptionServiceTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/TranscriptionServiceTest.java
index ebe02d10..f25a884b 100644
--- a/backend/src/test/java/org/raddatz/familienarchiv/service/TranscriptionServiceTest.java
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/TranscriptionServiceTest.java
@@ -243,4 +243,47 @@ class TranscriptionServiceTest {
 
         assertThat(transcriptionService.listBlocks(docId)).containsExactly(b);
     }
+
+    // ─── reviewBlock ─────────────────────────────────────────────────────────
+
+    @Test
+    void reviewBlock_setsReviewedTrue() {
+        UUID docId = UUID.randomUUID();
+        UUID blockId = UUID.randomUUID();
+        TranscriptionBlock block = TranscriptionBlock.builder()
+                .id(blockId).documentId(docId).annotationId(UUID.randomUUID())
+                .text("corrected text").sortOrder(0).reviewed(false).build();
+        when(blockRepository.findByIdAndDocumentId(blockId, docId)).thenReturn(Optional.of(block));
+        when(blockRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+
+        TranscriptionBlock result = transcriptionService.reviewBlock(docId, blockId);
+
+        assertThat(result.isReviewed()).isTrue();
+        verify(blockRepository).save(block);
+    }
+
+    @Test
+    void reviewBlock_togglesReviewedFalse_whenAlreadyReviewed() {
+        UUID docId = UUID.randomUUID();
+        UUID blockId = UUID.randomUUID();
+        TranscriptionBlock block = TranscriptionBlock.builder()
+                .id(blockId).documentId(docId).annotationId(UUID.randomUUID())
+                .text("corrected text").sortOrder(0).reviewed(true).build();
+        when(blockRepository.findByIdAndDocumentId(blockId, docId)).thenReturn(Optional.of(block));
+        when(blockRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+
+        TranscriptionBlock result = transcriptionService.reviewBlock(docId, blockId);
+
+        assertThat(result.isReviewed()).isFalse();
+    }
+
+    @Test
+    void reviewBlock_throwsNotFound_whenBlockMissing() {
+        UUID docId = UUID.randomUUID();
+        UUID blockId = UUID.randomUUID();
+        when(blockRepository.findByIdAndDocumentId(blockId, docId)).thenReturn(Optional.empty());
+
+        assertThatThrownBy(() -> transcriptionService.reviewBlock(docId, blockId))
+                .isInstanceOf(DomainException.class);
+    }
 }
-- 
2.49.1


From 8dc9243add16685af68f1786a4d1f9926e02d1b4 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 22:02:56 +0200
Subject: [PATCH 25/74] feat(frontend): wire OCR trigger + review toggle into
 transcription panel

- OcrTrigger component rendered in the transcription empty state when
  the document has a file and user has write permission
- Review checkmark toggle on each TranscriptionBlock (turquoise when
  reviewed, muted outline when not). Calls PUT .../review to toggle.
- TranscriptionBlockData type: added source + reviewed fields
- +page.svelte: triggerOcr() and reviewToggle() functions wired up
- Paraglide translations (de/en/es) for review toggle + reviewed count

All 687 frontend tests pass.

Refs #226, #230

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 frontend/messages/de.json                     |  5 ++-
 frontend/messages/en.json                     |  5 ++-
 frontend/messages/es.json                     |  5 ++-
 .../lib/components/TranscriptionBlock.svelte  | 27 ++++++++++++++
 .../components/TranscriptionEditView.svelte   | 36 ++++++++++++++++---
 frontend/src/lib/types.ts                     |  2 ++
 .../src/routes/documents/[id]/+page.svelte    | 29 +++++++++++++++
 7 files changed, 102 insertions(+), 7 deletions(-)

diff --git a/frontend/messages/de.json b/frontend/messages/de.json
index 886c468a..3eac5fd0 100644
--- a/frontend/messages/de.json
+++ b/frontend/messages/de.json
@@ -520,5 +520,8 @@
 	"ocr_error_heading": "OCR fehlgeschlagen",
 	"ocr_error_retry": "Erneut versuchen",
 	"ocr_batch_running": "OCR läuft · {processed} von {total} Dokumente abgeschlossen",
-	"ocr_batch_done": "OCR abgeschlossen · {processed} erfolgreich · {errors} fehlgeschlagen"
+	"ocr_batch_done": "OCR abgeschlossen · {processed} erfolgreich · {errors} fehlgeschlagen",
+	"transcription_block_review": "Als geprüft markieren",
+	"transcription_block_unreview": "Markierung aufheben",
+	"transcription_reviewed_count": "{reviewed} von {total} geprüft"
 }
diff --git a/frontend/messages/en.json b/frontend/messages/en.json
index 86777394..9853b3d7 100644
--- a/frontend/messages/en.json
+++ b/frontend/messages/en.json
@@ -520,5 +520,8 @@
 	"ocr_error_heading": "OCR failed",
 	"ocr_error_retry": "Try again",
 	"ocr_batch_running": "OCR running · {processed} of {total} documents complete",
-	"ocr_batch_done": "OCR complete · {processed} successful · {errors} failed"
+	"ocr_batch_done": "OCR complete · {processed} successful · {errors} failed",
+	"transcription_block_review": "Mark as reviewed",
+	"transcription_block_unreview": "Unmark as reviewed",
+	"transcription_reviewed_count": "{reviewed} of {total} reviewed"
 }
diff --git a/frontend/messages/es.json b/frontend/messages/es.json
index 6764392c..9062c2ed 100644
--- a/frontend/messages/es.json
+++ b/frontend/messages/es.json
@@ -520,5 +520,8 @@
 	"ocr_error_heading": "OCR fallido",
 	"ocr_error_retry": "Intentar de nuevo",
 	"ocr_batch_running": "OCR en curso · {processed} de {total} documentos completados",
-	"ocr_batch_done": "OCR completado · {processed} exitosos · {errors} fallidos"
+	"ocr_batch_done": "OCR completado · {processed} exitosos · {errors} fallidos",
+	"transcription_block_review": "Marcar como revisado",
+	"transcription_block_unreview": "Desmarcar como revisado",
+	"transcription_reviewed_count": "{reviewed} de {total} revisados"
 }
diff --git a/frontend/src/lib/components/TranscriptionBlock.svelte b/frontend/src/lib/components/TranscriptionBlock.svelte
index ce15ff66..41598b15 100644
--- a/frontend/src/lib/components/TranscriptionBlock.svelte
+++ b/frontend/src/lib/components/TranscriptionBlock.svelte
@@ -14,6 +14,7 @@ type Props = {
 	text: string;
 	label: string | null;
 	active: boolean;
+	reviewed: boolean;
 	saveState: SaveState;
 	canComment: boolean;
 	currentUserId: string | null;
@@ -21,6 +22,7 @@ type Props = {
 	onFocus: () => void;
 	onDeleteClick: () => void;
 	onRetry: () => void;
+	onReviewToggle: () => void;
 	onMoveUp?: () => void;
 	onMoveDown?: () => void;
 	isFirst?: boolean;
@@ -34,6 +36,7 @@ let {
 	text,
 	label = null,
 	active,
+	reviewed,
 	saveState,
 	canComment,
 	currentUserId,
@@ -41,6 +44,7 @@ let {
 	onFocus,
 	onDeleteClick,
 	onRetry,
+	onReviewToggle,
 	onMoveUp,
 	onMoveDown,
 	isFirst = false,
@@ -239,6 +243,29 @@ function handleTextareaMouseUp() {
 					</span>
 				{/if}
 
+				<!-- Review toggle -->
+				<button
+					type="button"
+					class="cursor-pointer transition-colors {reviewed ? 'text-turquoise hover:text-turquoise/70' : 'text-ink-3 hover:text-turquoise'}"
+					aria-label={reviewed ? m.transcription_block_unreview() : m.transcription_block_review()}
+					title={reviewed ? m.transcription_block_unreview() : m.transcription_block_review()}
+					onclick={onReviewToggle}
+				>
+					<svg
+						class="h-4 w-4"
+						fill={reviewed ? 'currentColor' : 'none'}
+						viewBox="0 0 24 24"
+						stroke="currentColor"
+						stroke-width="1.5"
+					>
+						<path
+							stroke-linecap="round"
+							stroke-linejoin="round"
+							d="M9 12.75L11.25 15 15 9.75M21 12a9 9 0 11-18 0 9 9 0 0118 0z"
+						/>
+					</svg>
+				</button>
+
 				<!-- Delete button -->
 				<button
 					type="button"
diff --git a/frontend/src/lib/components/TranscriptionEditView.svelte b/frontend/src/lib/components/TranscriptionEditView.svelte
index 5d675a01..d1c74e29 100644
--- a/frontend/src/lib/components/TranscriptionEditView.svelte
+++ b/frontend/src/lib/components/TranscriptionEditView.svelte
@@ -2,6 +2,7 @@
 import { m } from '$lib/paraglide/messages.js';
 import { SvelteMap } from 'svelte/reactivity';
 import TranscriptionBlock from './TranscriptionBlock.svelte';
+import OcrTrigger from './OcrTrigger.svelte';
 import type { TranscriptionBlockData } from '$lib/types';
 
 type SaveState = 'idle' | 'saving' | 'saved' | 'fading' | 'error';
@@ -12,9 +13,13 @@ type Props = {
 	canComment: boolean;
 	currentUserId: string | null;
 	activeAnnotationId?: string | null;
+	storedScriptType?: string;
+	canRunOcr?: boolean;
 	onBlockFocus: (blockId: string) => void;
 	onSaveBlock: (blockId: string, text: string) => Promise<void>;
 	onDeleteBlock: (blockId: string) => Promise<void>;
+	onReviewToggle: (blockId: string) => Promise<void>;
+	onTriggerOcr?: (scriptType: string) => void;
 };
 
 let {
@@ -23,9 +28,13 @@ let {
 	canComment,
 	currentUserId,
 	activeAnnotationId = null,
+	storedScriptType = '',
+	canRunOcr = false,
 	onBlockFocus,
 	onSaveBlock,
-	onDeleteBlock
+	onDeleteBlock,
+	onReviewToggle,
+	onTriggerOcr
 }: Props = $props();
 
 let activeBlockId: string | null = $state(null);
@@ -282,6 +291,7 @@ $effect(() => {
 						text={block.text}
 						label={block.label}
 						active={activeBlockId === block.id}
+						reviewed={block.reviewed ?? false}
 						saveState={getSaveState(block.id)}
 						canComment={canComment}
 						currentUserId={currentUserId}
@@ -289,6 +299,7 @@ $effect(() => {
 						onFocus={() => handleFocus(block.id)}
 						onDeleteClick={() => handleDelete(block.id)}
 						onRetry={() => handleRetry(block.id)}
+						onReviewToggle={() => onReviewToggle(block.id)}
 						onMoveUp={() => handleMoveUp(block.id)}
 						onMoveDown={() => handleMoveDown(block.id)}
 						isFirst={i === 0}
@@ -323,9 +334,26 @@ $effect(() => {
 					d="M19.5 14.25v-2.625a3.375 3.375 0 00-3.375-3.375h-1.5A1.125 1.125 0 0113.5 7.125v-1.5a3.375 3.375 0 00-3.375-3.375H8.25m0 12.75h7.5m-7.5 3H12M10.5 2.25H5.625c-.621 0-1.125.504-1.125 1.125v17.25c0 .621.504 1.125 1.125 1.125h12.75c.621 0 1.125-.504 1.125-1.125V11.25a9 9 0 00-9-9z"
 				/>
 			</svg>
-			<p class="max-w-xs text-sm leading-relaxed text-ink-3">
-				{m.transcription_empty_cta()}
-			</p>
+
+			{#if canRunOcr && onTriggerOcr}
+				<p class="mb-6 max-w-xs text-sm leading-relaxed text-ink-3">
+					{m.transcription_empty_title()}
+				</p>
+				<div class="w-full max-w-xs">
+					<OcrTrigger
+						existingBlockCount={0}
+						storedScriptType={storedScriptType}
+						onTrigger={onTriggerOcr}
+					/>
+				</div>
+				<p class="mt-4 text-xs text-ink-3">
+					{m.transcription_empty_desc()}
+				</p>
+			{:else}
+				<p class="max-w-xs text-sm leading-relaxed text-ink-3">
+					{m.transcription_empty_cta()}
+				</p>
+			{/if}
 		</div>
 	{/if}
 </div>
diff --git a/frontend/src/lib/types.ts b/frontend/src/lib/types.ts
index adb2aec3..24dbb848 100644
--- a/frontend/src/lib/types.ts
+++ b/frontend/src/lib/types.ts
@@ -35,6 +35,8 @@ export type TranscriptionBlockData = {
 	label: string | null;
 	sortOrder: number;
 	version: number;
+	source: 'MANUAL' | 'OCR';
+	reviewed: boolean;
 	updatedAt?: string | null;
 };
 
diff --git a/frontend/src/routes/documents/[id]/+page.svelte b/frontend/src/routes/documents/[id]/+page.svelte
index 0717353c..498e8601 100644
--- a/frontend/src/routes/documents/[id]/+page.svelte
+++ b/frontend/src/routes/documents/[id]/+page.svelte
@@ -118,6 +118,31 @@ async function deleteBlock(blockId: string) {
 	annotationReloadKey++;
 }
 
+async function reviewToggle(blockId: string) {
+	const res = await fetch(`/api/documents/${doc.id}/transcription-blocks/${blockId}/review`, {
+		method: 'PUT'
+	});
+	if (!res.ok) return;
+	const updated = await res.json();
+	transcriptionBlocks = transcriptionBlocks.map((b) => (b.id === blockId ? updated : b));
+}
+
+async function triggerOcr(scriptType: string) {
+	try {
+		const res = await fetch(`/api/documents/${doc.id}/ocr`, {
+			method: 'POST',
+			headers: { 'Content-Type': 'application/json' },
+			body: JSON.stringify({ scriptType })
+		});
+		if (res.ok) {
+			await loadTranscriptionBlocks();
+			annotationReloadKey++;
+		}
+	} catch (e) {
+		console.error('Failed to trigger OCR:', e);
+	}
+}
+
 async function createBlockFromDraw(rect: {
 	x: number;
 	y: number;
@@ -316,9 +341,13 @@ onMount(() => {
 							canComment={canWrite}
 							currentUserId={currentUserId}
 							activeAnnotationId={activeAnnotationId}
+							storedScriptType={doc.scriptType ?? ''}
+							canRunOcr={canWrite && !!doc.filePath}
 							onBlockFocus={handleBlockFocus}
 							onSaveBlock={saveBlock}
 							onDeleteBlock={deleteBlock}
+							onReviewToggle={reviewToggle}
+							onTriggerOcr={triggerOcr}
 						/>
 					{/if}
 				</div>
-- 
2.49.1


From f6667e0e1529069ee4b1f595889f0b4e8b600935 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 22:09:24 +0200
Subject: [PATCH 26/74] feat(frontend): show OcrProgress during OCR job + check
 status on load
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

- triggerOcr captures jobId from POST response and shows OcrProgress
- OcrProgress rendered in the transcription panel when ocrJobId is set
- handleOcrDone reloads blocks and annotations when OCR completes
- checkOcrStatus called when entering transcription mode — resumes
  progress display if a job is already running for this document

Refs #226

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../src/routes/documents/[id]/+page.svelte    | 37 +++++++++++++++++--
 1 file changed, 33 insertions(+), 4 deletions(-)

diff --git a/frontend/src/routes/documents/[id]/+page.svelte b/frontend/src/routes/documents/[id]/+page.svelte
index 498e8601..dbcddf78 100644
--- a/frontend/src/routes/documents/[id]/+page.svelte
+++ b/frontend/src/routes/documents/[id]/+page.svelte
@@ -6,6 +6,7 @@ import DocumentViewer from '$lib/components/DocumentViewer.svelte';
 import TranscriptionEditView from '$lib/components/TranscriptionEditView.svelte';
 import TranscriptionReadView from '$lib/components/TranscriptionReadView.svelte';
 import TranscriptionPanelHeader from '$lib/components/TranscriptionPanelHeader.svelte';
+import OcrProgress from '$lib/components/OcrProgress.svelte';
 import type { TranscriptionBlockData } from '$lib/types';
 
 let { data } = $props();
@@ -57,6 +58,7 @@ let activeAnnotationId = $state<string | null>(null);
 let highlightBlockId = $state<string | null>(null);
 let flashAnnotationId = $state<string | null>(null);
 let pdfStripExpanded = $state(false);
+let ocrJobId = $state<string | null>(null);
 
 const prefersReducedMotion = $derived(
 	typeof window !== 'undefined' && window.matchMedia('(prefers-reduced-motion: reduce)').matches
@@ -135,14 +137,21 @@ async function triggerOcr(scriptType: string) {
 			body: JSON.stringify({ scriptType })
 		});
 		if (res.ok) {
-			await loadTranscriptionBlocks();
-			annotationReloadKey++;
+			const data = await res.json();
+			ocrJobId = data.jobId;
 		}
 	} catch (e) {
 		console.error('Failed to trigger OCR:', e);
 	}
 }
 
+async function handleOcrDone() {
+	ocrJobId = null;
+	await loadTranscriptionBlocks();
+	annotationReloadKey++;
+	panelMode = transcriptionBlocks.length > 0 ? 'read' : 'edit';
+}
+
 async function createBlockFromDraw(rect: {
 	x: number;
 	y: number;
@@ -223,12 +232,28 @@ function handleParagraphClick(annotationId: string) {
 	);
 }
 
-// Load blocks when transcribe mode is entered and set default panel mode
+async function checkOcrStatus() {
+	if (!doc?.id) return;
+	try {
+		const res = await fetch(`/api/documents/${doc.id}/ocr-status`);
+		if (res.ok) {
+			const status = await res.json();
+			if (status.status === 'PENDING' || status.status === 'RUNNING') {
+				ocrJobId = status.jobId;
+			}
+		}
+	} catch {
+		// OCR status check is best-effort
+	}
+}
+
+// Load blocks and check OCR status when transcribe mode is entered
 $effect(() => {
 	if (transcribeMode) {
 		loadTranscriptionBlocks().then(() => {
 			panelMode = transcriptionBlocks.length > 0 ? 'read' : 'edit';
 		});
+		checkOcrStatus();
 	}
 });
 
@@ -328,7 +353,11 @@ onMount(() => {
 					onClose={() => (transcribeMode = false)}
 				/>
 				<div class="flex-1 overflow-y-auto">
-					{#if panelMode === 'read'}
+					{#if ocrJobId}
+						<div class="p-4">
+							<OcrProgress jobId={ocrJobId} onDone={handleOcrDone} />
+						</div>
+					{:else if panelMode === 'read'}
 						<TranscriptionReadView
 							blocks={transcriptionBlocks}
 							highlightBlockId={highlightBlockId}
-- 
2.49.1


From 7a4da7cb984366b72eaf70ac8170412281921330 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 22:10:33 +0200
Subject: [PATCH 27/74] fix(pdf): guard against null textLayerEl in renderPage

Prevents 'can't access property innerHTML, textDiv is null' when
the component unmounts while a render is in flight (e.g. switching
to OCR progress view tears down the panel content).

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 frontend/src/lib/components/PdfViewer.svelte | 1 +
 1 file changed, 1 insertion(+)

diff --git a/frontend/src/lib/components/PdfViewer.svelte b/frontend/src/lib/components/PdfViewer.svelte
index 7705620b..2574e8d0 100644
--- a/frontend/src/lib/components/PdfViewer.svelte
+++ b/frontend/src/lib/components/PdfViewer.svelte
@@ -145,6 +145,7 @@ async function renderPage(doc: PDFDocumentProxy, pageNum: number) {
 
 	// Text layer
 	const textDiv = textLayerEl;
+	if (!textDiv) return;
 	textDiv.innerHTML = '';
 	textDiv.style.width = `${viewport.width / dpr}px`;
 	textDiv.style.height = `${viewport.height / dpr}px`;
-- 
2.49.1


From 4500c99e403576845c320d70ccafad91f71f21d0 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 22:16:52 +0200
Subject: [PATCH 28/74] fix(ocr): use presigned URLs for MinIO access from OCR
 service

The OCR service was getting 403 Forbidden because it tried to
download PDFs from MinIO using plain internal URLs without
authentication. MinIO buckets are private.

- Add S3Presigner bean to MinioConfig
- FileService.generatePresignedUrl(): generates 15-min presigned URLs
- OcrService uses presigned URLs instead of plain internal URLs
- Remove unused s3InternalUrl / bucketName @Value fields from OcrService

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../familienarchiv/config/MinioConfig.java    | 14 ++++++++++
 .../familienarchiv/service/FileService.java   | 26 ++++++++++++++++++-
 .../familienarchiv/service/OcrService.java    | 13 ++--------
 .../service/FileServiceTest.java              |  2 +-
 .../service/OcrServiceTest.java               |  9 ++++---
 ocr-service/main.py                           |  2 +-
 6 files changed, 48 insertions(+), 18 deletions(-)

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/config/MinioConfig.java b/backend/src/main/java/org/raddatz/familienarchiv/config/MinioConfig.java
index a3fb187c..981ddb65 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/config/MinioConfig.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/config/MinioConfig.java
@@ -5,6 +5,7 @@ import software.amazon.awssdk.auth.credentials.StaticCredentialsProvider;
 import software.amazon.awssdk.regions.Region;
 import software.amazon.awssdk.services.s3.S3Client;
 import software.amazon.awssdk.services.s3.S3Configuration;
+import software.amazon.awssdk.services.s3.presigner.S3Presigner;
 import org.springframework.beans.factory.annotation.Value;
 import org.springframework.boot.CommandLineRunner;
 import org.springframework.context.annotation.Bean;
@@ -44,6 +45,19 @@ public class MinioConfig {
                 .build();
     }
 
+    @Bean
+    public S3Presigner s3Presigner() {
+        return S3Presigner.builder()
+                .endpointOverride(URI.create(endpoint))
+                .serviceConfiguration(S3Configuration.builder()
+                        .pathStyleAccessEnabled(true)
+                        .build())
+                .region(Region.of(region))
+                .credentialsProvider(StaticCredentialsProvider.create(
+                        AwsBasicCredentials.create(accessKey, secretKey)))
+                .build();
+    }
+
     @Bean
     public CommandLineRunner testS3Connection(S3Client s3Client) {
         return args -> {
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/FileService.java b/backend/src/main/java/org/raddatz/familienarchiv/service/FileService.java
index 57e225c6..acf6f23d 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/FileService.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/FileService.java
@@ -4,6 +4,8 @@ import software.amazon.awssdk.core.ResponseInputStream;
 import software.amazon.awssdk.core.sync.RequestBody;
 import software.amazon.awssdk.services.s3.S3Client;
 import software.amazon.awssdk.services.s3.model.*;
+import software.amazon.awssdk.services.s3.presigner.S3Presigner;
+import software.amazon.awssdk.services.s3.presigner.model.GetObjectPresignRequest;
 
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -16,6 +18,7 @@ import java.io.IOException;
 import java.io.InputStream;
 import java.security.MessageDigest;
 import java.security.NoSuchAlgorithmException;
+import java.time.Duration;
 import java.util.UUID;
 
 @Service
@@ -24,10 +27,13 @@ public class FileService {
     private static final Logger log = LoggerFactory.getLogger(FileService.class);
 
     private final S3Client s3Client;
+    private final S3Presigner s3Presigner;
     private final String bucketName;
 
-    public FileService(S3Client s3Client, @Value("${app.s3.bucket}") String bucketName) {
+    public FileService(S3Client s3Client, S3Presigner s3Presigner,
+                       @Value("${app.s3.bucket}") String bucketName) {
         this.s3Client = s3Client;
+        this.s3Presigner = s3Presigner;
         this.bucketName = bucketName;
     }
 
@@ -106,6 +112,24 @@ public class FileService {
         }
     }
 
+    /**
+     * Generates a presigned URL for downloading an object from S3/MinIO.
+     * Valid for 15 minutes — enough for OCR processing on CPU.
+     */
+    public String generatePresignedUrl(String s3Key) {
+        GetObjectRequest getObjectRequest = GetObjectRequest.builder()
+                .bucket(bucketName)
+                .key(s3Key)
+                .build();
+
+        GetObjectPresignRequest presignRequest = GetObjectPresignRequest.builder()
+                .signatureDuration(Duration.ofMinutes(15))
+                .getObjectRequest(getObjectRequest)
+                .build();
+
+        return s3Presigner.presignGetObject(presignRequest).url().toString();
+    }
+
     // ─── private helpers ──────────────────────────────────────────────────────
 
     private static String sha256Hex(byte[] bytes) {
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
index 5587b588..c92634ee 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
@@ -8,7 +8,6 @@ import org.raddatz.familienarchiv.exception.ErrorCode;
 import org.raddatz.familienarchiv.model.*;
 import org.raddatz.familienarchiv.repository.OcrJobRepository;
 import org.raddatz.familienarchiv.repository.TranscriptionBlockRepository;
-import org.springframework.beans.factory.annotation.Value;
 import org.springframework.stereotype.Service;
 import org.springframework.transaction.annotation.Transactional;
 
@@ -29,12 +28,7 @@ public class OcrService {
     private final AnnotationService annotationService;
     private final TranscriptionBlockRepository blockRepository;
     private final OcrJobRepository ocrJobRepository;
-
-    @Value("${app.s3.internal-url:http://minio:9000}")
-    private String s3InternalUrl;
-
-    @Value("${app.s3.bucket}")
-    private String bucketName;
+    private final FileService fileService;
 
     @Transactional
     public UUID startOcr(UUID documentId, ScriptType scriptTypeOverride, UUID userId) {
@@ -78,7 +72,7 @@ public class OcrService {
     void processDocument(UUID documentId, Document doc, UUID userId) {
         clearExistingBlocks(documentId);
 
-        String pdfUrl = buildInternalUrl(doc.getFilePath());
+        String pdfUrl = fileService.generatePresignedUrl(doc.getFilePath());
         List<OcrBlockResult> blocks = ocrClient.extractBlocks(pdfUrl, doc.getScriptType());
         createTranscriptionBlocks(documentId, blocks, userId, doc.getFileHash());
     }
@@ -115,7 +109,4 @@ public class OcrService {
         }
     }
 
-    String buildInternalUrl(String filePath) {
-        return s3InternalUrl + "/" + bucketName + "/" + filePath;
-    }
 }
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/FileServiceTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/FileServiceTest.java
index 187c144e..e043c3b7 100644
--- a/backend/src/test/java/org/raddatz/familienarchiv/service/FileServiceTest.java
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/FileServiceTest.java
@@ -32,7 +32,7 @@ class FileServiceTest {
     @BeforeEach
     void setUp() {
         s3Client = mock(S3Client.class);
-        fileService = new FileService(s3Client, "test-bucket");
+        fileService = new FileService(s3Client, null, "test-bucket");
     }
 
     @Test
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java
index 61c62fa3..0c8dc70f 100644
--- a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java
@@ -34,6 +34,7 @@ class OcrServiceTest {
     @Mock AnnotationService annotationService;
     @Mock TranscriptionBlockRepository blockRepository;
     @Mock OcrJobRepository ocrJobRepository;
+    @Mock FileService fileService;
 
     @InjectMocks OcrService ocrService;
 
@@ -80,7 +81,7 @@ class OcrServiceTest {
                 .scriptType(ScriptType.TYPEWRITER).build();
         when(documentService.getDocumentById(docId)).thenReturn(doc);
         when(ocrHealthClient.isHealthy()).thenReturn(true);
-        // ocrService constructs the internal MinIO URL from S3 key
+        when(fileService.generatePresignedUrl(any())).thenReturn("http://minio/presigned");
         when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of());
         when(ocrJobRepository.save(any())).thenAnswer(inv -> {
             OcrJob job = inv.getArgument(0);
@@ -103,7 +104,7 @@ class OcrServiceTest {
                 .scriptType(ScriptType.UNKNOWN).build();
         when(documentService.getDocumentById(docId)).thenReturn(doc);
         when(ocrHealthClient.isHealthy()).thenReturn(true);
-        // ocrService constructs the internal MinIO URL from S3 key
+        when(fileService.generatePresignedUrl(any())).thenReturn("http://minio/presigned");
         when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of());
         when(ocrJobRepository.save(any())).thenAnswer(inv -> {
             OcrJob job = inv.getArgument(0);
@@ -128,7 +129,7 @@ class OcrServiceTest {
 
         when(documentService.getDocumentById(docId)).thenReturn(doc);
         when(ocrHealthClient.isHealthy()).thenReturn(true);
-        // ocrService constructs the internal MinIO URL from S3 key
+        when(fileService.generatePresignedUrl(any())).thenReturn("http://minio/presigned");
         when(transcriptionService.listBlocks(docId)).thenReturn(List.of(existingBlock));
         when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of(
                 new OcrBlockResult(0, 0.1, 0.1, 0.8, 0.04, null, "Hello")));
@@ -158,7 +159,7 @@ class OcrServiceTest {
 
         when(documentService.getDocumentById(docId)).thenReturn(doc);
         when(ocrHealthClient.isHealthy()).thenReturn(true);
-        // ocrService constructs the internal MinIO URL from S3 key
+        when(fileService.generatePresignedUrl(any())).thenReturn("http://minio/presigned");
         when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
         when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of(block1, block2));
         when(ocrJobRepository.save(any())).thenAnswer(inv -> {
diff --git a/ocr-service/main.py b/ocr-service/main.py
index b1766516..34e996f3 100644
--- a/ocr-service/main.py
+++ b/ocr-service/main.py
@@ -82,7 +82,7 @@ async def run_ocr(request: OcrRequest):
 
 
 async def _download_and_convert_pdf(url: str) -> list[Image.Image]:
-    """Download a PDF from URL and convert each page to a PIL Image."""
+    """Download a PDF from a presigned URL and convert each page to a PIL Image."""
     async with httpx.AsyncClient(timeout=httpx.Timeout(300.0)) as client:
         response = await client.get(url)
         response.raise_for_status()
-- 
2.49.1


From 7f78bc9cf4c2714a1d9cf192d1b4248ab1462c59 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 22:20:36 +0200
Subject: [PATCH 29/74] fix(ocr): increase memory limit to 10GB, reduce render
 DPI to 200

Surya 0.17 models use ~5GB idle. At 300 DPI on a multi-page PDF,
page images + inference tensors push past the 6GB limit, causing
OOM kills during 'Detecting bboxes'. Increased to 10GB and reduced
render DPI to 200 (still sufficient for OCR, uses ~44% less memory).

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 docker-compose.yml  | 4 ++--
 ocr-service/main.py | 5 +++--
 2 files changed, 5 insertions(+), 4 deletions(-)

diff --git a/docker-compose.yml b/docker-compose.yml
index 6d68e1aa..72a70e13 100644
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -78,8 +78,8 @@ services:
       dockerfile: Dockerfile
     container_name: archive-ocr
     restart: unless-stopped
-    mem_limit: 6g
-    memswap_limit: 6g
+    mem_limit: 10g
+    memswap_limit: 10g
     volumes:
       - ocr_models:/app/models
     environment:
diff --git a/ocr-service/main.py b/ocr-service/main.py
index 34e996f3..ee8d9935 100644
--- a/ocr-service/main.py
+++ b/ocr-service/main.py
@@ -92,8 +92,9 @@ async def _download_and_convert_pdf(url: str) -> list[Image.Image]:
 
     for page_idx in range(len(pdf)):
         page = pdf[page_idx]
-        # Render at 300 DPI for good OCR quality
-        bitmap = page.render(scale=300 / 72)
+        # Render at 200 DPI — balances OCR quality vs memory usage
+        # (Surya 0.17 models use ~5GB idle; 300 DPI causes OOM on multi-page docs)
+        bitmap = page.render(scale=200 / 72)
         pil_image = bitmap.to_pil()
         images.append(pil_image)
 
-- 
2.49.1


From 902d423f3c527a9a3aaede4b9ca5d7f35ee15036 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 22:26:50 +0200
Subject: [PATCH 30/74] fix(ocr): reduce memory usage for 16GB dev machines
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

- Surya models lazy-load on first OCR request instead of at startup
  (saves ~3-4GB idle RAM — Kraken stays eager at ~16MB)
- Process one page at a time in Surya engine (limits peak memory)
- RECOGNITION_BATCH_SIZE=1, DETECTOR_BATCH_SIZE=1 (slower but fits in RAM)
- Revert mem_limit back to 6GB (sufficient with these optimizations)
- Render DPI stays at 200

Idle memory: ~2GB (Kraken only). Peak during OCR: ~5-6GB (Surya loaded).

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 docker-compose.yml           |  6 ++++--
 ocr-service/engines/surya.py | 35 ++++++++++++++++++++++++-----------
 ocr-service/main.py          |  7 +++----
 3 files changed, 31 insertions(+), 17 deletions(-)

diff --git a/docker-compose.yml b/docker-compose.yml
index 72a70e13..3d194e75 100644
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -78,14 +78,16 @@ services:
       dockerfile: Dockerfile
     container_name: archive-ocr
     restart: unless-stopped
-    mem_limit: 10g
-    memswap_limit: 10g
+    mem_limit: 6g
+    memswap_limit: 6g
     volumes:
       - ocr_models:/app/models
     environment:
       KRAKEN_MODEL_PATH: /app/models/german_kurrent.mlmodel
       OCR_CONFIDENCE_THRESHOLD: "0.3"
       OCR_CONFIDENCE_THRESHOLD_KURRENT: "0.5"
+      RECOGNITION_BATCH_SIZE: "1"
+      DETECTOR_BATCH_SIZE: "1"
     networks:
       - archive-net
     healthcheck:
diff --git a/ocr-service/engines/surya.py b/ocr-service/engines/surya.py
index 94fc330b..ea028d8c 100644
--- a/ocr-service/engines/surya.py
+++ b/ocr-service/engines/surya.py
@@ -6,13 +6,20 @@ logger = logging.getLogger(__name__)
 
 _recognition_predictor = None
 _detection_predictor = None
+_loaded = False
 
 
 def load_models():
-    """Eagerly load Surya models into memory. Called once at container startup."""
-    global _recognition_predictor, _detection_predictor
+    """Lazy-load Surya models on first use to save RAM at idle.
 
-    logger.info("Loading Surya models...")
+    Called automatically by extract_blocks(). Can also be called explicitly
+    to pre-warm if desired.
+    """
+    global _recognition_predictor, _detection_predictor, _loaded
+    if _loaded:
+        return
+
+    logger.info("Loading Surya models (lazy, first OCR request)...")
 
     from surya.foundation import FoundationPredictor
     from surya.recognition import RecognitionPredictor
@@ -21,6 +28,7 @@ def load_models():
     foundation_predictor = FoundationPredictor()
     _recognition_predictor = RecognitionPredictor(foundation_predictor)
     _detection_predictor = DetectionPredictor()
+    _loaded = True
 
     logger.info("Surya models loaded successfully")
 
@@ -28,22 +36,25 @@ def load_models():
 def extract_blocks(images: list, language: str = "de") -> list[dict]:
     """Run Surya OCR on a list of PIL images (one per page).
 
+    Processes one page at a time to limit peak memory usage.
     Returns a flat list of block dicts with pageNumber, x, y, width, height,
-    polygon, text. Coordinates are normalized to [0, 1] relative to page dimensions.
-    Surya 0.17+ returns polygon (4-point) natively on each text line.
+    polygon, text, words. Coordinates are normalized to [0, 1].
     """
+    load_models()
+
     all_blocks = []
 
-    predictions = _recognition_predictor(images, det_predictor=_detection_predictor)
+    for page_idx, image in enumerate(images):
+        page_w, page_h = image.size
 
-    for page_idx, page_pred in enumerate(predictions):
-        page_w, page_h = images[page_idx].size
+        # Process single page to limit peak memory
+        predictions = _recognition_predictor([image], det_predictor=_detection_predictor)
+        page_pred = predictions[0]
 
         for line in page_pred.text_lines:
-            bbox = line.bbox  # [x1, y1, x2, y2] in pixel coordinates
+            bbox = line.bbox
             x1, y1, x2, y2 = bbox
 
-            # Surya 0.17 provides polygon as list of (x, y) tuples (4 points, clockwise)
             polygon = None
             if hasattr(line, "polygon") and line.polygon and len(line.polygon) == 4:
                 polygon = [
@@ -51,7 +62,6 @@ def extract_blocks(images: list, language: str = "de") -> list[dict]:
                     for p in line.polygon
                 ]
 
-            # Extract word-level confidence for [unleserlich] marking
             words = []
             if hasattr(line, "words") and line.words:
                 for word in line.words:
@@ -73,4 +83,7 @@ def extract_blocks(images: list, language: str = "de") -> list[dict]:
                 "words": words,
             })
 
+        # Free page image after processing
+        del image
+
     return all_blocks
diff --git a/ocr-service/main.py b/ocr-service/main.py
index ee8d9935..73dbef28 100644
--- a/ocr-service/main.py
+++ b/ocr-service/main.py
@@ -22,14 +22,13 @@ _models_ready = False
 
 @asynccontextmanager
 async def lifespan(app: FastAPI):
-    """Load all OCR models at startup before accepting requests."""
+    """Load lightweight models at startup. Surya loads lazily on first request."""
     global _models_ready
 
-    logger.info("Loading OCR models at startup...")
-    surya_engine.load_models()
+    logger.info("Loading Kraken model at startup (Surya loads lazily on first OCR request)...")
     kraken_engine.load_models()
     _models_ready = True
-    logger.info("All OCR models loaded — ready to accept requests")
+    logger.info("Startup complete — ready to accept requests")
 
     yield
 
-- 
2.49.1


From e9cf2998fe9ba280d4ca58ee9bbfd892bf72f3bb Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 22:33:05 +0200
Subject: [PATCH 31/74] fix(ocr): reduce mem_limit to 4g, allow 4g swap for
 16GB dev machines

mem_limit 4g keeps more RAM free for the host. memswap_limit 8g
(= 4g swap) lets peaks spill to disk instead of OOM-killing.
Slower during peak inference but won't starve the dev machine.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 docker-compose.yml | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/docker-compose.yml b/docker-compose.yml
index 3d194e75..e2ede36d 100644
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -78,8 +78,8 @@ services:
       dockerfile: Dockerfile
     container_name: archive-ocr
     restart: unless-stopped
-    mem_limit: 6g
-    memswap_limit: 6g
+    mem_limit: 4g
+    memswap_limit: 8g
     volumes:
       - ocr_models:/app/models
     environment:
-- 
2.49.1


From 741979304c21e0074cd00559316043c1aad1509a Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 22:35:34 +0200
Subject: [PATCH 32/74] fix(ocr): increase to 8g mem_limit and larger batch
 sizes
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

5GB free on host while OCR runs — give the container more room.
Bump batch sizes (detector=2, recognition=4) so it processes
faster with the available memory.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 docker-compose.yml | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/docker-compose.yml b/docker-compose.yml
index e2ede36d..d53033d4 100644
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -78,7 +78,7 @@ services:
       dockerfile: Dockerfile
     container_name: archive-ocr
     restart: unless-stopped
-    mem_limit: 4g
+    mem_limit: 8g
     memswap_limit: 8g
     volumes:
       - ocr_models:/app/models
@@ -86,8 +86,8 @@ services:
       KRAKEN_MODEL_PATH: /app/models/german_kurrent.mlmodel
       OCR_CONFIDENCE_THRESHOLD: "0.3"
       OCR_CONFIDENCE_THRESHOLD_KURRENT: "0.5"
-      RECOGNITION_BATCH_SIZE: "1"
-      DETECTOR_BATCH_SIZE: "1"
+      RECOGNITION_BATCH_SIZE: "4"
+      DETECTOR_BATCH_SIZE: "2"
     networks:
       - archive-net
     healthcheck:
-- 
2.49.1


From dd175d09e2683f82091d4cb21e9246af6f9be801 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 22:55:52 +0200
Subject: [PATCH 33/74] refactor(ocr): make single-document OCR async, fix
 circular dependency
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

OcrService → OcrAsyncRunner was circular. Fixed by moving all OCR
processing logic (processDocument, clearExistingBlocks, createBlocks)
into OcrAsyncRunner. OcrService is now a thin entry point that
validates, creates the job, and dispatches to OcrAsyncRunner.

Architecture:
- OcrService: validates document, checks health, creates OcrJob, delegates
- OcrAsyncRunner: @Async processDocument + runSingleDocument + runBatch
- OcrBatchService: creates job + job documents, delegates to OcrAsyncRunner
- No circular dependencies

Single-document OCR is now async (returns jobId immediately).
Frontend polls GET /api/ocr/jobs/{jobId} every 3s until DONE/FAILED.

816 backend tests pass, 687 frontend tests pass.

Refs #226

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../service/OcrAsyncRunner.java               | 156 ++++++++++++++++++
 .../service/OcrBatchService.java              |  68 +-------
 .../familienarchiv/service/OcrService.java    |  68 +-------
 .../service/OcrAsyncRunnerTest.java           | 142 ++++++++++++++++
 .../service/OcrBatchServiceTest.java          |  94 ++---------
 .../service/OcrServiceTest.java               | 134 ++-------------
 .../src/routes/documents/[id]/+page.svelte    |  85 ++++++----
 7 files changed, 388 insertions(+), 359 deletions(-)
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
 create mode 100644 backend/src/test/java/org/raddatz/familienarchiv/service/OcrAsyncRunnerTest.java

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
new file mode 100644
index 00000000..a3090a62
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
@@ -0,0 +1,156 @@
+package org.raddatz.familienarchiv.service;
+
+import lombok.RequiredArgsConstructor;
+import lombok.extern.slf4j.Slf4j;
+import org.raddatz.familienarchiv.dto.CreateAnnotationDTO;
+import org.raddatz.familienarchiv.model.*;
+import org.raddatz.familienarchiv.repository.OcrJobDocumentRepository;
+import org.raddatz.familienarchiv.repository.OcrJobRepository;
+import org.raddatz.familienarchiv.repository.TranscriptionBlockRepository;
+import org.springframework.scheduling.annotation.Async;
+import org.springframework.stereotype.Component;
+
+import java.util.List;
+import java.util.Map;
+import java.util.UUID;
+
+@Component
+@RequiredArgsConstructor
+@Slf4j
+public class OcrAsyncRunner {
+
+    private static final String OCR_ANNOTATION_COLOR = "#00C7B1";
+
+    private final OcrClient ocrClient;
+    private final DocumentService documentService;
+    private final TranscriptionService transcriptionService;
+    private final AnnotationService annotationService;
+    private final TranscriptionBlockRepository blockRepository;
+    private final FileService fileService;
+    private final OcrJobRepository ocrJobRepository;
+    private final OcrJobDocumentRepository ocrJobDocumentRepository;
+    private final OcrProgressService ocrProgressService;
+
+    @Async
+    public void runSingleDocument(UUID jobId, UUID documentId, UUID userId) {
+        OcrJob job = ocrJobRepository.findById(jobId).orElse(null);
+        if (job == null) return;
+
+        job.setStatus(OcrJobStatus.RUNNING);
+        ocrJobRepository.save(job);
+
+        Document doc = documentService.getDocumentById(documentId);
+
+        try {
+            processDocument(documentId, doc, userId);
+            job.setStatus(OcrJobStatus.DONE);
+            job.setProcessedDocuments(1);
+        } catch (Exception e) {
+            log.error("OCR processing failed for document {}", documentId, e);
+            job.setStatus(OcrJobStatus.FAILED);
+            job.setErrorCount(1);
+        }
+
+        ocrJobRepository.save(job);
+    }
+
+    @Async
+    public void runBatch(UUID jobId, UUID userId) {
+        OcrJob job = ocrJobRepository.findById(jobId).orElse(null);
+        if (job == null) return;
+
+        job.setStatus(OcrJobStatus.RUNNING);
+        ocrJobRepository.save(job);
+
+        List<OcrJobDocument> jobDocs = ocrJobDocumentRepository.findByJobIdOrderByCreatedAtAsc(jobId);
+
+        for (OcrJobDocument jobDoc : jobDocs) {
+            Document doc = documentService.getDocumentById(jobDoc.getDocumentId());
+
+            if (doc.getStatus() == DocumentStatus.PLACEHOLDER) {
+                jobDoc.setStatus(OcrDocumentStatus.SKIPPED);
+                ocrJobDocumentRepository.save(jobDoc);
+                job.setSkippedCount(job.getSkippedCount() + 1);
+                ocrJobRepository.save(job);
+                ocrProgressService.emit(jobId, "document", Map.of(
+                        "documentId", jobDoc.getDocumentId(),
+                        "status", "SKIPPED",
+                        "processed", job.getProcessedDocuments(),
+                        "total", job.getTotalDocuments()));
+                continue;
+            }
+
+            jobDoc.setStatus(OcrDocumentStatus.RUNNING);
+            ocrJobDocumentRepository.save(jobDoc);
+
+            try {
+                processDocument(jobDoc.getDocumentId(), doc, userId);
+                jobDoc.setStatus(OcrDocumentStatus.DONE);
+                job.setProcessedDocuments(job.getProcessedDocuments() + 1);
+            } catch (Exception e) {
+                log.error("OCR batch: failed document {}", jobDoc.getDocumentId(), e);
+                jobDoc.setStatus(OcrDocumentStatus.FAILED);
+                jobDoc.setErrorMessage(e.getMessage());
+                job.setErrorCount(job.getErrorCount() + 1);
+            }
+
+            ocrJobDocumentRepository.save(jobDoc);
+            ocrJobRepository.save(job);
+
+            ocrProgressService.emit(jobId, "document", Map.of(
+                    "documentId", jobDoc.getDocumentId(),
+                    "status", jobDoc.getStatus().name(),
+                    "processed", job.getProcessedDocuments(),
+                    "total", job.getTotalDocuments()));
+        }
+
+        job.setStatus(OcrJobStatus.DONE);
+        ocrJobRepository.save(job);
+
+        ocrProgressService.emit(jobId, "done", Map.of(
+                "processed", job.getProcessedDocuments(),
+                "errors", job.getErrorCount(),
+                "skipped", job.getSkippedCount()));
+        ocrProgressService.complete(jobId);
+    }
+
+    void processDocument(UUID documentId, Document doc, UUID userId) {
+        clearExistingBlocks(documentId);
+
+        String pdfUrl = fileService.generatePresignedUrl(doc.getFilePath());
+        List<OcrBlockResult> blocks = ocrClient.extractBlocks(pdfUrl, doc.getScriptType());
+        createTranscriptionBlocks(documentId, blocks, userId, doc.getFileHash());
+    }
+
+    private void clearExistingBlocks(UUID documentId) {
+        List<TranscriptionBlock> existing = transcriptionService.listBlocks(documentId);
+        for (TranscriptionBlock block : existing) {
+            transcriptionService.deleteBlock(documentId, block.getId());
+        }
+    }
+
+    private void createTranscriptionBlocks(UUID documentId, List<OcrBlockResult> blocks,
+                                            UUID userId, String fileHash) {
+        for (int i = 0; i < blocks.size(); i++) {
+            OcrBlockResult block = blocks.get(i);
+
+            CreateAnnotationDTO annotationDTO = new CreateAnnotationDTO(
+                    block.pageNumber(), block.x(), block.y(),
+                    block.width(), block.height(), OCR_ANNOTATION_COLOR);
+
+            DocumentAnnotation annotation = annotationService.createOcrAnnotation(
+                    documentId, annotationDTO, userId, fileHash, block.polygon());
+
+            TranscriptionBlock transcriptionBlock = TranscriptionBlock.builder()
+                    .annotationId(annotation.getId())
+                    .documentId(documentId)
+                    .text(block.text() != null ? block.text() : "")
+                    .sortOrder(i)
+                    .source(BlockSource.OCR)
+                    .createdBy(userId)
+                    .updatedBy(userId)
+                    .build();
+            blockRepository.save(transcriptionBlock);
+        }
+    }
+}
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrBatchService.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrBatchService.java
index 52639c36..294ba849 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrBatchService.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrBatchService.java
@@ -7,11 +7,9 @@ import org.raddatz.familienarchiv.exception.ErrorCode;
 import org.raddatz.familienarchiv.model.*;
 import org.raddatz.familienarchiv.repository.OcrJobDocumentRepository;
 import org.raddatz.familienarchiv.repository.OcrJobRepository;
-import org.springframework.scheduling.annotation.Async;
 import org.springframework.stereotype.Service;
 
 import java.util.List;
-import java.util.Map;
 import java.util.UUID;
 
 @Service
@@ -19,12 +17,10 @@ import java.util.UUID;
 @Slf4j
 public class OcrBatchService {
 
-    private final OcrService ocrService;
     private final OcrHealthClient ocrHealthClient;
-    private final DocumentService documentService;
     private final OcrJobRepository ocrJobRepository;
     private final OcrJobDocumentRepository ocrJobDocumentRepository;
-    private final OcrProgressService ocrProgressService;
+    private final OcrAsyncRunner ocrAsyncRunner;
 
     public UUID startBatch(List<UUID> documentIds, UUID userId) {
         if (!ocrHealthClient.isHealthy()) {
@@ -48,67 +44,7 @@ public class OcrBatchService {
             ocrJobDocumentRepository.save(jobDoc);
         }
 
-        processBatchAsync(job.getId(), userId);
+        ocrAsyncRunner.runBatch(job.getId(), userId);
         return job.getId();
     }
-
-    @Async
-    void processBatchAsync(UUID jobId, UUID userId) {
-        OcrJob job = ocrJobRepository.findById(jobId).orElse(null);
-        if (job == null) return;
-
-        job.setStatus(OcrJobStatus.RUNNING);
-        ocrJobRepository.save(job);
-
-        List<OcrJobDocument> jobDocs = ocrJobDocumentRepository.findByJobIdOrderByCreatedAtAsc(jobId);
-
-        for (OcrJobDocument jobDoc : jobDocs) {
-            Document doc = documentService.getDocumentById(jobDoc.getDocumentId());
-
-            if (doc.getStatus() == DocumentStatus.PLACEHOLDER) {
-                jobDoc.setStatus(OcrDocumentStatus.SKIPPED);
-                ocrJobDocumentRepository.save(jobDoc);
-                job.setSkippedCount(job.getSkippedCount() + 1);
-                ocrJobRepository.save(job);
-                ocrProgressService.emit(jobId, "document", Map.of(
-                        "documentId", jobDoc.getDocumentId(),
-                        "status", "SKIPPED",
-                        "processed", job.getProcessedDocuments(),
-                        "total", job.getTotalDocuments()));
-                continue;
-            }
-
-            jobDoc.setStatus(OcrDocumentStatus.RUNNING);
-            ocrJobDocumentRepository.save(jobDoc);
-
-            try {
-                ocrService.processDocument(jobDoc.getDocumentId(), doc, userId);
-                jobDoc.setStatus(OcrDocumentStatus.DONE);
-                job.setProcessedDocuments(job.getProcessedDocuments() + 1);
-            } catch (Exception e) {
-                log.error("OCR batch: failed document {}", jobDoc.getDocumentId(), e);
-                jobDoc.setStatus(OcrDocumentStatus.FAILED);
-                jobDoc.setErrorMessage(e.getMessage());
-                job.setErrorCount(job.getErrorCount() + 1);
-            }
-
-            ocrJobDocumentRepository.save(jobDoc);
-            ocrJobRepository.save(job);
-
-            ocrProgressService.emit(jobId, "document", Map.of(
-                    "documentId", jobDoc.getDocumentId(),
-                    "status", jobDoc.getStatus().name(),
-                    "processed", job.getProcessedDocuments(),
-                    "total", job.getTotalDocuments()));
-        }
-
-        job.setStatus(OcrJobStatus.DONE);
-        ocrJobRepository.save(job);
-
-        ocrProgressService.emit(jobId, "done", Map.of(
-                "processed", job.getProcessedDocuments(),
-                "errors", job.getErrorCount(),
-                "skipped", job.getSkippedCount()));
-        ocrProgressService.complete(jobId);
-    }
 }
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
index c92634ee..3812db4e 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
@@ -2,16 +2,12 @@ package org.raddatz.familienarchiv.service;
 
 import lombok.RequiredArgsConstructor;
 import lombok.extern.slf4j.Slf4j;
-import org.raddatz.familienarchiv.dto.CreateAnnotationDTO;
 import org.raddatz.familienarchiv.exception.DomainException;
 import org.raddatz.familienarchiv.exception.ErrorCode;
 import org.raddatz.familienarchiv.model.*;
 import org.raddatz.familienarchiv.repository.OcrJobRepository;
-import org.raddatz.familienarchiv.repository.TranscriptionBlockRepository;
 import org.springframework.stereotype.Service;
-import org.springframework.transaction.annotation.Transactional;
 
-import java.util.List;
 import java.util.UUID;
 
 @Service
@@ -19,18 +15,11 @@ import java.util.UUID;
 @Slf4j
 public class OcrService {
 
-    private static final String OCR_ANNOTATION_COLOR = "#00C7B1";
-
-    private final OcrClient ocrClient;
     private final OcrHealthClient ocrHealthClient;
     private final DocumentService documentService;
-    private final TranscriptionService transcriptionService;
-    private final AnnotationService annotationService;
-    private final TranscriptionBlockRepository blockRepository;
     private final OcrJobRepository ocrJobRepository;
-    private final FileService fileService;
+    private final OcrAsyncRunner ocrAsyncRunner;
 
-    @Transactional
     public UUID startOcr(UUID documentId, ScriptType scriptTypeOverride, UUID userId) {
         Document doc = documentService.getDocumentById(documentId);
 
@@ -51,62 +40,11 @@ public class OcrService {
         OcrJob job = OcrJob.builder()
                 .totalDocuments(1)
                 .createdBy(userId)
-                .status(OcrJobStatus.RUNNING)
+                .status(OcrJobStatus.PENDING)
                 .build();
         job = ocrJobRepository.save(job);
 
-        try {
-            processDocument(documentId, doc, userId);
-            job.setStatus(OcrJobStatus.DONE);
-            job.setProcessedDocuments(1);
-        } catch (Exception e) {
-            log.error("OCR processing failed for document {}", documentId, e);
-            job.setStatus(OcrJobStatus.FAILED);
-            job.setErrorCount(1);
-        }
-
-        ocrJobRepository.save(job);
+        ocrAsyncRunner.runSingleDocument(job.getId(), documentId, userId);
         return job.getId();
     }
-
-    void processDocument(UUID documentId, Document doc, UUID userId) {
-        clearExistingBlocks(documentId);
-
-        String pdfUrl = fileService.generatePresignedUrl(doc.getFilePath());
-        List<OcrBlockResult> blocks = ocrClient.extractBlocks(pdfUrl, doc.getScriptType());
-        createTranscriptionBlocks(documentId, blocks, userId, doc.getFileHash());
-    }
-
-    private void clearExistingBlocks(UUID documentId) {
-        List<TranscriptionBlock> existing = transcriptionService.listBlocks(documentId);
-        for (TranscriptionBlock block : existing) {
-            transcriptionService.deleteBlock(documentId, block.getId());
-        }
-    }
-
-    private void createTranscriptionBlocks(UUID documentId, List<OcrBlockResult> blocks,
-                                            UUID userId, String fileHash) {
-        for (int i = 0; i < blocks.size(); i++) {
-            OcrBlockResult block = blocks.get(i);
-
-            CreateAnnotationDTO annotationDTO = new CreateAnnotationDTO(
-                    block.pageNumber(), block.x(), block.y(),
-                    block.width(), block.height(), OCR_ANNOTATION_COLOR);
-
-            DocumentAnnotation annotation = annotationService.createOcrAnnotation(
-                    documentId, annotationDTO, userId, fileHash, block.polygon());
-
-            TranscriptionBlock transcriptionBlock = TranscriptionBlock.builder()
-                    .annotationId(annotation.getId())
-                    .documentId(documentId)
-                    .text(block.text() != null ? block.text() : "")
-                    .sortOrder(i)
-                    .source(BlockSource.OCR)
-                    .createdBy(userId)
-                    .updatedBy(userId)
-                    .build();
-            blockRepository.save(transcriptionBlock);
-        }
-    }
-
 }
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrAsyncRunnerTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrAsyncRunnerTest.java
new file mode 100644
index 00000000..e4275378
--- /dev/null
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrAsyncRunnerTest.java
@@ -0,0 +1,142 @@
+package org.raddatz.familienarchiv.service;
+
+import org.junit.jupiter.api.Test;
+import org.junit.jupiter.api.extension.ExtendWith;
+import org.mockito.ArgumentCaptor;
+import org.mockito.InjectMocks;
+import org.mockito.Mock;
+import org.mockito.junit.jupiter.MockitoExtension;
+import org.raddatz.familienarchiv.dto.CreateAnnotationDTO;
+import org.raddatz.familienarchiv.model.*;
+import org.raddatz.familienarchiv.repository.OcrJobDocumentRepository;
+import org.raddatz.familienarchiv.repository.OcrJobRepository;
+import org.raddatz.familienarchiv.repository.TranscriptionBlockRepository;
+
+import java.util.List;
+import java.util.Optional;
+import java.util.UUID;
+
+import static org.assertj.core.api.Assertions.assertThat;
+import static org.mockito.ArgumentMatchers.any;
+import static org.mockito.ArgumentMatchers.eq;
+import static org.mockito.Mockito.*;
+
+@ExtendWith(MockitoExtension.class)
+class OcrAsyncRunnerTest {
+
+    @Mock OcrClient ocrClient;
+    @Mock DocumentService documentService;
+    @Mock TranscriptionService transcriptionService;
+    @Mock AnnotationService annotationService;
+    @Mock TranscriptionBlockRepository blockRepository;
+    @Mock FileService fileService;
+    @Mock OcrJobRepository ocrJobRepository;
+    @Mock OcrJobDocumentRepository ocrJobDocumentRepository;
+    @Mock OcrProgressService ocrProgressService;
+
+    @InjectMocks OcrAsyncRunner ocrAsyncRunner;
+
+    @Test
+    void processDocument_clearsExistingBlocks() {
+        UUID docId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+        TranscriptionBlock existing = TranscriptionBlock.builder()
+                .id(UUID.randomUUID()).documentId(docId).build();
+        Document doc = Document.builder().id(docId).filePath("test.pdf")
+                .fileHash("hash").scriptType(ScriptType.TYPEWRITER).build();
+
+        when(transcriptionService.listBlocks(docId)).thenReturn(List.of(existing));
+        when(fileService.generatePresignedUrl(any())).thenReturn("http://presigned");
+        when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of());
+
+        ocrAsyncRunner.processDocument(docId, doc, userId);
+
+        verify(transcriptionService).deleteBlock(docId, existing.getId());
+    }
+
+    @Test
+    void processDocument_createsAnnotationAndBlock_forEachResult() {
+        UUID docId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+        Document doc = Document.builder().id(docId).filePath("test.pdf")
+                .fileHash("hash").scriptType(ScriptType.TYPEWRITER).build();
+
+        when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
+        when(fileService.generatePresignedUrl(any())).thenReturn("http://presigned");
+        when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of(
+                new OcrBlockResult(0, 0.1, 0.1, 0.8, 0.04, null, "Line 1"),
+                new OcrBlockResult(0, 0.1, 0.2, 0.8, 0.04, null, "Line 2")));
+        DocumentAnnotation ann = DocumentAnnotation.builder().id(UUID.randomUUID()).build();
+        when(annotationService.createOcrAnnotation(any(), any(), any(), any(), any())).thenReturn(ann);
+
+        ocrAsyncRunner.processDocument(docId, doc, userId);
+
+        verify(annotationService, times(2)).createOcrAnnotation(
+                eq(docId), any(CreateAnnotationDTO.class), eq(userId), eq("hash"), any());
+        verify(blockRepository, times(2)).save(any());
+    }
+
+    @Test
+    void processDocument_setsBlockSourceToOcr() {
+        UUID docId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+        Document doc = Document.builder().id(docId).filePath("test.pdf")
+                .fileHash("hash").scriptType(ScriptType.TYPEWRITER).build();
+
+        when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
+        when(fileService.generatePresignedUrl(any())).thenReturn("http://presigned");
+        when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of(
+                new OcrBlockResult(0, 0.1, 0.1, 0.8, 0.04, null, "Test")));
+        DocumentAnnotation ann = DocumentAnnotation.builder().id(UUID.randomUUID()).build();
+        when(annotationService.createOcrAnnotation(any(), any(), any(), any(), any())).thenReturn(ann);
+
+        ocrAsyncRunner.processDocument(docId, doc, userId);
+
+        ArgumentCaptor<TranscriptionBlock> captor = ArgumentCaptor.forClass(TranscriptionBlock.class);
+        verify(blockRepository).save(captor.capture());
+        assertThat(captor.getValue().getSource()).isEqualTo(BlockSource.OCR);
+    }
+
+    @Test
+    void runSingleDocument_setsJobDone_onSuccess() {
+        UUID jobId = UUID.randomUUID();
+        UUID docId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+        OcrJob job = OcrJob.builder().id(jobId).totalDocuments(1).status(OcrJobStatus.PENDING).build();
+        Document doc = Document.builder().id(docId).filePath("test.pdf")
+                .fileHash("hash").scriptType(ScriptType.TYPEWRITER).build();
+
+        when(ocrJobRepository.findById(jobId)).thenReturn(Optional.of(job));
+        when(ocrJobRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+        when(documentService.getDocumentById(docId)).thenReturn(doc);
+        when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
+        when(fileService.generatePresignedUrl(any())).thenReturn("http://presigned");
+        when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of());
+
+        ocrAsyncRunner.runSingleDocument(jobId, docId, userId);
+
+        assertThat(job.getStatus()).isEqualTo(OcrJobStatus.DONE);
+    }
+
+    @Test
+    void runSingleDocument_setsJobFailed_onError() {
+        UUID jobId = UUID.randomUUID();
+        UUID docId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+        OcrJob job = OcrJob.builder().id(jobId).totalDocuments(1).status(OcrJobStatus.PENDING).build();
+        Document doc = Document.builder().id(docId).filePath("test.pdf")
+                .fileHash("hash").scriptType(ScriptType.TYPEWRITER).build();
+
+        when(ocrJobRepository.findById(jobId)).thenReturn(Optional.of(job));
+        when(ocrJobRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+        when(documentService.getDocumentById(docId)).thenReturn(doc);
+        when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
+        when(fileService.generatePresignedUrl(any())).thenReturn("http://presigned");
+        when(ocrClient.extractBlocks(any(), any())).thenThrow(new RuntimeException("OCR failed"));
+
+        ocrAsyncRunner.runSingleDocument(jobId, docId, userId);
+
+        assertThat(job.getStatus()).isEqualTo(OcrJobStatus.FAILED);
+        assertThat(job.getErrorCount()).isEqualTo(1);
+    }
+}
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrBatchServiceTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrBatchServiceTest.java
index 9640c3b0..875b5303 100644
--- a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrBatchServiceTest.java
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrBatchServiceTest.java
@@ -12,24 +12,20 @@ import org.raddatz.familienarchiv.repository.OcrJobDocumentRepository;
 import org.raddatz.familienarchiv.repository.OcrJobRepository;
 
 import java.util.List;
-import java.util.Optional;
 import java.util.UUID;
 
 import static org.assertj.core.api.Assertions.assertThat;
 import static org.assertj.core.api.Assertions.assertThatThrownBy;
 import static org.mockito.ArgumentMatchers.any;
-import static org.mockito.ArgumentMatchers.eq;
 import static org.mockito.Mockito.*;
 
 @ExtendWith(MockitoExtension.class)
 class OcrBatchServiceTest {
 
-    @Mock OcrService ocrService;
     @Mock OcrHealthClient ocrHealthClient;
-    @Mock DocumentService documentService;
     @Mock OcrJobRepository ocrJobRepository;
     @Mock OcrJobDocumentRepository ocrJobDocumentRepository;
-    @Mock OcrProgressService ocrProgressService;
+    @Mock OcrAsyncRunner ocrAsyncRunner;
 
     @InjectMocks OcrBatchService ocrBatchService;
 
@@ -44,7 +40,7 @@ class OcrBatchServiceTest {
     }
 
     @Test
-    void startBatch_createsJobAndReturnsJobId() {
+    void startBatch_createsJobAndDispatchesAsync() {
         UUID docId = UUID.randomUUID();
         UUID userId = UUID.randomUUID();
         UUID jobId = UUID.randomUUID();
@@ -56,87 +52,29 @@ class OcrBatchServiceTest {
             return job;
         });
         when(ocrJobDocumentRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
-        when(ocrJobRepository.findById(jobId)).thenReturn(Optional.of(
-                OcrJob.builder().id(jobId).totalDocuments(1).status(OcrJobStatus.PENDING).build()));
-        when(ocrJobDocumentRepository.findByJobIdOrderByCreatedAtAsc(jobId)).thenReturn(List.of(
-                OcrJobDocument.builder().jobId(jobId).documentId(docId).status(OcrDocumentStatus.PENDING).build()));
 
-        Document doc = Document.builder().id(docId).status(DocumentStatus.UPLOADED)
-                .filePath("test.pdf").fileHash("hash").scriptType(ScriptType.TYPEWRITER).build();
-        when(documentService.getDocumentById(docId)).thenReturn(doc);
+        UUID result = ocrBatchService.startBatch(List.of(docId), userId);
 
-        UUID resultJobId = ocrBatchService.startBatch(List.of(docId), userId);
-
-        assertThat(resultJobId).isEqualTo(jobId);
-        verify(ocrService).processDocument(eq(docId), eq(doc), eq(userId));
+        assertThat(result).isEqualTo(jobId);
+        verify(ocrAsyncRunner).runBatch(jobId, userId);
     }
 
     @Test
-    void processBatchAsync_skipsPlaceholderDocuments() {
-        UUID jobId = UUID.randomUUID();
-        UUID uploadedId = UUID.randomUUID();
-        UUID placeholderId = UUID.randomUUID();
+    void startBatch_createsJobDocumentForEachId() {
+        UUID doc1 = UUID.randomUUID();
+        UUID doc2 = UUID.randomUUID();
         UUID userId = UUID.randomUUID();
 
-        OcrJob job = OcrJob.builder().id(jobId).totalDocuments(2).status(OcrJobStatus.PENDING).build();
-        when(ocrJobRepository.findById(jobId)).thenReturn(Optional.of(job));
-        when(ocrJobRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+        when(ocrHealthClient.isHealthy()).thenReturn(true);
+        when(ocrJobRepository.save(any())).thenAnswer(inv -> {
+            OcrJob job = inv.getArgument(0);
+            job.setId(UUID.randomUUID());
+            return job;
+        });
         when(ocrJobDocumentRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
 
-        OcrJobDocument uploadedJobDoc = OcrJobDocument.builder()
-                .jobId(jobId).documentId(uploadedId).status(OcrDocumentStatus.PENDING).build();
-        OcrJobDocument placeholderJobDoc = OcrJobDocument.builder()
-                .jobId(jobId).documentId(placeholderId).status(OcrDocumentStatus.PENDING).build();
-        when(ocrJobDocumentRepository.findByJobIdOrderByCreatedAtAsc(jobId))
-                .thenReturn(List.of(uploadedJobDoc, placeholderJobDoc));
+        ocrBatchService.startBatch(List.of(doc1, doc2), userId);
 
-        Document uploaded = Document.builder().id(uploadedId).status(DocumentStatus.UPLOADED)
-                .filePath("test.pdf").fileHash("hash").scriptType(ScriptType.TYPEWRITER).build();
-        Document placeholder = Document.builder().id(placeholderId).status(DocumentStatus.PLACEHOLDER).build();
-        when(documentService.getDocumentById(uploadedId)).thenReturn(uploaded);
-        when(documentService.getDocumentById(placeholderId)).thenReturn(placeholder);
-
-        ocrBatchService.processBatchAsync(jobId, userId);
-
-        verify(ocrService).processDocument(eq(uploadedId), eq(uploaded), eq(userId));
-        verify(ocrService, never()).processDocument(eq(placeholderId), any(), any());
-        assertThat(placeholderJobDoc.getStatus()).isEqualTo(OcrDocumentStatus.SKIPPED);
-    }
-
-    @Test
-    void processBatchAsync_continuesAfterSingleDocumentFailure() {
-        UUID jobId = UUID.randomUUID();
-        UUID failDocId = UUID.randomUUID();
-        UUID successDocId = UUID.randomUUID();
-        UUID userId = UUID.randomUUID();
-
-        OcrJob job = OcrJob.builder().id(jobId).totalDocuments(2).status(OcrJobStatus.PENDING).build();
-        when(ocrJobRepository.findById(jobId)).thenReturn(Optional.of(job));
-        when(ocrJobRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
-        when(ocrJobDocumentRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
-
-        OcrJobDocument failJobDoc = OcrJobDocument.builder()
-                .jobId(jobId).documentId(failDocId).status(OcrDocumentStatus.PENDING).build();
-        OcrJobDocument successJobDoc = OcrJobDocument.builder()
-                .jobId(jobId).documentId(successDocId).status(OcrDocumentStatus.PENDING).build();
-        when(ocrJobDocumentRepository.findByJobIdOrderByCreatedAtAsc(jobId))
-                .thenReturn(List.of(failJobDoc, successJobDoc));
-
-        Document failDoc = Document.builder().id(failDocId).status(DocumentStatus.UPLOADED)
-                .filePath("fail.pdf").fileHash("hash1").scriptType(ScriptType.TYPEWRITER).build();
-        Document successDoc = Document.builder().id(successDocId).status(DocumentStatus.UPLOADED)
-                .filePath("success.pdf").fileHash("hash2").scriptType(ScriptType.TYPEWRITER).build();
-        when(documentService.getDocumentById(failDocId)).thenReturn(failDoc);
-        when(documentService.getDocumentById(successDocId)).thenReturn(successDoc);
-
-        doThrow(new RuntimeException("OCR failed")).when(ocrService)
-                .processDocument(eq(failDocId), any(), any());
-
-        ocrBatchService.processBatchAsync(jobId, userId);
-
-        verify(ocrService).processDocument(eq(successDocId), eq(successDoc), eq(userId));
-        assertThat(failJobDoc.getStatus()).isEqualTo(OcrDocumentStatus.FAILED);
-        assertThat(successJobDoc.getStatus()).isEqualTo(OcrDocumentStatus.DONE);
-        assertThat(job.getStatus()).isEqualTo(OcrJobStatus.DONE);
+        verify(ocrJobDocumentRepository, times(2)).save(any());
     }
 }
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java
index 0c8dc70f..fe66287f 100644
--- a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java
@@ -2,50 +2,39 @@ package org.raddatz.familienarchiv.service;
 
 import org.junit.jupiter.api.Test;
 import org.junit.jupiter.api.extension.ExtendWith;
-import org.mockito.ArgumentCaptor;
 import org.mockito.InjectMocks;
 import org.mockito.Mock;
 import org.mockito.junit.jupiter.MockitoExtension;
-import org.mockito.ArgumentCaptor;
-import org.raddatz.familienarchiv.dto.CreateAnnotationDTO;
 import org.raddatz.familienarchiv.exception.DomainException;
 import org.raddatz.familienarchiv.exception.ErrorCode;
 import org.raddatz.familienarchiv.model.*;
 import org.raddatz.familienarchiv.repository.OcrJobRepository;
-import org.raddatz.familienarchiv.repository.TranscriptionBlockRepository;
 
-import java.util.List;
 import java.util.UUID;
 
 import static org.assertj.core.api.Assertions.assertThat;
 import static org.assertj.core.api.Assertions.assertThatThrownBy;
 import static org.mockito.ArgumentMatchers.any;
-import static org.mockito.ArgumentMatchers.eq;
 import static org.mockito.Mockito.*;
 import static org.springframework.http.HttpStatus.*;
 
 @ExtendWith(MockitoExtension.class)
 class OcrServiceTest {
 
-    @Mock OcrClient ocrClient;
     @Mock OcrHealthClient ocrHealthClient;
     @Mock DocumentService documentService;
-    @Mock TranscriptionService transcriptionService;
-    @Mock AnnotationService annotationService;
-    @Mock TranscriptionBlockRepository blockRepository;
     @Mock OcrJobRepository ocrJobRepository;
-    @Mock FileService fileService;
+    @Mock OcrAsyncRunner ocrAsyncRunner;
 
     @InjectMocks OcrService ocrService;
 
     @Test
     void startOcr_throwsBadRequest_whenDocumentIsPlaceholder() {
         UUID docId = UUID.randomUUID();
-        UUID userId = UUID.randomUUID();
         Document doc = Document.builder().id(docId).status(DocumentStatus.PLACEHOLDER).build();
         when(documentService.getDocumentById(docId)).thenReturn(doc);
 
-        assertThatThrownBy(() -> ocrService.startOcr(docId, null, userId))
+        assertThatThrownBy(() -> ocrService.startOcr(docId, null, UUID.randomUUID()))
                 .isInstanceOf(DomainException.class)
                 .satisfies(e -> {
                     DomainException de = (DomainException) e;
@@ -57,150 +46,53 @@ class OcrServiceTest {
     @Test
     void startOcr_throwsServiceUnavailable_whenOcrServiceIsDown() {
         UUID docId = UUID.randomUUID();
-        UUID userId = UUID.randomUUID();
         Document doc = Document.builder().id(docId).status(DocumentStatus.UPLOADED)
-                .filePath("documents/test.pdf").fileHash("hash123").build();
+                .filePath("test.pdf").build();
         when(documentService.getDocumentById(docId)).thenReturn(doc);
         when(ocrHealthClient.isHealthy()).thenReturn(false);
 
-        assertThatThrownBy(() -> ocrService.startOcr(docId, null, userId))
+        assertThatThrownBy(() -> ocrService.startOcr(docId, null, UUID.randomUUID()))
                 .isInstanceOf(DomainException.class)
-                .satisfies(e -> {
-                    DomainException de = (DomainException) e;
-                    assertThat(de.getCode()).isEqualTo(ErrorCode.OCR_SERVICE_UNAVAILABLE);
-                });
+                .satisfies(e -> assertThat(((DomainException) e).getCode())
+                        .isEqualTo(ErrorCode.OCR_SERVICE_UNAVAILABLE));
     }
 
     @Test
-    void startOcr_createsJobAndReturnsJobId() {
+    void startOcr_createsJobAndDispatchesAsync() {
         UUID docId = UUID.randomUUID();
         UUID userId = UUID.randomUUID();
         UUID jobId = UUID.randomUUID();
         Document doc = Document.builder().id(docId).status(DocumentStatus.UPLOADED)
-                .filePath("documents/test.pdf").fileHash("hash123")
-                .scriptType(ScriptType.TYPEWRITER).build();
+                .filePath("test.pdf").scriptType(ScriptType.TYPEWRITER).build();
         when(documentService.getDocumentById(docId)).thenReturn(doc);
         when(ocrHealthClient.isHealthy()).thenReturn(true);
-        when(fileService.generatePresignedUrl(any())).thenReturn("http://minio/presigned");
-        when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of());
         when(ocrJobRepository.save(any())).thenAnswer(inv -> {
             OcrJob job = inv.getArgument(0);
             job.setId(jobId);
             return job;
         });
 
-        UUID resultJobId = ocrService.startOcr(docId, ScriptType.TYPEWRITER, userId);
+        UUID result = ocrService.startOcr(docId, null, userId);
 
-        assertThat(resultJobId).isEqualTo(jobId);
-        verify(ocrJobRepository, atLeastOnce()).save(any());
+        assertThat(result).isEqualTo(jobId);
+        verify(ocrAsyncRunner).runSingleDocument(jobId, docId, userId);
     }
 
     @Test
     void startOcr_setsScriptTypeOnDocument_whenProvided() {
         UUID docId = UUID.randomUUID();
-        UUID userId = UUID.randomUUID();
         Document doc = Document.builder().id(docId).status(DocumentStatus.UPLOADED)
-                .filePath("documents/test.pdf").fileHash("hash123")
-                .scriptType(ScriptType.UNKNOWN).build();
+                .filePath("test.pdf").scriptType(ScriptType.UNKNOWN).build();
         when(documentService.getDocumentById(docId)).thenReturn(doc);
         when(ocrHealthClient.isHealthy()).thenReturn(true);
-        when(fileService.generatePresignedUrl(any())).thenReturn("http://minio/presigned");
-        when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of());
         when(ocrJobRepository.save(any())).thenAnswer(inv -> {
             OcrJob job = inv.getArgument(0);
             job.setId(UUID.randomUUID());
             return job;
         });
 
-        ocrService.startOcr(docId, ScriptType.HANDWRITING_LATIN, userId);
+        ocrService.startOcr(docId, ScriptType.HANDWRITING_LATIN, UUID.randomUUID());
 
         assertThat(doc.getScriptType()).isEqualTo(ScriptType.HANDWRITING_LATIN);
     }
-
-    @Test
-    void startOcr_clearsExistingBlocks_beforeCreatingNew() {
-        UUID docId = UUID.randomUUID();
-        UUID userId = UUID.randomUUID();
-        Document doc = Document.builder().id(docId).status(DocumentStatus.UPLOADED)
-                .filePath("documents/test.pdf").fileHash("hash123")
-                .scriptType(ScriptType.TYPEWRITER).build();
-        TranscriptionBlock existingBlock = TranscriptionBlock.builder()
-                .id(UUID.randomUUID()).documentId(docId).build();
-
-        when(documentService.getDocumentById(docId)).thenReturn(doc);
-        when(ocrHealthClient.isHealthy()).thenReturn(true);
-        when(fileService.generatePresignedUrl(any())).thenReturn("http://minio/presigned");
-        when(transcriptionService.listBlocks(docId)).thenReturn(List.of(existingBlock));
-        when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of(
-                new OcrBlockResult(0, 0.1, 0.1, 0.8, 0.04, null, "Hello")));
-        when(ocrJobRepository.save(any())).thenAnswer(inv -> {
-            OcrJob job = inv.getArgument(0);
-            job.setId(UUID.randomUUID());
-            return job;
-        });
-        DocumentAnnotation ann = DocumentAnnotation.builder().id(UUID.randomUUID()).build();
-        when(annotationService.createOcrAnnotation(any(), any(), any(), any(), any())).thenReturn(ann);
-
-        ocrService.startOcr(docId, null, userId);
-
-        verify(transcriptionService).deleteBlock(docId, existingBlock.getId());
-    }
-
-    @Test
-    void startOcr_createsAnnotationAndBlock_forEachOcrResult() {
-        UUID docId = UUID.randomUUID();
-        UUID userId = UUID.randomUUID();
-        Document doc = Document.builder().id(docId).status(DocumentStatus.UPLOADED)
-                .filePath("documents/test.pdf").fileHash("hash123")
-                .scriptType(ScriptType.TYPEWRITER).build();
-
-        OcrBlockResult block1 = new OcrBlockResult(0, 0.1, 0.1, 0.8, 0.04, null, "Line 1");
-        OcrBlockResult block2 = new OcrBlockResult(0, 0.1, 0.2, 0.8, 0.04, null, "Line 2");
-
-        when(documentService.getDocumentById(docId)).thenReturn(doc);
-        when(ocrHealthClient.isHealthy()).thenReturn(true);
-        when(fileService.generatePresignedUrl(any())).thenReturn("http://minio/presigned");
-        when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
-        when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of(block1, block2));
-        when(ocrJobRepository.save(any())).thenAnswer(inv -> {
-            OcrJob job = inv.getArgument(0);
-            job.setId(UUID.randomUUID());
-            return job;
-        });
-        DocumentAnnotation ann = DocumentAnnotation.builder().id(UUID.randomUUID()).build();
-        when(annotationService.createOcrAnnotation(any(), any(), any(), any(), any())).thenReturn(ann);
-
-        ocrService.startOcr(docId, null, userId);
-
-        verify(annotationService, times(2)).createOcrAnnotation(
-                eq(docId), any(CreateAnnotationDTO.class), eq(userId), eq("hash123"), any());
-    }
-
-    @Test
-    void startOcr_setsBlockSourceToOcr() {
-        UUID docId = UUID.randomUUID();
-        UUID userId = UUID.randomUUID();
-        Document doc = Document.builder().id(docId).status(DocumentStatus.UPLOADED)
-                .filePath("documents/test.pdf").fileHash("hash123")
-                .scriptType(ScriptType.TYPEWRITER).build();
-        OcrBlockResult block = new OcrBlockResult(0, 0.1, 0.1, 0.8, 0.04, null, "Test");
-
-        when(documentService.getDocumentById(docId)).thenReturn(doc);
-        when(ocrHealthClient.isHealthy()).thenReturn(true);
-        when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
-        when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of(block));
-        when(ocrJobRepository.save(any())).thenAnswer(inv -> {
-            OcrJob job = inv.getArgument(0);
-            job.setId(UUID.randomUUID());
-            return job;
-        });
-        DocumentAnnotation ann = DocumentAnnotation.builder().id(UUID.randomUUID()).build();
-        when(annotationService.createOcrAnnotation(any(), any(), any(), any(), any())).thenReturn(ann);
-
-        ocrService.startOcr(docId, null, userId);
-
-        ArgumentCaptor<TranscriptionBlock> captor = ArgumentCaptor.forClass(TranscriptionBlock.class);
-        verify(blockRepository).save(captor.capture());
-        assertThat(captor.getValue().getSource()).isEqualTo(BlockSource.OCR);
-    }
 }
diff --git a/frontend/src/routes/documents/[id]/+page.svelte b/frontend/src/routes/documents/[id]/+page.svelte
index dbcddf78..46eafbd3 100644
--- a/frontend/src/routes/documents/[id]/+page.svelte
+++ b/frontend/src/routes/documents/[id]/+page.svelte
@@ -6,7 +6,6 @@ import DocumentViewer from '$lib/components/DocumentViewer.svelte';
 import TranscriptionEditView from '$lib/components/TranscriptionEditView.svelte';
 import TranscriptionReadView from '$lib/components/TranscriptionReadView.svelte';
 import TranscriptionPanelHeader from '$lib/components/TranscriptionPanelHeader.svelte';
-import OcrProgress from '$lib/components/OcrProgress.svelte';
 import type { TranscriptionBlockData } from '$lib/types';
 
 let { data } = $props();
@@ -58,7 +57,6 @@ let activeAnnotationId = $state<string | null>(null);
 let highlightBlockId = $state<string | null>(null);
 let flashAnnotationId = $state<string | null>(null);
 let pdfStripExpanded = $state(false);
-let ocrJobId = $state<string | null>(null);
 
 const prefersReducedMotion = $derived(
 	typeof window !== 'undefined' && window.matchMedia('(prefers-reduced-motion: reduce)').matches
@@ -129,7 +127,11 @@ async function reviewToggle(blockId: string) {
 	transcriptionBlocks = transcriptionBlocks.map((b) => (b.id === blockId ? updated : b));
 }
 
+let ocrRunning = $state(false);
+let ocrPollTimer = $state<ReturnType<typeof setInterval> | null>(null);
+
 async function triggerOcr(scriptType: string) {
+	ocrRunning = true;
 	try {
 		const res = await fetch(`/api/documents/${doc.id}/ocr`, {
 			method: 'POST',
@@ -138,18 +140,35 @@ async function triggerOcr(scriptType: string) {
 		});
 		if (res.ok) {
 			const data = await res.json();
-			ocrJobId = data.jobId;
+			pollOcrJob(data.jobId);
+		} else {
+			ocrRunning = false;
 		}
 	} catch (e) {
 		console.error('Failed to trigger OCR:', e);
+		ocrRunning = false;
 	}
 }
 
-async function handleOcrDone() {
-	ocrJobId = null;
-	await loadTranscriptionBlocks();
-	annotationReloadKey++;
-	panelMode = transcriptionBlocks.length > 0 ? 'read' : 'edit';
+function pollOcrJob(jobId: string) {
+	if (ocrPollTimer) clearInterval(ocrPollTimer);
+	ocrPollTimer = setInterval(async () => {
+		try {
+			const res = await fetch(`/api/ocr/jobs/${jobId}`);
+			if (!res.ok) return;
+			const job = await res.json();
+			if (job.status === 'DONE' || job.status === 'FAILED') {
+				if (ocrPollTimer) clearInterval(ocrPollTimer);
+				ocrPollTimer = null;
+				ocrRunning = false;
+				await loadTranscriptionBlocks();
+				annotationReloadKey++;
+				panelMode = transcriptionBlocks.length > 0 ? 'read' : 'edit';
+			}
+		} catch {
+			// polling is best-effort
+		}
+	}, 3000);
 }
 
 async function createBlockFromDraw(rect: {
@@ -232,28 +251,12 @@ function handleParagraphClick(annotationId: string) {
 	);
 }
 
-async function checkOcrStatus() {
-	if (!doc?.id) return;
-	try {
-		const res = await fetch(`/api/documents/${doc.id}/ocr-status`);
-		if (res.ok) {
-			const status = await res.json();
-			if (status.status === 'PENDING' || status.status === 'RUNNING') {
-				ocrJobId = status.jobId;
-			}
-		}
-	} catch {
-		// OCR status check is best-effort
-	}
-}
-
-// Load blocks and check OCR status when transcribe mode is entered
+// Load blocks when transcribe mode is entered and set default panel mode
 $effect(() => {
 	if (transcribeMode) {
 		loadTranscriptionBlocks().then(() => {
 			panelMode = transcriptionBlocks.length > 0 ? 'read' : 'edit';
 		});
-		checkOcrStatus();
 	}
 });
 
@@ -277,7 +280,10 @@ onMount(() => {
 		}
 	}
 	document.addEventListener('keydown', onKeyDown);
-	return () => document.removeEventListener('keydown', onKeyDown);
+	return () => {
+		document.removeEventListener('keydown', onKeyDown);
+		if (ocrPollTimer) clearInterval(ocrPollTimer);
+	};
 });
 </script>
 
@@ -353,9 +359,30 @@ onMount(() => {
 					onClose={() => (transcribeMode = false)}
 				/>
 				<div class="flex-1 overflow-y-auto">
-					{#if ocrJobId}
-						<div class="p-4">
-							<OcrProgress jobId={ocrJobId} onDone={handleOcrDone} />
+					{#if ocrRunning}
+						<div class="flex flex-1 flex-col items-center justify-center px-6 py-12 text-center">
+							<svg
+								class="mb-4 h-8 w-8 animate-spin text-brand-mint"
+								viewBox="0 0 24 24"
+								fill="none"
+							>
+								<circle
+									class="opacity-25"
+									cx="12"
+									cy="12"
+									r="10"
+									stroke="currentColor"
+									stroke-width="4"
+								></circle>
+								<path
+									class="opacity-75"
+									fill="currentColor"
+									d="M4 12a8 8 0 018-8V0C5.373 0 0 5.373 0 12h4z"
+								></path>
+							</svg>
+							<p class="text-xs font-bold tracking-widest text-gray-400 uppercase">
+								{m.ocr_progress_heading()}
+							</p>
 						</div>
 					{:else if panelMode === 'read'}
 						<TranscriptionReadView
-- 
2.49.1


From aa509513201e83a43572a6401f196fe014fdf5fc Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 22:58:00 +0200
Subject: [PATCH 34/74] fix(ocr): set 10-minute read timeout on
 RestClientOcrClient
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Default RestClient timeout was 10 seconds — OCR on CPU takes minutes.
Set connect timeout to 10s, read timeout to 10 minutes.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../service/RestClientOcrClient.java               | 14 +++++++++++++-
 1 file changed, 13 insertions(+), 1 deletion(-)

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/RestClientOcrClient.java b/backend/src/main/java/org/raddatz/familienarchiv/service/RestClientOcrClient.java
index 0bbb533c..4ab7958f 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/RestClientOcrClient.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/RestClientOcrClient.java
@@ -6,9 +6,12 @@ import org.raddatz.familienarchiv.model.ScriptType;
 import org.springframework.beans.factory.annotation.Value;
 import org.springframework.core.ParameterizedTypeReference;
 import org.springframework.http.MediaType;
+import org.springframework.http.client.JdkClientHttpRequestFactory;
 import org.springframework.stereotype.Component;
 import org.springframework.web.client.RestClient;
 
+import java.net.http.HttpClient;
+import java.time.Duration;
 import java.util.List;
 import java.util.Map;
 
@@ -19,7 +22,16 @@ public class RestClientOcrClient implements OcrClient, OcrHealthClient {
     private final RestClient restClient;
 
     public RestClientOcrClient(@Value("${app.ocr.base-url:http://ocr-service:8000}") String baseUrl) {
-        this.restClient = RestClient.builder().baseUrl(baseUrl).build();
+        HttpClient httpClient = HttpClient.newBuilder()
+                .connectTimeout(Duration.ofSeconds(10))
+                .build();
+        JdkClientHttpRequestFactory requestFactory = new JdkClientHttpRequestFactory(httpClient);
+        requestFactory.setReadTimeout(Duration.ofMinutes(10));
+
+        this.restClient = RestClient.builder()
+                .baseUrl(baseUrl)
+                .requestFactory(requestFactory)
+                .build();
     }
 
     @Override
-- 
2.49.1


From b6d928e1c55c2eb4850a51d25a77907963159681 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 22:59:31 +0200
Subject: [PATCH 35/74] fix(async): increase thread pool to 2 threads + queue
 of 10
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

The old pool (1 thread, queue=1) meant OCR blocked all other async
tasks (imports). Now 2 concurrent async tasks with a queue of 10
— enough for OCR + import to run in parallel.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../org/raddatz/familienarchiv/config/AsyncConfig.java    | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/config/AsyncConfig.java b/backend/src/main/java/org/raddatz/familienarchiv/config/AsyncConfig.java
index 7b8158af..acdac4c5 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/config/AsyncConfig.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/config/AsyncConfig.java
@@ -16,10 +16,10 @@ public class AsyncConfig {
     @Bean
     public Executor taskExecutor() {
         ThreadPoolTaskExecutor executor = new ThreadPoolTaskExecutor();
-        executor.setCorePoolSize(1);
-        executor.setMaxPoolSize(1);
-        executor.setQueueCapacity(1);
-        executor.setThreadNamePrefix("Import-");
+        executor.setCorePoolSize(2);
+        executor.setMaxPoolSize(2);
+        executor.setQueueCapacity(10);
+        executor.setThreadNamePrefix("Async-");
         executor.setRejectedExecutionHandler(new ThreadPoolExecutor.AbortPolicy());
         return executor;
     }
-- 
2.49.1


From 0bfaa7540b177050c9f6f4bd4f80600159aa399f Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 23:01:37 +0200
Subject: [PATCH 36/74] fix(async): queue 100 tasks + CallerRunsPolicy instead
 of abort

Better to wait than to error. Queue capacity 100 holds plenty of
OCR jobs. CallerRunsPolicy means if the queue is somehow full,
the request blocks instead of getting rejected with an exception.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../java/org/raddatz/familienarchiv/config/AsyncConfig.java   | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/config/AsyncConfig.java b/backend/src/main/java/org/raddatz/familienarchiv/config/AsyncConfig.java
index acdac4c5..55847e60 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/config/AsyncConfig.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/config/AsyncConfig.java
@@ -18,9 +18,9 @@ public class AsyncConfig {
         ThreadPoolTaskExecutor executor = new ThreadPoolTaskExecutor();
         executor.setCorePoolSize(2);
         executor.setMaxPoolSize(2);
-        executor.setQueueCapacity(10);
+        executor.setQueueCapacity(100);
         executor.setThreadNamePrefix("Async-");
-        executor.setRejectedExecutionHandler(new ThreadPoolExecutor.AbortPolicy());
+        executor.setRejectedExecutionHandler(new ThreadPoolExecutor.CallerRunsPolicy());
         return executor;
     }
 }
\ No newline at end of file
-- 
2.49.1


From 9e01009e3db5517b3432762aa3db1321771ad188 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 23:02:58 +0200
Subject: [PATCH 37/74] =?UTF-8?q?fix(async):=20revert=20to=20AbortPolicy?=
 =?UTF-8?q?=20=E2=80=94=20CallerRunsPolicy=20blocks=20requests?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

CallerRunsPolicy would cause the HTTP request to hang for minutes
if the queue is full. AbortPolicy with queue=100 is safe — the queue
will never realistically fill for a family archive. If it somehow
does, a clear error is better than a silent multi-minute hang.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../java/org/raddatz/familienarchiv/config/AsyncConfig.java     | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/config/AsyncConfig.java b/backend/src/main/java/org/raddatz/familienarchiv/config/AsyncConfig.java
index 55847e60..51f11f57 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/config/AsyncConfig.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/config/AsyncConfig.java
@@ -20,7 +20,7 @@ public class AsyncConfig {
         executor.setMaxPoolSize(2);
         executor.setQueueCapacity(100);
         executor.setThreadNamePrefix("Async-");
-        executor.setRejectedExecutionHandler(new ThreadPoolExecutor.CallerRunsPolicy());
+        executor.setRejectedExecutionHandler(new ThreadPoolExecutor.AbortPolicy());
         return executor;
     }
 }
\ No newline at end of file
-- 
2.49.1


From 838330b405c00185504ef587faba9ad4a832d490 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 23:04:42 +0200
Subject: [PATCH 38/74] fix(ocr): use camelCase field names in Pydantic models

Pydantic v2 Field(alias=...) doesn't work with FastAPI as expected.
The Java client sends camelCase (pdfUrl, scriptType, pageNumber).
Use camelCase field names directly instead of aliases.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 ocr-service/main.py   |  4 ++--
 ocr-service/models.py | 15 ++++++++-------
 2 files changed, 10 insertions(+), 9 deletions(-)

diff --git a/ocr-service/main.py b/ocr-service/main.py
index 73dbef28..558c91d3 100644
--- a/ocr-service/main.py
+++ b/ocr-service/main.py
@@ -56,9 +56,9 @@ async def run_ocr(request: OcrRequest):
     if not _models_ready:
         raise HTTPException(status_code=503, detail="Models not loaded yet")
 
-    images = await _download_and_convert_pdf(request.pdf_url)
+    images = await _download_and_convert_pdf(request.pdfUrl)
 
-    script_type = request.script_type.upper()
+    script_type = request.scriptType.upper()
 
     if script_type == "HANDWRITING_KURRENT":
         if not kraken_engine.is_available():
diff --git a/ocr-service/models.py b/ocr-service/models.py
index 0d2c1590..f58bd5c3 100644
--- a/ocr-service/models.py
+++ b/ocr-service/models.py
@@ -1,20 +1,21 @@
-from pydantic import BaseModel, Field
+from pydantic import BaseModel, ConfigDict
 
 
 class OcrRequest(BaseModel):
-    pdf_url: str = Field(..., alias="pdfUrl")
-    script_type: str = Field("UNKNOWN", alias="scriptType")
+    model_config = ConfigDict(populate_by_name=True)
+
+    pdfUrl: str
+    scriptType: str = "UNKNOWN"
     language: str = "de"
 
 
 class OcrBlock(BaseModel):
-    page_number: int = Field(..., alias="pageNumber")
+    model_config = ConfigDict(populate_by_name=True)
+
+    pageNumber: int
     x: float
     y: float
     width: float
     height: float
     polygon: list[list[float]] | None = None
     text: str
-
-    class Config:
-        populate_by_name = True
-- 
2.49.1


From 2db1b73d5d4b2296487f68a50d68ae4d0a91b599 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 23:08:11 +0200
Subject: [PATCH 39/74] fix(ocr): force HTTP/1.1 on RestClient to OCR service

JDK HttpClient defaults to HTTP/2 with upgrade negotiation. Uvicorn
rejects the upgrade ('Unsupported upgrade request'), causing the
request body to be lost and a 422 'Field required' from FastAPI.
Force HTTP/1.1 since the OCR service is internal and doesn't need h2.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../org/raddatz/familienarchiv/service/RestClientOcrClient.java  | 1 +
 1 file changed, 1 insertion(+)

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/RestClientOcrClient.java b/backend/src/main/java/org/raddatz/familienarchiv/service/RestClientOcrClient.java
index 4ab7958f..1130e67e 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/RestClientOcrClient.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/RestClientOcrClient.java
@@ -23,6 +23,7 @@ public class RestClientOcrClient implements OcrClient, OcrHealthClient {
 
     public RestClientOcrClient(@Value("${app.ocr.base-url:http://ocr-service:8000}") String baseUrl) {
         HttpClient httpClient = HttpClient.newBuilder()
+                .version(HttpClient.Version.HTTP_1_1)
                 .connectTimeout(Duration.ofSeconds(10))
                 .build();
         JdkClientHttpRequestFactory requestFactory = new JdkClientHttpRequestFactory(httpClient);
-- 
2.49.1


From c1befd3fa3aadb2b5cef70dc164eca9cc65fba07 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 23:16:59 +0200
Subject: [PATCH 40/74] fix(ocr): resume polling on page reload + track
 single-doc job status
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Single-document OCR now creates an OcrJobDocument row so
GET /api/documents/{id}/ocr-status can find running jobs.
OcrAsyncRunner updates the job document status (RUNNING → DONE/FAILED).

Frontend checks OCR status when entering transcription mode —
if a job is running, resumes polling and shows the spinner.

Refs #226

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../familienarchiv/service/OcrAsyncRunner.java | 16 ++++++++++++++++
 .../familienarchiv/service/OcrService.java     |  9 +++++++++
 .../familienarchiv/service/OcrServiceTest.java |  2 ++
 .../src/routes/documents/[id]/+page.svelte     | 18 +++++++++++++++++-
 4 files changed, 44 insertions(+), 1 deletion(-)

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
index a3090a62..610c3e2d 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
@@ -39,16 +39,32 @@ public class OcrAsyncRunner {
         job.setStatus(OcrJobStatus.RUNNING);
         ocrJobRepository.save(job);
 
+        OcrJobDocument jobDoc = ocrJobDocumentRepository.findByJobIdAndDocumentId(jobId, documentId)
+                .orElse(null);
+        if (jobDoc != null) {
+            jobDoc.setStatus(OcrDocumentStatus.RUNNING);
+            ocrJobDocumentRepository.save(jobDoc);
+        }
+
         Document doc = documentService.getDocumentById(documentId);
 
         try {
             processDocument(documentId, doc, userId);
             job.setStatus(OcrJobStatus.DONE);
             job.setProcessedDocuments(1);
+            if (jobDoc != null) {
+                jobDoc.setStatus(OcrDocumentStatus.DONE);
+                ocrJobDocumentRepository.save(jobDoc);
+            }
         } catch (Exception e) {
             log.error("OCR processing failed for document {}", documentId, e);
             job.setStatus(OcrJobStatus.FAILED);
             job.setErrorCount(1);
+            if (jobDoc != null) {
+                jobDoc.setStatus(OcrDocumentStatus.FAILED);
+                jobDoc.setErrorMessage(e.getMessage());
+                ocrJobDocumentRepository.save(jobDoc);
+            }
         }
 
         ocrJobRepository.save(job);
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
index 3812db4e..75ade1c7 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
@@ -5,6 +5,7 @@ import lombok.extern.slf4j.Slf4j;
 import org.raddatz.familienarchiv.exception.DomainException;
 import org.raddatz.familienarchiv.exception.ErrorCode;
 import org.raddatz.familienarchiv.model.*;
+import org.raddatz.familienarchiv.repository.OcrJobDocumentRepository;
 import org.raddatz.familienarchiv.repository.OcrJobRepository;
 import org.springframework.stereotype.Service;
 
@@ -18,6 +19,7 @@ public class OcrService {
     private final OcrHealthClient ocrHealthClient;
     private final DocumentService documentService;
     private final OcrJobRepository ocrJobRepository;
+    private final OcrJobDocumentRepository ocrJobDocumentRepository;
     private final OcrAsyncRunner ocrAsyncRunner;
 
     public UUID startOcr(UUID documentId, ScriptType scriptTypeOverride, UUID userId) {
@@ -44,6 +46,13 @@ public class OcrService {
                 .build();
         job = ocrJobRepository.save(job);
 
+        OcrJobDocument jobDoc = OcrJobDocument.builder()
+                .jobId(job.getId())
+                .documentId(documentId)
+                .status(OcrDocumentStatus.PENDING)
+                .build();
+        ocrJobDocumentRepository.save(jobDoc);
+
         ocrAsyncRunner.runSingleDocument(job.getId(), documentId, userId);
         return job.getId();
     }
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java
index fe66287f..a94958a3 100644
--- a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java
@@ -8,6 +8,7 @@ import org.mockito.junit.jupiter.MockitoExtension;
 import org.raddatz.familienarchiv.exception.DomainException;
 import org.raddatz.familienarchiv.exception.ErrorCode;
 import org.raddatz.familienarchiv.model.*;
+import org.raddatz.familienarchiv.repository.OcrJobDocumentRepository;
 import org.raddatz.familienarchiv.repository.OcrJobRepository;
 
 import java.util.UUID;
@@ -24,6 +25,7 @@ class OcrServiceTest {
     @Mock OcrHealthClient ocrHealthClient;
     @Mock DocumentService documentService;
     @Mock OcrJobRepository ocrJobRepository;
+    @Mock OcrJobDocumentRepository ocrJobDocumentRepository;
     @Mock OcrAsyncRunner ocrAsyncRunner;
 
     @InjectMocks OcrService ocrService;
diff --git a/frontend/src/routes/documents/[id]/+page.svelte b/frontend/src/routes/documents/[id]/+page.svelte
index 46eafbd3..23d6a232 100644
--- a/frontend/src/routes/documents/[id]/+page.svelte
+++ b/frontend/src/routes/documents/[id]/+page.svelte
@@ -251,12 +251,28 @@ function handleParagraphClick(annotationId: string) {
 	);
 }
 
-// Load blocks when transcribe mode is entered and set default panel mode
+async function checkOcrStatus() {
+	if (!doc?.id) return;
+	try {
+		const res = await fetch(`/api/documents/${doc.id}/ocr-status`);
+		if (!res.ok) return;
+		const status = await res.json();
+		if ((status.status === 'PENDING' || status.status === 'RUNNING') && status.jobId) {
+			ocrRunning = true;
+			pollOcrJob(status.jobId);
+		}
+	} catch {
+		// best-effort
+	}
+}
+
+// Load blocks and check OCR status when transcribe mode is entered
 $effect(() => {
 	if (transcribeMode) {
 		loadTranscriptionBlocks().then(() => {
 			panelMode = transcriptionBlocks.length > 0 ? 'read' : 'edit';
 		});
+		checkOcrStatus();
 	}
 });
 
-- 
2.49.1


From 2cc7dcd5e35150072e2afd9ee07a3223ff59510b Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 23:19:22 +0200
Subject: [PATCH 41/74] perf(ocr): increase batch sizes (detector=4,
 recognition=8)

5GB free on host during OCR, container at 3.8/8GB. Larger batches
use more memory but process faster on CPU.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 docker-compose.yml | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/docker-compose.yml b/docker-compose.yml
index d53033d4..7eb50ef8 100644
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -86,8 +86,8 @@ services:
       KRAKEN_MODEL_PATH: /app/models/german_kurrent.mlmodel
       OCR_CONFIDENCE_THRESHOLD: "0.3"
       OCR_CONFIDENCE_THRESHOLD_KURRENT: "0.5"
-      RECOGNITION_BATCH_SIZE: "4"
-      DETECTOR_BATCH_SIZE: "2"
+      RECOGNITION_BATCH_SIZE: "8"
+      DETECTOR_BATCH_SIZE: "4"
     networks:
       - archive-net
     healthcheck:
-- 
2.49.1


From 1b7540143ebfc2d3c159442458d4fe695f9d4fca Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 23:21:51 +0200
Subject: [PATCH 42/74] fix(ocr): persist model cache across container restarts

Surya downloads models from HuggingFace to /root/.cache on first use.
Without a volume, every container restart re-downloads ~73MB+.
Added ocr_cache volume to persist the cache.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 docker-compose.yml | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/docker-compose.yml b/docker-compose.yml
index 7eb50ef8..782d2071 100644
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -82,6 +82,7 @@ services:
     memswap_limit: 8g
     volumes:
       - ocr_models:/app/models
+      - ocr_cache:/root/.cache
     environment:
       KRAKEN_MODEL_PATH: /app/models/german_kurrent.mlmodel
       OCR_CONFIDENCE_THRESHOLD: "0.3"
@@ -186,3 +187,4 @@ volumes:
   frontend_node_modules:
   maven_cache:
   ocr_models:
+  ocr_cache:
-- 
2.49.1


From 0b0d4a7d5eef8e34c80cfb7bb8e559eebea6b124 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 23:23:13 +0200
Subject: [PATCH 43/74] perf(ocr): double batch sizes (detector=8,
 recognition=16)

4GB headroom in the container. Doubling batches should use ~2GB
more RAM but significantly speed up inference.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 docker-compose.yml | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/docker-compose.yml b/docker-compose.yml
index 782d2071..ebea678e 100644
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -87,8 +87,8 @@ services:
       KRAKEN_MODEL_PATH: /app/models/german_kurrent.mlmodel
       OCR_CONFIDENCE_THRESHOLD: "0.3"
       OCR_CONFIDENCE_THRESHOLD_KURRENT: "0.5"
-      RECOGNITION_BATCH_SIZE: "8"
-      DETECTOR_BATCH_SIZE: "4"
+      RECOGNITION_BATCH_SIZE: "16"
+      DETECTOR_BATCH_SIZE: "8"
     networks:
       - archive-net
     healthcheck:
-- 
2.49.1


From 971527a50ede722139b619e6fb63a8e22afcd8c2 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 23:31:23 +0200
Subject: [PATCH 44/74] feat(ocr): show translated progress messages during OCR
 processing

Backend sends progress codes (PREPARING, LOADING, ANALYZING,
CREATING_BLOCKS:N, DONE:N, ERROR) via OcrJob.progressMessage.
Frontend translates them via Paraglide (de/en/es) and displays
below the spinner.

- V27 migration: adds progress_message column to ocr_jobs
- OcrAsyncRunner updates progress at each phase
- Poll interval reduced to 2s for snappier updates

Refs #226

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../raddatz/familienarchiv/model/OcrJob.java  |  3 ++
 .../service/OcrAsyncRunner.java               | 18 ++++++++++--
 .../V27__add_progress_message_to_ocr_jobs.sql |  1 +
 frontend/messages/de.json                     |  6 ++++
 frontend/messages/en.json                     |  6 ++++
 frontend/messages/es.json                     |  6 ++++
 .../src/routes/documents/[id]/+page.svelte    | 29 ++++++++++++++++++-
 7 files changed, 66 insertions(+), 3 deletions(-)
 create mode 100644 backend/src/main/resources/db/migration/V27__add_progress_message_to_ocr_jobs.sql

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/model/OcrJob.java b/backend/src/main/java/org/raddatz/familienarchiv/model/OcrJob.java
index 81f205fe..076d3ef3 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/model/OcrJob.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/model/OcrJob.java
@@ -47,6 +47,9 @@ public class OcrJob {
     @Builder.Default
     private int skippedCount = 0;
 
+    @Column(name = "progress_message")
+    private String progressMessage;
+
     @Column(name = "created_by")
     private UUID createdBy;
 
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
index 610c3e2d..1b773748 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
@@ -37,7 +37,7 @@ public class OcrAsyncRunner {
         if (job == null) return;
 
         job.setStatus(OcrJobStatus.RUNNING);
-        ocrJobRepository.save(job);
+        updateProgress(job, "PREPARING");
 
         OcrJobDocument jobDoc = ocrJobDocumentRepository.findByJobIdAndDocumentId(jobId, documentId)
                 .orElse(null);
@@ -49,9 +49,19 @@ public class OcrAsyncRunner {
         Document doc = documentService.getDocumentById(documentId);
 
         try {
-            processDocument(documentId, doc, userId);
+            updateProgress(job, "LOADING");
+            clearExistingBlocks(documentId);
+            String pdfUrl = fileService.generatePresignedUrl(doc.getFilePath());
+
+            updateProgress(job, "ANALYZING");
+            List<OcrBlockResult> blocks = ocrClient.extractBlocks(pdfUrl, doc.getScriptType());
+
+            updateProgress(job, "CREATING_BLOCKS:" + blocks.size());
+            createTranscriptionBlocks(documentId, blocks, userId, doc.getFileHash());
+
             job.setStatus(OcrJobStatus.DONE);
             job.setProcessedDocuments(1);
+            updateProgress(job, "DONE:" + blocks.size());
             if (jobDoc != null) {
                 jobDoc.setStatus(OcrDocumentStatus.DONE);
                 ocrJobDocumentRepository.save(jobDoc);
@@ -60,13 +70,17 @@ public class OcrAsyncRunner {
             log.error("OCR processing failed for document {}", documentId, e);
             job.setStatus(OcrJobStatus.FAILED);
             job.setErrorCount(1);
+            updateProgress(job, "ERROR");
             if (jobDoc != null) {
                 jobDoc.setStatus(OcrDocumentStatus.FAILED);
                 jobDoc.setErrorMessage(e.getMessage());
                 ocrJobDocumentRepository.save(jobDoc);
             }
         }
+    }
 
+    private void updateProgress(OcrJob job, String message) {
+        job.setProgressMessage(message);
         ocrJobRepository.save(job);
     }
 
diff --git a/backend/src/main/resources/db/migration/V27__add_progress_message_to_ocr_jobs.sql b/backend/src/main/resources/db/migration/V27__add_progress_message_to_ocr_jobs.sql
new file mode 100644
index 00000000..0b8ed4d2
--- /dev/null
+++ b/backend/src/main/resources/db/migration/V27__add_progress_message_to_ocr_jobs.sql
@@ -0,0 +1 @@
+ALTER TABLE ocr_jobs ADD COLUMN progress_message TEXT;
diff --git a/frontend/messages/de.json b/frontend/messages/de.json
index 3eac5fd0..a4221f78 100644
--- a/frontend/messages/de.json
+++ b/frontend/messages/de.json
@@ -521,6 +521,12 @@
 	"ocr_error_retry": "Erneut versuchen",
 	"ocr_batch_running": "OCR läuft · {processed} von {total} Dokumente abgeschlossen",
 	"ocr_batch_done": "OCR abgeschlossen · {processed} erfolgreich · {errors} fehlgeschlagen",
+	"ocr_status_preparing": "Dokument wird vorbereitet…",
+	"ocr_status_loading": "Lade Modell und Dokument…",
+	"ocr_status_analyzing": "OCR-Analyse läuft — dies kann einige Minuten dauern…",
+	"ocr_status_creating_blocks": "{count} Textblöcke erkannt — erstelle Transkription…",
+	"ocr_status_done_blocks": "{count} Blöcke erstellt",
+	"ocr_status_error": "OCR fehlgeschlagen",
 	"transcription_block_review": "Als geprüft markieren",
 	"transcription_block_unreview": "Markierung aufheben",
 	"transcription_reviewed_count": "{reviewed} von {total} geprüft"
diff --git a/frontend/messages/en.json b/frontend/messages/en.json
index 9853b3d7..e9546eae 100644
--- a/frontend/messages/en.json
+++ b/frontend/messages/en.json
@@ -521,6 +521,12 @@
 	"ocr_error_retry": "Try again",
 	"ocr_batch_running": "OCR running · {processed} of {total} documents complete",
 	"ocr_batch_done": "OCR complete · {processed} successful · {errors} failed",
+	"ocr_status_preparing": "Preparing document…",
+	"ocr_status_loading": "Loading model and document…",
+	"ocr_status_analyzing": "OCR analysis running — this may take a few minutes…",
+	"ocr_status_creating_blocks": "{count} text blocks detected — creating transcription…",
+	"ocr_status_done_blocks": "{count} blocks created",
+	"ocr_status_error": "OCR failed",
 	"transcription_block_review": "Mark as reviewed",
 	"transcription_block_unreview": "Unmark as reviewed",
 	"transcription_reviewed_count": "{reviewed} of {total} reviewed"
diff --git a/frontend/messages/es.json b/frontend/messages/es.json
index 9062c2ed..ce03d8eb 100644
--- a/frontend/messages/es.json
+++ b/frontend/messages/es.json
@@ -521,6 +521,12 @@
 	"ocr_error_retry": "Intentar de nuevo",
 	"ocr_batch_running": "OCR en curso · {processed} de {total} documentos completados",
 	"ocr_batch_done": "OCR completado · {processed} exitosos · {errors} fallidos",
+	"ocr_status_preparing": "Preparando documento…",
+	"ocr_status_loading": "Cargando modelo y documento…",
+	"ocr_status_analyzing": "Análisis OCR en curso — esto puede tardar unos minutos…",
+	"ocr_status_creating_blocks": "{count} bloques de texto detectados — creando transcripción…",
+	"ocr_status_done_blocks": "{count} bloques creados",
+	"ocr_status_error": "OCR fallido",
 	"transcription_block_review": "Marcar como revisado",
 	"transcription_block_unreview": "Desmarcar como revisado",
 	"transcription_reviewed_count": "{reviewed} de {total} revisados"
diff --git a/frontend/src/routes/documents/[id]/+page.svelte b/frontend/src/routes/documents/[id]/+page.svelte
index 23d6a232..b3f3a6bf 100644
--- a/frontend/src/routes/documents/[id]/+page.svelte
+++ b/frontend/src/routes/documents/[id]/+page.svelte
@@ -128,8 +128,30 @@ async function reviewToggle(blockId: string) {
 }
 
 let ocrRunning = $state(false);
+let ocrProgressMessage = $state('');
 let ocrPollTimer = $state<ReturnType<typeof setInterval> | null>(null);
 
+function translateOcrProgress(code: string): string {
+	if (!code) return m.ocr_progress_heading();
+	const [key, param] = code.split(':');
+	switch (key) {
+		case 'PREPARING':
+			return m.ocr_status_preparing();
+		case 'LOADING':
+			return m.ocr_status_loading();
+		case 'ANALYZING':
+			return m.ocr_status_analyzing();
+		case 'CREATING_BLOCKS':
+			return m.ocr_status_creating_blocks({ count: param ?? '0' });
+		case 'DONE':
+			return m.ocr_status_done_blocks({ count: param ?? '0' });
+		case 'ERROR':
+			return m.ocr_status_error();
+		default:
+			return code;
+	}
+}
+
 async function triggerOcr(scriptType: string) {
 	ocrRunning = true;
 	try {
@@ -157,10 +179,12 @@ function pollOcrJob(jobId: string) {
 			const res = await fetch(`/api/ocr/jobs/${jobId}`);
 			if (!res.ok) return;
 			const job = await res.json();
+			ocrProgressMessage = job.progressMessage ?? '';
 			if (job.status === 'DONE' || job.status === 'FAILED') {
 				if (ocrPollTimer) clearInterval(ocrPollTimer);
 				ocrPollTimer = null;
 				ocrRunning = false;
+				ocrProgressMessage = '';
 				await loadTranscriptionBlocks();
 				annotationReloadKey++;
 				panelMode = transcriptionBlocks.length > 0 ? 'read' : 'edit';
@@ -168,7 +192,7 @@ function pollOcrJob(jobId: string) {
 		} catch {
 			// polling is best-effort
 		}
-	}, 3000);
+	}, 2000);
 }
 
 async function createBlockFromDraw(rect: {
@@ -399,6 +423,9 @@ onMount(() => {
 							<p class="text-xs font-bold tracking-widest text-gray-400 uppercase">
 								{m.ocr_progress_heading()}
 							</p>
+							<p class="mt-2 text-sm text-ink-2">
+								{translateOcrProgress(ocrProgressMessage)}
+							</p>
 						</div>
 					{:else if panelMode === 'read'}
 						<TranscriptionReadView
-- 
2.49.1


From ef11e4af099586301b3759b4e820d1c946615ab8 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 23:32:55 +0200
Subject: [PATCH 45/74] fix(ocr): disable manual annotation drawing while OCR
 is running

Prevents users from drawing annotations that would be cleared when
the OCR job finishes. transcribeMode is set to false for the PDF
viewer while ocrRunning is true.

Refs #226

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 frontend/src/routes/documents/[id]/+page.svelte | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/frontend/src/routes/documents/[id]/+page.svelte b/frontend/src/routes/documents/[id]/+page.svelte
index b3f3a6bf..b9e0e994 100644
--- a/frontend/src/routes/documents/[id]/+page.svelte
+++ b/frontend/src/routes/documents/[id]/+page.svelte
@@ -354,7 +354,7 @@ onMount(() => {
 				fileUrl={fileUrl}
 				isLoading={isLoading}
 				error={fileError}
-				transcribeMode={transcribeMode}
+				transcribeMode={transcribeMode && !ocrRunning}
 				blockNumbers={blockNumbers}
 				annotationReloadKey={annotationReloadKey}
 				annotationsDimmed={transcribeMode && panelMode === 'read'}
-- 
2.49.1


From d8dcba1a713bf7d7e76919c4d07634e67ecd7b71 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Sun, 12 Apr 2026 23:50:39 +0200
Subject: [PATCH 46/74] fix(ocr): unblock event loop during OCR and show errors
 in UI
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

OCR engines are CPU-bound and were blocking Uvicorn's single async
event loop, making /health unresponsive during processing. This caused
new OCR requests to fail silently (health check failure → no DB record
→ UI shows NONE). Wrap engine calls in asyncio.to_thread() to keep the
event loop free. Also surface OCR trigger errors in the frontend
instead of silently resetting the spinner.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 frontend/src/routes/documents/[id]/+page.svelte | 15 +++++++++++++++
 ocr-service/main.py                             |  6 ++++--
 2 files changed, 19 insertions(+), 2 deletions(-)

diff --git a/frontend/src/routes/documents/[id]/+page.svelte b/frontend/src/routes/documents/[id]/+page.svelte
index b9e0e994..5a524328 100644
--- a/frontend/src/routes/documents/[id]/+page.svelte
+++ b/frontend/src/routes/documents/[id]/+page.svelte
@@ -7,6 +7,7 @@ import TranscriptionEditView from '$lib/components/TranscriptionEditView.svelte'
 import TranscriptionReadView from '$lib/components/TranscriptionReadView.svelte';
 import TranscriptionPanelHeader from '$lib/components/TranscriptionPanelHeader.svelte';
 import type { TranscriptionBlockData } from '$lib/types';
+import { getErrorMessage } from '$lib/errors';
 
 let { data } = $props();
 
@@ -129,6 +130,7 @@ async function reviewToggle(blockId: string) {
 
 let ocrRunning = $state(false);
 let ocrProgressMessage = $state('');
+let ocrErrorMessage = $state('');
 let ocrPollTimer = $state<ReturnType<typeof setInterval> | null>(null);
 
 function translateOcrProgress(code: string): string {
@@ -154,6 +156,7 @@ function translateOcrProgress(code: string): string {
 
 async function triggerOcr(scriptType: string) {
 	ocrRunning = true;
+	ocrErrorMessage = '';
 	try {
 		const res = await fetch(`/api/documents/${doc.id}/ocr`, {
 			method: 'POST',
@@ -165,10 +168,14 @@ async function triggerOcr(scriptType: string) {
 			pollOcrJob(data.jobId);
 		} else {
 			ocrRunning = false;
+			const body = await res.json().catch(() => null);
+			const code = (body as { code?: string } | null)?.code;
+			ocrErrorMessage = code ? getErrorMessage(code) : m.ocr_status_error();
 		}
 	} catch (e) {
 		console.error('Failed to trigger OCR:', e);
 		ocrRunning = false;
+		ocrErrorMessage = m.ocr_status_error();
 	}
 }
 
@@ -185,6 +192,9 @@ function pollOcrJob(jobId: string) {
 				ocrPollTimer = null;
 				ocrRunning = false;
 				ocrProgressMessage = '';
+				if (job.status === 'FAILED') {
+					ocrErrorMessage = m.ocr_status_error();
+				}
 				await loadTranscriptionBlocks();
 				annotationReloadKey++;
 				panelMode = transcriptionBlocks.length > 0 ? 'read' : 'edit';
@@ -399,6 +409,11 @@ onMount(() => {
 					onClose={() => (transcribeMode = false)}
 				/>
 				<div class="flex-1 overflow-y-auto">
+					{#if ocrErrorMessage}
+						<div class="mx-4 mt-4 rounded-sm border border-red-200 bg-red-50 px-4 py-3">
+							<p class="text-sm text-red-700">{ocrErrorMessage}</p>
+						</div>
+					{/if}
 					{#if ocrRunning}
 						<div class="flex flex-1 flex-col items-center justify-center px-6 py-12 text-center">
 							<svg
diff --git a/ocr-service/main.py b/ocr-service/main.py
index 558c91d3..d5f67370 100644
--- a/ocr-service/main.py
+++ b/ocr-service/main.py
@@ -1,5 +1,6 @@
 """OCR microservice — FastAPI app with Surya and Kraken engine support."""
 
+import asyncio
 import io
 import logging
 from contextlib import asynccontextmanager
@@ -52,6 +53,7 @@ async def run_ocr(request: OcrRequest):
 
     Downloads the PDF from the provided URL, converts pages to images,
     and runs the appropriate OCR engine based on scriptType.
+    OCR engines run in a thread pool so the event loop stays free for /health.
     """
     if not _models_ready:
         raise HTTPException(status_code=503, detail="Models not loaded yet")
@@ -66,10 +68,10 @@ async def run_ocr(request: OcrRequest):
                 status_code=400,
                 detail="Kraken model not available — cannot process Kurrent script",
             )
-        blocks = kraken_engine.extract_blocks(images, request.language)
+        blocks = await asyncio.to_thread(kraken_engine.extract_blocks, images, request.language)
     else:
         # TYPEWRITER, HANDWRITING_LATIN, UNKNOWN — all use Surya
-        blocks = surya_engine.extract_blocks(images, request.language)
+        blocks = await asyncio.to_thread(surya_engine.extract_blocks, images, request.language)
 
     threshold = get_threshold(script_type)
     for block in blocks:
-- 
2.49.1


From b7d5f71ef717558c7a51fa79577ce85ebb97d4c0 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 09:56:34 +0200
Subject: [PATCH 47/74] refactor(ocr): extract extract_page_blocks() from both
 OCR engines

Enable per-page processing by extracting the inner loop body of
extract_blocks() into extract_page_blocks(image, page_idx, language).
The original extract_blocks() now delegates to the new function,
preserving backward compatibility for the batch path.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 ocr-service/engines/kraken.py |  98 ++++++++++++-------------
 ocr-service/engines/surya.py  |  90 ++++++++++++-----------
 ocr-service/test_engines.py   | 132 ++++++++++++++++++++++++++++++++++
 3 files changed, 231 insertions(+), 89 deletions(-)
 create mode 100644 ocr-service/test_engines.py

diff --git a/ocr-service/engines/kraken.py b/ocr-service/engines/kraken.py
index a0fec491..b2b75787 100644
--- a/ocr-service/engines/kraken.py
+++ b/ocr-service/engines/kraken.py
@@ -29,12 +29,10 @@ def is_available() -> bool:
     return _model is not None
 
 
-def extract_blocks(images: list, language: str = "de") -> list[dict]:
-    """Run Kraken segmentation + recognition on a list of PIL images.
+def extract_page_blocks(image, page_idx: int, language: str = "de") -> list[dict]:
+    """Run Kraken segmentation + recognition on a single PIL image.
 
-    Returns block dicts with pageNumber, x, y, width, height, polygon, text.
-    Polygon is a 4-point quadrilateral approximation of the baseline polygon.
-    Coordinates are normalized to [0, 1].
+    Returns block dicts for that page. Coordinates are normalized to [0, 1].
     """
     from kraken import blla, rpred
     from confidence import words_from_characters
@@ -42,52 +40,56 @@ def extract_blocks(images: list, language: str = "de") -> list[dict]:
     if _model is None:
         raise RuntimeError("Kraken model is not loaded")
 
+    page_w, page_h = image.size
+    blocks = []
+
+    baseline_seg = blla.segment(image)
+    pred_it = rpred.rpred(_model, image, baseline_seg)
+
+    for record in pred_it:
+        polygon_pts = record.cuts if hasattr(record, "cuts") else []
+
+        if polygon_pts:
+            xs = [p[0] for p in polygon_pts]
+            ys = [p[1] for p in polygon_pts]
+            x1, y1 = min(xs), min(ys)
+            x2, y2 = max(xs), max(ys)
+        else:
+            xs = [p[0] for p in record.line]
+            ys = [p[1] for p in record.line]
+            x1, y1 = min(xs), min(ys) - 5
+            x2, y2 = max(xs), max(ys) + 5
+
+        quad = _approximate_to_quad(polygon_pts, page_w, page_h) if polygon_pts else None
+
+        char_confidences = getattr(record, "confidences", [])
+        words = words_from_characters(record.prediction, char_confidences)
+
+        blocks.append({
+            "pageNumber": page_idx,
+            "x": x1 / page_w,
+            "y": y1 / page_h,
+            "width": (x2 - x1) / page_w,
+            "height": (y2 - y1) / page_h,
+            "polygon": quad,
+            "text": record.prediction,
+            "words": words,
+        })
+
+    return blocks
+
+
+def extract_blocks(images: list, language: str = "de") -> list[dict]:
+    """Run Kraken segmentation + recognition on a list of PIL images.
+
+    Returns block dicts with pageNumber, x, y, width, height, polygon, text.
+    Polygon is a 4-point quadrilateral approximation of the baseline polygon.
+    Coordinates are normalized to [0, 1].
+    """
     all_blocks = []
 
     for page_idx, image in enumerate(images):
-        page_w, page_h = image.size
-
-        baseline_seg = blla.segment(image)
-
-        pred_it = rpred.rpred(_model, image, baseline_seg)
-
-        for record in pred_it:
-            # record.prediction is the recognized text
-            # record.cuts contains polygon points
-            # record.line is the baseline polygon
-
-            polygon_pts = record.cuts if hasattr(record, "cuts") else []
-
-            # Compute AABB from the polygon
-            if polygon_pts:
-                xs = [p[0] for p in polygon_pts]
-                ys = [p[1] for p in polygon_pts]
-                x1, y1 = min(xs), min(ys)
-                x2, y2 = max(xs), max(ys)
-            else:
-                # Fallback to line baseline
-                xs = [p[0] for p in record.line]
-                ys = [p[1] for p in record.line]
-                x1, y1 = min(xs), min(ys) - 5
-                x2, y2 = max(xs), max(ys) + 5
-
-            # Approximate polygon to quadrilateral
-            quad = _approximate_to_quad(polygon_pts, page_w, page_h) if polygon_pts else None
-
-            # Extract word-level confidence for [unleserlich] marking
-            char_confidences = getattr(record, "confidences", [])
-            words = words_from_characters(record.prediction, char_confidences)
-
-            all_blocks.append({
-                "pageNumber": page_idx,
-                "x": x1 / page_w,
-                "y": y1 / page_h,
-                "width": (x2 - x1) / page_w,
-                "height": (y2 - y1) / page_h,
-                "polygon": quad,
-                "text": record.prediction,
-                "words": words,
-            })
+        all_blocks.extend(extract_page_blocks(image, page_idx, language))
 
     return all_blocks
 
diff --git a/ocr-service/engines/surya.py b/ocr-service/engines/surya.py
index ea028d8c..a82968ce 100644
--- a/ocr-service/engines/surya.py
+++ b/ocr-service/engines/surya.py
@@ -33,6 +33,54 @@ def load_models():
     logger.info("Surya models loaded successfully")
 
 
+def extract_page_blocks(image, page_idx: int, language: str = "de") -> list[dict]:
+    """Run Surya OCR on a single PIL image and return block dicts for that page.
+
+    Coordinates are normalized to [0, 1].
+    """
+    load_models()
+
+    page_w, page_h = image.size
+    blocks = []
+
+    predictions = _recognition_predictor([image], det_predictor=_detection_predictor)
+    page_pred = predictions[0]
+
+    for line in page_pred.text_lines:
+        bbox = line.bbox
+        x1, y1, x2, y2 = bbox
+
+        polygon = None
+        if hasattr(line, "polygon") and line.polygon and len(line.polygon) == 4:
+            polygon = [
+                [p[0] / page_w, p[1] / page_h]
+                for p in line.polygon
+            ]
+
+        words = []
+        if hasattr(line, "words") and line.words:
+            for word in line.words:
+                words.append({
+                    "text": word.text,
+                    "confidence": word.confidence,
+                })
+        else:
+            words = [{"text": line.text, "confidence": getattr(line, "confidence", 1.0)}]
+
+        blocks.append({
+            "pageNumber": page_idx,
+            "x": x1 / page_w,
+            "y": y1 / page_h,
+            "width": (x2 - x1) / page_w,
+            "height": (y2 - y1) / page_h,
+            "polygon": polygon,
+            "text": line.text,
+            "words": words,
+        })
+
+    return blocks
+
+
 def extract_blocks(images: list, language: str = "de") -> list[dict]:
     """Run Surya OCR on a list of PIL images (one per page).
 
@@ -40,50 +88,10 @@ def extract_blocks(images: list, language: str = "de") -> list[dict]:
     Returns a flat list of block dicts with pageNumber, x, y, width, height,
     polygon, text, words. Coordinates are normalized to [0, 1].
     """
-    load_models()
-
     all_blocks = []
 
     for page_idx, image in enumerate(images):
-        page_w, page_h = image.size
-
-        # Process single page to limit peak memory
-        predictions = _recognition_predictor([image], det_predictor=_detection_predictor)
-        page_pred = predictions[0]
-
-        for line in page_pred.text_lines:
-            bbox = line.bbox
-            x1, y1, x2, y2 = bbox
-
-            polygon = None
-            if hasattr(line, "polygon") and line.polygon and len(line.polygon) == 4:
-                polygon = [
-                    [p[0] / page_w, p[1] / page_h]
-                    for p in line.polygon
-                ]
-
-            words = []
-            if hasattr(line, "words") and line.words:
-                for word in line.words:
-                    words.append({
-                        "text": word.text,
-                        "confidence": word.confidence,
-                    })
-            else:
-                words = [{"text": line.text, "confidence": getattr(line, "confidence", 1.0)}]
-
-            all_blocks.append({
-                "pageNumber": page_idx,
-                "x": x1 / page_w,
-                "y": y1 / page_h,
-                "width": (x2 - x1) / page_w,
-                "height": (y2 - y1) / page_h,
-                "polygon": polygon,
-                "text": line.text,
-                "words": words,
-            })
-
-        # Free page image after processing
+        all_blocks.extend(extract_page_blocks(image, page_idx, language))
         del image
 
     return all_blocks
diff --git a/ocr-service/test_engines.py b/ocr-service/test_engines.py
new file mode 100644
index 00000000..a6966bd8
--- /dev/null
+++ b/ocr-service/test_engines.py
@@ -0,0 +1,132 @@
+"""Tests for per-page block extraction in OCR engines."""
+
+from unittest.mock import MagicMock, patch
+from PIL import Image
+
+from engines import surya, kraken
+
+
+# ─── Surya extract_page_blocks ───────────────────────────────────────────────
+
+
+def _make_surya_line(text, bbox, polygon=None, words=None):
+    """Create a mock Surya text line with the expected attributes."""
+    line = MagicMock()
+    line.text = text
+    line.bbox = bbox
+    line.polygon = polygon
+    line.words = words or []
+    if not words:
+        line.confidence = 0.95
+        # hasattr check needs words to be falsy
+        del line.words
+    return line
+
+
+def test_surya_extract_page_blocks_returns_blocks_for_single_image():
+    image = Image.new("RGB", (100, 200))
+
+    mock_line = _make_surya_line("Hallo Welt", [10, 20, 90, 40])
+    mock_pred = MagicMock()
+    mock_pred.text_lines = [mock_line]
+
+    with patch.object(surya, "_recognition_predictor") as mock_rec, \
+         patch.object(surya, "_loaded", True):
+        mock_rec.return_value = [mock_pred]
+
+        blocks = surya.extract_page_blocks(image, page_idx=2, language="de")
+
+    assert len(blocks) == 1
+    assert blocks[0]["pageNumber"] == 2
+    assert blocks[0]["text"] == "Hallo Welt"
+    assert blocks[0]["x"] == 10 / 100
+    assert blocks[0]["y"] == 20 / 200
+    assert blocks[0]["width"] == 80 / 100
+    assert blocks[0]["height"] == 20 / 200
+
+
+def test_surya_extract_blocks_delegates_to_extract_page_blocks():
+    """After refactoring, extract_blocks should produce the same output."""
+    image1 = Image.new("RGB", (100, 200))
+    image2 = Image.new("RGB", (100, 200))
+
+    mock_line = _make_surya_line("Test", [10, 20, 90, 40])
+    mock_pred = MagicMock()
+    mock_pred.text_lines = [mock_line]
+
+    with patch.object(surya, "_recognition_predictor") as mock_rec, \
+         patch.object(surya, "_loaded", True):
+        mock_rec.return_value = [mock_pred]
+
+        blocks = surya.extract_blocks([image1, image2])
+
+    assert len(blocks) == 2
+    assert blocks[0]["pageNumber"] == 0
+    assert blocks[1]["pageNumber"] == 1
+
+
+# ─── Kraken extract_page_blocks ──────────────────────────────────────────────
+
+
+def _make_kraken_record(text, cuts, confidences=None):
+    record = MagicMock()
+    record.prediction = text
+    record.cuts = cuts
+    record.line = cuts
+    record.confidences = confidences or [0.9] * len(text)
+    return record
+
+
+def _run_kraken_with_mocks(fn, *args):
+    """Run a kraken function with blla/rpred mocked via sys.modules."""
+    import sys
+    mock_blla = MagicMock()
+    mock_blla.segment.return_value = MagicMock()
+    mock_rpred = MagicMock()
+
+    mock_record = _make_kraken_record("Kurrent", [(10, 20), (90, 20), (90, 40), (10, 40)])
+    mock_rpred.rpred.return_value = [mock_record]
+
+    saved_kraken = sys.modules.get("kraken")
+    saved_blla = sys.modules.get("kraken.blla")
+    saved_rpred = sys.modules.get("kraken.rpred")
+
+    sys.modules["kraken"] = MagicMock(blla=mock_blla, rpred=mock_rpred)
+    sys.modules["kraken.blla"] = mock_blla
+    sys.modules["kraken.rpred"] = mock_rpred
+
+    try:
+        with patch.object(kraken, "_model", MagicMock()):
+            return fn(*args)
+    finally:
+        if saved_kraken is not None:
+            sys.modules["kraken"] = saved_kraken
+        else:
+            sys.modules.pop("kraken", None)
+        if saved_blla is not None:
+            sys.modules["kraken.blla"] = saved_blla
+        else:
+            sys.modules.pop("kraken.blla", None)
+        if saved_rpred is not None:
+            sys.modules["kraken.rpred"] = saved_rpred
+        else:
+            sys.modules.pop("kraken.rpred", None)
+
+
+def test_kraken_extract_page_blocks_returns_blocks_for_single_image():
+    image = Image.new("RGB", (100, 200))
+    blocks = _run_kraken_with_mocks(kraken.extract_page_blocks, image, 3, "de")
+
+    assert len(blocks) == 1
+    assert blocks[0]["pageNumber"] == 3
+    assert blocks[0]["text"] == "Kurrent"
+
+
+def test_kraken_extract_blocks_delegates_to_extract_page_blocks():
+    image1 = Image.new("RGB", (100, 200))
+    image2 = Image.new("RGB", (100, 200))
+    blocks = _run_kraken_with_mocks(kraken.extract_blocks, [image1, image2])
+
+    assert len(blocks) == 2
+    assert blocks[0]["pageNumber"] == 0
+    assert blocks[1]["pageNumber"] == 1
-- 
2.49.1


From 97c6cf6a6503be11a04686cc1c97dfa08bfa87c3 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 09:57:57 +0200
Subject: [PATCH 48/74] feat(ocr): add NDJSON streaming endpoint POST
 /ocr/stream

Streams one JSON line per completed page instead of buffering the
entire result. Emits start/page/error/done events. On per-page
failure, logs the traceback but yields a generic error message and
continues with the next page. Adds X-Accel-Buffering: no and
Cache-Control: no-cache headers for reverse-proxy compatibility.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 ocr-service/main.py        |  73 +++++++++++++++++
 ocr-service/test_stream.py | 163 +++++++++++++++++++++++++++++++++++++
 2 files changed, 236 insertions(+)
 create mode 100644 ocr-service/test_stream.py

diff --git a/ocr-service/main.py b/ocr-service/main.py
index d5f67370..2b0f7785 100644
--- a/ocr-service/main.py
+++ b/ocr-service/main.py
@@ -2,12 +2,14 @@
 
 import asyncio
 import io
+import json
 import logging
 from contextlib import asynccontextmanager
 
 import httpx
 import pypdfium2 as pdfium
 from fastapi import FastAPI, HTTPException
+from fastapi.responses import StreamingResponse
 from PIL import Image
 
 from confidence import apply_confidence_markers, get_threshold
@@ -82,6 +84,77 @@ async def run_ocr(request: OcrRequest):
     return [OcrBlock(**b) for b in blocks]
 
 
+@app.post("/ocr/stream")
+async def run_ocr_stream(request: OcrRequest):
+    """Run OCR on a PDF with NDJSON streaming — one JSON line per completed page."""
+    if not _models_ready:
+        raise HTTPException(status_code=503, detail="Models not loaded yet")
+
+    images = await _download_and_convert_pdf(request.pdfUrl)
+    script_type = request.scriptType.upper()
+    threshold = get_threshold(script_type)
+
+    use_kraken = script_type == "HANDWRITING_KURRENT"
+    if use_kraken and not kraken_engine.is_available():
+        raise HTTPException(
+            status_code=400,
+            detail="Kraken model not available — cannot process Kurrent script",
+        )
+
+    async def generate():
+        total_pages = len(images)
+        yield json.dumps({"type": "start", "totalPages": total_pages}) + "\n"
+
+        total_blocks = 0
+        skipped_pages = 0
+
+        for page_idx, image in enumerate(images):
+            try:
+                engine = kraken_engine if use_kraken else surya_engine
+                blocks = await asyncio.to_thread(
+                    engine.extract_page_blocks, image, page_idx, request.language
+                )
+
+                for block in blocks:
+                    if block.get("words"):
+                        block["text"] = apply_confidence_markers(block["words"], threshold)
+                    block.pop("words", None)
+
+                total_blocks += len(blocks)
+                yield json.dumps({
+                    "type": "page",
+                    "pageNumber": page_idx,
+                    "blocks": blocks,
+                }) + "\n"
+
+            except Exception:
+                logger.exception("OCR failed on page %d", page_idx)
+                skipped_pages += 1
+                yield json.dumps({
+                    "type": "error",
+                    "pageNumber": page_idx,
+                    "message": f"OCR processing failed on page {page_idx}",
+                }) + "\n"
+
+            finally:
+                del image
+
+        yield json.dumps({
+            "type": "done",
+            "totalBlocks": total_blocks,
+            "skippedPages": skipped_pages,
+        }) + "\n"
+
+    return StreamingResponse(
+        generate(),
+        media_type="application/x-ndjson",
+        headers={
+            "X-Accel-Buffering": "no",
+            "Cache-Control": "no-cache",
+        },
+    )
+
+
 async def _download_and_convert_pdf(url: str) -> list[Image.Image]:
     """Download a PDF from a presigned URL and convert each page to a PIL Image."""
     async with httpx.AsyncClient(timeout=httpx.Timeout(300.0)) as client:
diff --git a/ocr-service/test_stream.py b/ocr-service/test_stream.py
new file mode 100644
index 00000000..13d41644
--- /dev/null
+++ b/ocr-service/test_stream.py
@@ -0,0 +1,163 @@
+"""Tests for the NDJSON streaming OCR endpoint POST /ocr/stream."""
+
+import json
+from unittest.mock import AsyncMock, MagicMock, patch
+
+import pytest
+from httpx import ASGITransport, AsyncClient
+
+from main import app
+
+
+@pytest.fixture
+def mock_images():
+    """Return 3 fake PIL images."""
+    from PIL import Image
+    return [Image.new("RGB", (100, 200)) for _ in range(3)]
+
+
+def _make_block(page_idx, text="Test"):
+    return {
+        "pageNumber": page_idx,
+        "x": 0.1, "y": 0.2, "width": 0.8, "height": 0.1,
+        "polygon": None, "text": text,
+        "words": [{"text": text, "confidence": 0.95}],
+    }
+
+
+# ─── P3: start event with total pages ────────────────────────────────────────
+
+
+@pytest.mark.asyncio
+async def test_ocr_stream_emits_start_event_with_total_pages(mock_images):
+    with patch("main._download_and_convert_pdf", new_callable=AsyncMock, return_value=mock_images), \
+         patch("main._models_ready", True), \
+         patch("main.surya_engine") as mock_surya:
+        mock_surya.extract_page_blocks.return_value = [_make_block(0)]
+
+        async with AsyncClient(transport=ASGITransport(app=app), base_url="http://test") as client:
+            response = await client.post("/ocr/stream", json={
+                "pdfUrl": "http://minio/test.pdf",
+                "scriptType": "TYPEWRITER",
+                "language": "de",
+            })
+
+        lines = [json.loads(line) for line in response.text.strip().split("\n") if line.strip()]
+        assert lines[0] == {"type": "start", "totalPages": 3}
+
+
+# ─── P4: page events per completed page ──────────────────────────────────────
+
+
+@pytest.mark.asyncio
+async def test_ocr_stream_emits_page_event_per_page_with_blocks(mock_images):
+    def page_blocks(image, page_idx, language="de"):
+        return [_make_block(page_idx, f"Page {page_idx}")]
+
+    with patch("main._download_and_convert_pdf", new_callable=AsyncMock, return_value=mock_images), \
+         patch("main._models_ready", True), \
+         patch("main.surya_engine") as mock_surya:
+        mock_surya.extract_page_blocks.side_effect = page_blocks
+
+        async with AsyncClient(transport=ASGITransport(app=app), base_url="http://test") as client:
+            response = await client.post("/ocr/stream", json={
+                "pdfUrl": "http://minio/test.pdf",
+                "scriptType": "TYPEWRITER",
+            })
+
+        lines = [json.loads(line) for line in response.text.strip().split("\n") if line.strip()]
+        page_events = [l for l in lines if l["type"] == "page"]
+        assert len(page_events) == 3
+        assert page_events[0]["pageNumber"] == 0
+        assert page_events[1]["pageNumber"] == 1
+        assert page_events[2]["pageNumber"] == 2
+        assert len(page_events[0]["blocks"]) == 1
+
+
+# ─── P5: done event with total blocks and skipped ────────────────────────────
+
+
+@pytest.mark.asyncio
+async def test_ocr_stream_emits_done_with_total_blocks(mock_images):
+    def page_blocks(image, page_idx, language="de"):
+        return [_make_block(page_idx)] * 2  # 2 blocks per page
+
+    with patch("main._download_and_convert_pdf", new_callable=AsyncMock, return_value=mock_images), \
+         patch("main._models_ready", True), \
+         patch("main.surya_engine") as mock_surya:
+        mock_surya.extract_page_blocks.side_effect = page_blocks
+
+        async with AsyncClient(transport=ASGITransport(app=app), base_url="http://test") as client:
+            response = await client.post("/ocr/stream", json={
+                "pdfUrl": "http://minio/test.pdf",
+                "scriptType": "TYPEWRITER",
+            })
+
+        lines = [json.loads(line) for line in response.text.strip().split("\n") if line.strip()]
+        done = [l for l in lines if l["type"] == "done"][0]
+        assert done["totalBlocks"] == 6
+        assert done["skippedPages"] == 0
+
+
+# ─── P6: error event on page failure, continues ──────────────────────────────
+
+
+@pytest.mark.asyncio
+async def test_ocr_stream_emits_error_event_on_page_failure_and_continues(mock_images):
+    call_count = 0
+
+    def page_blocks(image, page_idx, language="de"):
+        nonlocal call_count
+        call_count += 1
+        if page_idx == 1:
+            raise RuntimeError("Engine crashed on page 1")
+        return [_make_block(page_idx)]
+
+    with patch("main._download_and_convert_pdf", new_callable=AsyncMock, return_value=mock_images), \
+         patch("main._models_ready", True), \
+         patch("main.surya_engine") as mock_surya:
+        mock_surya.extract_page_blocks.side_effect = page_blocks
+
+        async with AsyncClient(transport=ASGITransport(app=app), base_url="http://test") as client:
+            response = await client.post("/ocr/stream", json={
+                "pdfUrl": "http://minio/test.pdf",
+                "scriptType": "TYPEWRITER",
+            })
+
+        lines = [json.loads(line) for line in response.text.strip().split("\n") if line.strip()]
+        types = [l["type"] for l in lines]
+        assert "error" in types
+        error_event = [l for l in lines if l["type"] == "error"][0]
+        assert error_event["pageNumber"] == 1
+        # Error message must be generic, not the raw traceback
+        assert "Engine crashed" not in error_event["message"]
+
+        # Processing continued: pages 0 and 2 have page events
+        page_events = [l for l in lines if l["type"] == "page"]
+        assert len(page_events) == 2
+
+        done = [l for l in lines if l["type"] == "done"][0]
+        assert done["skippedPages"] == 1
+
+
+# ─── P7: old /ocr endpoint still works ───────────────────────────────────────
+
+
+@pytest.mark.asyncio
+async def test_old_ocr_endpoint_still_returns_flat_list(mock_images):
+    with patch("main._download_and_convert_pdf", new_callable=AsyncMock, return_value=mock_images), \
+         patch("main._models_ready", True), \
+         patch("main.surya_engine") as mock_surya:
+        mock_surya.extract_blocks.return_value = [_make_block(0), _make_block(1)]
+
+        async with AsyncClient(transport=ASGITransport(app=app), base_url="http://test") as client:
+            response = await client.post("/ocr", json={
+                "pdfUrl": "http://minio/test.pdf",
+                "scriptType": "TYPEWRITER",
+            })
+
+        assert response.status_code == 200
+        data = response.json()
+        assert isinstance(data, list)
+        assert len(data) == 2
+        assert data[0]["pageNumber"] == 0
-- 
2.49.1


From e21d01e10b71067340ea90b58a99b1701042a45c Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 10:00:02 +0200
Subject: [PATCH 49/74] feat(ocr): add OcrStreamEvent sealed interface with
 Start/Page/Error/Done records

Defines the event types for NDJSON streaming OCR. Uses Java 21 sealed
interface with record subtypes for exhaustive pattern matching in the
consumer.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 .../service/OcrStreamEvent.java               | 14 +++++
 .../service/OcrStreamEventTest.java           | 51 +++++++++++++++++++
 2 files changed, 65 insertions(+)
 create mode 100644 backend/src/main/java/org/raddatz/familienarchiv/service/OcrStreamEvent.java
 create mode 100644 backend/src/test/java/org/raddatz/familienarchiv/service/OcrStreamEventTest.java

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrStreamEvent.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrStreamEvent.java
new file mode 100644
index 00000000..aec0e4f1
--- /dev/null
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrStreamEvent.java
@@ -0,0 +1,14 @@
+package org.raddatz.familienarchiv.service;
+
+import java.util.List;
+
+public sealed interface OcrStreamEvent {
+
+    record Start(int totalPages) implements OcrStreamEvent {}
+
+    record Page(int pageNumber, List<OcrBlockResult> blocks) implements OcrStreamEvent {}
+
+    record Error(int pageNumber, String message) implements OcrStreamEvent {}
+
+    record Done(int totalBlocks, int skippedPages) implements OcrStreamEvent {}
+}
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrStreamEventTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrStreamEventTest.java
new file mode 100644
index 00000000..70dc7866
--- /dev/null
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrStreamEventTest.java
@@ -0,0 +1,51 @@
+package org.raddatz.familienarchiv.service;
+
+import org.junit.jupiter.api.Test;
+
+import java.util.List;
+
+import static org.assertj.core.api.Assertions.assertThat;
+
+class OcrStreamEventTest {
+
+    @Test
+    void startRecordHoldsTotalPages() {
+        var start = new OcrStreamEvent.Start(5);
+        assertThat(start.totalPages()).isEqualTo(5);
+        assertThat(start).isInstanceOf(OcrStreamEvent.class);
+    }
+
+    @Test
+    void pageRecordHoldsBlocksAndPageNumber() {
+        var block = new OcrBlockResult(0, 0.1, 0.2, 0.8, 0.1, null, "Test");
+        var page = new OcrStreamEvent.Page(0, List.of(block));
+        assertThat(page.pageNumber()).isEqualTo(0);
+        assertThat(page.blocks()).hasSize(1);
+    }
+
+    @Test
+    void errorRecordHoldsPageAndMessage() {
+        var error = new OcrStreamEvent.Error(2, "failed");
+        assertThat(error.pageNumber()).isEqualTo(2);
+        assertThat(error.message()).isEqualTo("failed");
+    }
+
+    @Test
+    void doneRecordHoldsTotalBlocksAndSkippedPages() {
+        var done = new OcrStreamEvent.Done(12, 2);
+        assertThat(done.totalBlocks()).isEqualTo(12);
+        assertThat(done.skippedPages()).isEqualTo(2);
+    }
+
+    @Test
+    void patternMatchingWorksOnSealedInterface() {
+        OcrStreamEvent event = new OcrStreamEvent.Start(3);
+        String result = switch (event) {
+            case OcrStreamEvent.Start s -> "start:" + s.totalPages();
+            case OcrStreamEvent.Page p -> "page:" + p.pageNumber();
+            case OcrStreamEvent.Error e -> "error:" + e.pageNumber();
+            case OcrStreamEvent.Done d -> "done:" + d.totalBlocks();
+        };
+        assertThat(result).isEqualTo("start:3");
+    }
+}
-- 
2.49.1


From 641e91d5a3d23241efdfc85cec2e53a82202968c Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 10:01:26 +0200
Subject: [PATCH 50/74] feat(ocr): add default streamBlocks method to OcrClient
 interface

The default method synthesizes Start/Page/Done events from
extractBlocks() results, providing backward compatibility for
implementations that don't support streaming natively.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 .../familienarchiv/service/OcrClient.java     | 26 +++++++++
 .../service/OcrClientDefaultStreamTest.java   | 55 +++++++++++++++++++
 2 files changed, 81 insertions(+)
 create mode 100644 backend/src/test/java/org/raddatz/familienarchiv/service/OcrClientDefaultStreamTest.java

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrClient.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrClient.java
index 3b33aaf2..9cf7c886 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrClient.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrClient.java
@@ -2,8 +2,34 @@ package org.raddatz.familienarchiv.service;
 
 import org.raddatz.familienarchiv.model.ScriptType;
 
+import java.util.ArrayList;
+import java.util.LinkedHashMap;
 import java.util.List;
+import java.util.function.Consumer;
 
 public interface OcrClient {
     List<OcrBlockResult> extractBlocks(String pdfUrl, ScriptType scriptType);
+
+    /**
+     * Stream OCR results page-by-page via NDJSON. Implementations should override
+     * this method. The default exists only for backward compatibility during migration
+     * — it calls extractBlocks() and synthesizes events from the collected result.
+     */
+    default void streamBlocks(String pdfUrl, ScriptType scriptType, Consumer<OcrStreamEvent> handler) {
+        List<OcrBlockResult> allBlocks = extractBlocks(pdfUrl, scriptType);
+
+        LinkedHashMap<Integer, List<OcrBlockResult>> byPage = new LinkedHashMap<>();
+        for (OcrBlockResult block : allBlocks) {
+            byPage.computeIfAbsent(block.pageNumber(), k -> new ArrayList<>()).add(block);
+        }
+
+        int totalPages = byPage.isEmpty() ? 0 : byPage.keySet().stream().mapToInt(i -> i).max().orElse(0) + 1;
+        handler.accept(new OcrStreamEvent.Start(totalPages));
+
+        for (var entry : byPage.entrySet()) {
+            handler.accept(new OcrStreamEvent.Page(entry.getKey(), entry.getValue()));
+        }
+
+        handler.accept(new OcrStreamEvent.Done(allBlocks.size(), 0));
+    }
 }
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrClientDefaultStreamTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrClientDefaultStreamTest.java
new file mode 100644
index 00000000..42219299
--- /dev/null
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrClientDefaultStreamTest.java
@@ -0,0 +1,55 @@
+package org.raddatz.familienarchiv.service;
+
+import org.junit.jupiter.api.Test;
+import org.raddatz.familienarchiv.model.ScriptType;
+
+import java.util.ArrayList;
+import java.util.List;
+
+import static org.assertj.core.api.Assertions.assertThat;
+
+class OcrClientDefaultStreamTest {
+
+    @Test
+    void defaultStreamBlocksSynthesizesEventsFromExtractBlocks() {
+        OcrClient client = (pdfUrl, scriptType) -> List.of(
+                new OcrBlockResult(0, 0.1, 0.1, 0.8, 0.04, null, "Line 1"),
+                new OcrBlockResult(0, 0.1, 0.2, 0.8, 0.04, null, "Line 2"),
+                new OcrBlockResult(1, 0.1, 0.1, 0.8, 0.04, null, "Line 3"));
+
+        List<OcrStreamEvent> events = new ArrayList<>();
+        client.streamBlocks("http://test", ScriptType.TYPEWRITER, events::add);
+
+        assertThat(events).hasSize(4);
+        assertThat(events.get(0)).isInstanceOf(OcrStreamEvent.Start.class);
+        assertThat(((OcrStreamEvent.Start) events.get(0)).totalPages()).isEqualTo(2);
+
+        assertThat(events.get(1)).isInstanceOf(OcrStreamEvent.Page.class);
+        var page0 = (OcrStreamEvent.Page) events.get(1);
+        assertThat(page0.pageNumber()).isEqualTo(0);
+        assertThat(page0.blocks()).hasSize(2);
+
+        assertThat(events.get(2)).isInstanceOf(OcrStreamEvent.Page.class);
+        var page1 = (OcrStreamEvent.Page) events.get(2);
+        assertThat(page1.pageNumber()).isEqualTo(1);
+        assertThat(page1.blocks()).hasSize(1);
+
+        assertThat(events.get(3)).isInstanceOf(OcrStreamEvent.Done.class);
+        var done = (OcrStreamEvent.Done) events.get(3);
+        assertThat(done.totalBlocks()).isEqualTo(3);
+        assertThat(done.skippedPages()).isEqualTo(0);
+    }
+
+    @Test
+    void defaultStreamBlocksHandlesEmptyResults() {
+        OcrClient client = (pdfUrl, scriptType) -> List.of();
+
+        List<OcrStreamEvent> events = new ArrayList<>();
+        client.streamBlocks("http://test", ScriptType.TYPEWRITER, events::add);
+
+        assertThat(events).hasSize(2);
+        assertThat(events.get(0)).isInstanceOf(OcrStreamEvent.Start.class);
+        assertThat(((OcrStreamEvent.Start) events.get(0)).totalPages()).isEqualTo(0);
+        assertThat(events.get(1)).isInstanceOf(OcrStreamEvent.Done.class);
+    }
+}
-- 
2.49.1


From 93c3154b3c0fdcb85079dbf17612bf0e6ad7ee81 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 10:03:12 +0200
Subject: [PATCH 51/74] feat(ocr): implement NDJSON streaming in
 RestClientOcrClient

Add streamBlocks() that POSTs to /ocr/stream and parses the NDJSON
response line by line with a dedicated ObjectMapper. Falls back to
the old /ocr endpoint via the default method when /ocr/stream returns
404. Uses a separate HttpClient with 5-minute request timeout for
streaming.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 .../service/RestClientOcrClient.java          | 101 +++++++++++++++
 .../RestClientOcrClientStreamTest.java        | 117 ++++++++++++++++++
 2 files changed, 218 insertions(+)
 create mode 100644 backend/src/test/java/org/raddatz/familienarchiv/service/RestClientOcrClientStreamTest.java

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/RestClientOcrClient.java b/backend/src/main/java/org/raddatz/familienarchiv/service/RestClientOcrClient.java
index 1130e67e..a0f7ccf3 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/RestClientOcrClient.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/RestClientOcrClient.java
@@ -1,6 +1,10 @@
 package org.raddatz.familienarchiv.service;
 
 import com.fasterxml.jackson.annotation.JsonProperty;
+import com.fasterxml.jackson.core.type.TypeReference;
+import com.fasterxml.jackson.databind.DeserializationFeature;
+import com.fasterxml.jackson.databind.JsonNode;
+import com.fasterxml.jackson.databind.ObjectMapper;
 import lombok.extern.slf4j.Slf4j;
 import org.raddatz.familienarchiv.model.ScriptType;
 import org.springframework.beans.factory.annotation.Value;
@@ -10,18 +14,34 @@ import org.springframework.http.client.JdkClientHttpRequestFactory;
 import org.springframework.stereotype.Component;
 import org.springframework.web.client.RestClient;
 
+import java.io.BufferedReader;
+import java.io.IOException;
+import java.io.InputStream;
+import java.io.InputStreamReader;
+import java.net.URI;
 import java.net.http.HttpClient;
+import java.net.http.HttpRequest;
+import java.net.http.HttpResponse;
+import java.nio.charset.StandardCharsets;
 import java.time.Duration;
 import java.util.List;
 import java.util.Map;
+import java.util.function.Consumer;
 
 @Component
 @Slf4j
 public class RestClientOcrClient implements OcrClient, OcrHealthClient {
 
+    private static final ObjectMapper NDJSON_MAPPER = new ObjectMapper()
+            .configure(DeserializationFeature.FAIL_ON_UNKNOWN_PROPERTIES, true);
+
     private final RestClient restClient;
+    private final HttpClient streamingHttpClient;
+    private final String baseUrl;
 
     public RestClientOcrClient(@Value("${app.ocr.base-url:http://ocr-service:8000}") String baseUrl) {
+        this.baseUrl = baseUrl;
+
         HttpClient httpClient = HttpClient.newBuilder()
                 .version(HttpClient.Version.HTTP_1_1)
                 .connectTimeout(Duration.ofSeconds(10))
@@ -33,6 +53,11 @@ public class RestClientOcrClient implements OcrClient, OcrHealthClient {
                 .baseUrl(baseUrl)
                 .requestFactory(requestFactory)
                 .build();
+
+        this.streamingHttpClient = HttpClient.newBuilder()
+                .version(HttpClient.Version.HTTP_1_1)
+                .connectTimeout(Duration.ofSeconds(10))
+                .build();
     }
 
     @Override
@@ -70,6 +95,82 @@ public class RestClientOcrClient implements OcrClient, OcrHealthClient {
         }
     }
 
+    @Override
+    public void streamBlocks(String pdfUrl, ScriptType scriptType, Consumer<OcrStreamEvent> handler) {
+        String body;
+        try {
+            body = NDJSON_MAPPER.writeValueAsString(Map.of(
+                    "pdfUrl", pdfUrl,
+                    "scriptType", scriptType.name(),
+                    "language", "de"));
+        } catch (IOException e) {
+            throw new RuntimeException("Failed to serialize OCR request", e);
+        }
+
+        HttpRequest request = HttpRequest.newBuilder()
+                .uri(URI.create(baseUrl + "/ocr/stream"))
+                .header("Content-Type", "application/json")
+                .POST(HttpRequest.BodyPublishers.ofString(body))
+                .timeout(Duration.ofMinutes(5))
+                .build();
+
+        try {
+            HttpResponse<InputStream> response = streamingHttpClient.send(
+                    request, HttpResponse.BodyHandlers.ofInputStream());
+
+            if (response.statusCode() == 404) {
+                log.info("OCR service does not support /ocr/stream (404), falling back to /ocr");
+                OcrClient.super.streamBlocks(pdfUrl, scriptType, handler);
+                return;
+            }
+
+            try (InputStream inputStream = response.body()) {
+                parseNdjsonStream(inputStream, handler);
+            }
+        } catch (IOException | InterruptedException e) {
+            if (e instanceof InterruptedException) {
+                Thread.currentThread().interrupt();
+            }
+            throw new RuntimeException("NDJSON stream failed: " + e.getMessage(), e);
+        }
+    }
+
+    static void parseNdjsonStream(InputStream inputStream, Consumer<OcrStreamEvent> handler) {
+        try (BufferedReader reader = new BufferedReader(
+                new InputStreamReader(inputStream, StandardCharsets.UTF_8))) {
+            String line;
+            while ((line = reader.readLine()) != null) {
+                if (line.isBlank()) continue;
+
+                JsonNode node = NDJSON_MAPPER.readTree(line);
+                String type = node.path("type").asText();
+
+                switch (type) {
+                    case "start" -> handler.accept(
+                            new OcrStreamEvent.Start(node.path("totalPages").asInt()));
+                    case "page" -> {
+                        int pageNumber = node.path("pageNumber").asInt();
+                        List<OcrBlockResult> blocks = NDJSON_MAPPER.convertValue(
+                                node.path("blocks"),
+                                new TypeReference<>() {});
+                        handler.accept(new OcrStreamEvent.Page(pageNumber, blocks));
+                    }
+                    case "error" -> handler.accept(
+                            new OcrStreamEvent.Error(
+                                    node.path("pageNumber").asInt(),
+                                    node.path("message").asText()));
+                    case "done" -> handler.accept(
+                            new OcrStreamEvent.Done(
+                                    node.path("totalBlocks").asInt(),
+                                    node.path("skippedPages").asInt()));
+                    default -> log.debug("Ignoring unknown NDJSON event type: {}", type);
+                }
+            }
+        } catch (IOException e) {
+            throw new RuntimeException("Failed to parse NDJSON stream: " + e.getMessage(), e);
+        }
+    }
+
     record OcrBlockJson(
             @JsonProperty("pageNumber") int pageNumber,
             double x,
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/RestClientOcrClientStreamTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/RestClientOcrClientStreamTest.java
new file mode 100644
index 00000000..36d5db22
--- /dev/null
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/RestClientOcrClientStreamTest.java
@@ -0,0 +1,117 @@
+package org.raddatz.familienarchiv.service;
+
+import org.junit.jupiter.api.Test;
+
+import java.io.ByteArrayInputStream;
+import java.io.InputStream;
+import java.nio.charset.StandardCharsets;
+import java.util.ArrayList;
+import java.util.List;
+
+import static org.assertj.core.api.Assertions.assertThat;
+
+class RestClientOcrClientStreamTest {
+
+    @Test
+    void parseNdjsonStream_dispatchesStartPageDoneInOrder() {
+        String ndjson = """
+                {"type":"start","totalPages":2}
+                {"type":"page","pageNumber":0,"blocks":[{"pageNumber":0,"x":0.1,"y":0.2,"width":0.8,"height":0.1,"polygon":null,"text":"Line 1"}]}
+                {"type":"page","pageNumber":1,"blocks":[{"pageNumber":1,"x":0.1,"y":0.3,"width":0.8,"height":0.1,"polygon":null,"text":"Line 2"}]}
+                {"type":"done","totalBlocks":2,"skippedPages":0}
+                """;
+        InputStream stream = new ByteArrayInputStream(ndjson.getBytes(StandardCharsets.UTF_8));
+
+        List<OcrStreamEvent> events = new ArrayList<>();
+        RestClientOcrClient.parseNdjsonStream(stream, events::add);
+
+        assertThat(events).hasSize(4);
+        assertThat(events.get(0)).isInstanceOf(OcrStreamEvent.Start.class);
+        assertThat(((OcrStreamEvent.Start) events.get(0)).totalPages()).isEqualTo(2);
+
+        assertThat(events.get(1)).isInstanceOf(OcrStreamEvent.Page.class);
+        var page0 = (OcrStreamEvent.Page) events.get(1);
+        assertThat(page0.pageNumber()).isEqualTo(0);
+        assertThat(page0.blocks()).hasSize(1);
+        assertThat(page0.blocks().get(0).text()).isEqualTo("Line 1");
+
+        assertThat(events.get(2)).isInstanceOf(OcrStreamEvent.Page.class);
+        var page1 = (OcrStreamEvent.Page) events.get(2);
+        assertThat(page1.pageNumber()).isEqualTo(1);
+
+        assertThat(events.get(3)).isInstanceOf(OcrStreamEvent.Done.class);
+        var done = (OcrStreamEvent.Done) events.get(3);
+        assertThat(done.totalBlocks()).isEqualTo(2);
+        assertThat(done.skippedPages()).isEqualTo(0);
+    }
+
+    @Test
+    void parseNdjsonStream_parsesErrorEvents() {
+        String ndjson = """
+                {"type":"start","totalPages":3}
+                {"type":"page","pageNumber":0,"blocks":[]}
+                {"type":"error","pageNumber":1,"message":"OCR processing failed on page 1"}
+                {"type":"page","pageNumber":2,"blocks":[]}
+                {"type":"done","totalBlocks":0,"skippedPages":1}
+                """;
+        InputStream stream = new ByteArrayInputStream(ndjson.getBytes(StandardCharsets.UTF_8));
+
+        List<OcrStreamEvent> events = new ArrayList<>();
+        RestClientOcrClient.parseNdjsonStream(stream, events::add);
+
+        assertThat(events).hasSize(5);
+        assertThat(events.get(2)).isInstanceOf(OcrStreamEvent.Error.class);
+        var error = (OcrStreamEvent.Error) events.get(2);
+        assertThat(error.pageNumber()).isEqualTo(1);
+        assertThat(error.message()).contains("OCR processing failed");
+    }
+
+    @Test
+    void parseNdjsonStream_skipsBlankLines() {
+        String ndjson = """
+                {"type":"start","totalPages":1}
+
+                {"type":"page","pageNumber":0,"blocks":[]}
+
+                {"type":"done","totalBlocks":0,"skippedPages":0}
+                """;
+        InputStream stream = new ByteArrayInputStream(ndjson.getBytes(StandardCharsets.UTF_8));
+
+        List<OcrStreamEvent> events = new ArrayList<>();
+        RestClientOcrClient.parseNdjsonStream(stream, events::add);
+
+        assertThat(events).hasSize(3);
+    }
+
+    @Test
+    void parseNdjsonStream_ignoresUnknownEventTypes() {
+        String ndjson = """
+                {"type":"start","totalPages":1}
+                {"type":"unknown","foo":"bar"}
+                {"type":"done","totalBlocks":0,"skippedPages":0}
+                """;
+        InputStream stream = new ByteArrayInputStream(ndjson.getBytes(StandardCharsets.UTF_8));
+
+        List<OcrStreamEvent> events = new ArrayList<>();
+        RestClientOcrClient.parseNdjsonStream(stream, events::add);
+
+        assertThat(events).hasSize(2);
+    }
+
+    @Test
+    void parseNdjsonStream_parsesPageWithPolygon() {
+        String ndjson = """
+                {"type":"start","totalPages":1}
+                {"type":"page","pageNumber":0,"blocks":[{"pageNumber":0,"x":0.1,"y":0.2,"width":0.8,"height":0.1,"polygon":[[0.1,0.2],[0.9,0.2],[0.9,0.3],[0.1,0.3]],"text":"With polygon"}]}
+                {"type":"done","totalBlocks":1,"skippedPages":0}
+                """;
+        InputStream stream = new ByteArrayInputStream(ndjson.getBytes(StandardCharsets.UTF_8));
+
+        List<OcrStreamEvent> events = new ArrayList<>();
+        RestClientOcrClient.parseNdjsonStream(stream, events::add);
+
+        var page = (OcrStreamEvent.Page) events.get(1);
+        assertThat(page.blocks().get(0).polygon()).hasSize(4);
+        assertThat(page.blocks().get(0).text()).isEqualTo("With polygon");
+    }
+}
-- 
2.49.1


From 6823973429920a2c595613ea9b59bc88c991ecff Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 10:04:02 +0200
Subject: [PATCH 52/74] refactor(ocr): extract createSingleBlock from
 createTranscriptionBlocks

Enable per-page block creation during streaming by extracting the
loop body into a package-private createSingleBlock() method with an
explicit sortOrder parameter.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 .../service/OcrAsyncRunner.java               | 41 ++++++++++---------
 1 file changed, 22 insertions(+), 19 deletions(-)

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
index 1b773748..bccc923a 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
@@ -162,25 +162,28 @@ public class OcrAsyncRunner {
     private void createTranscriptionBlocks(UUID documentId, List<OcrBlockResult> blocks,
                                             UUID userId, String fileHash) {
         for (int i = 0; i < blocks.size(); i++) {
-            OcrBlockResult block = blocks.get(i);
-
-            CreateAnnotationDTO annotationDTO = new CreateAnnotationDTO(
-                    block.pageNumber(), block.x(), block.y(),
-                    block.width(), block.height(), OCR_ANNOTATION_COLOR);
-
-            DocumentAnnotation annotation = annotationService.createOcrAnnotation(
-                    documentId, annotationDTO, userId, fileHash, block.polygon());
-
-            TranscriptionBlock transcriptionBlock = TranscriptionBlock.builder()
-                    .annotationId(annotation.getId())
-                    .documentId(documentId)
-                    .text(block.text() != null ? block.text() : "")
-                    .sortOrder(i)
-                    .source(BlockSource.OCR)
-                    .createdBy(userId)
-                    .updatedBy(userId)
-                    .build();
-            blockRepository.save(transcriptionBlock);
+            createSingleBlock(documentId, blocks.get(i), userId, fileHash, i);
         }
     }
+
+    void createSingleBlock(UUID documentId, OcrBlockResult block,
+                           UUID userId, String fileHash, int sortOrder) {
+        CreateAnnotationDTO annotationDTO = new CreateAnnotationDTO(
+                block.pageNumber(), block.x(), block.y(),
+                block.width(), block.height(), OCR_ANNOTATION_COLOR);
+
+        DocumentAnnotation annotation = annotationService.createOcrAnnotation(
+                documentId, annotationDTO, userId, fileHash, block.polygon());
+
+        TranscriptionBlock transcriptionBlock = TranscriptionBlock.builder()
+                .annotationId(annotation.getId())
+                .documentId(documentId)
+                .text(block.text() != null ? block.text() : "")
+                .sortOrder(sortOrder)
+                .source(BlockSource.OCR)
+                .createdBy(userId)
+                .updatedBy(userId)
+                .build();
+        blockRepository.save(transcriptionBlock);
+    }
 }
-- 
2.49.1


From 292dc66f3ce3eb0e22e5594a8d5e6b41ba854eb1 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 10:07:06 +0200
Subject: [PATCH 53/74] feat(ocr): rewrite runSingleDocument to use
 streamBlocks with per-page progress

Replace the single extractBlocks() call with streamBlocks() that
processes pages incrementally. Each page's blocks are persisted
immediately via createSingleBlock(). Progress updates use the
ANALYZING_PAGE:current:total:blocks format. Per-page errors are
logged at WARN level without failing the entire job. The batch path
(processDocument) remains on the old extractBlocks() path.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 .../service/OcrAsyncRunner.java               |  51 ++++++-
 .../service/OcrAsyncRunnerTest.java           | 137 +++++++++++++++++-
 2 files changed, 182 insertions(+), 6 deletions(-)

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
index bccc923a..b3ab3bea 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
@@ -13,6 +13,7 @@ import org.springframework.stereotype.Component;
 import java.util.List;
 import java.util.Map;
 import java.util.UUID;
+import java.util.concurrent.atomic.AtomicInteger;
 
 @Component
 @RequiredArgsConstructor
@@ -54,14 +55,56 @@ public class OcrAsyncRunner {
             String pdfUrl = fileService.generatePresignedUrl(doc.getFilePath());
 
             updateProgress(job, "ANALYZING");
-            List<OcrBlockResult> blocks = ocrClient.extractBlocks(pdfUrl, doc.getScriptType());
 
-            updateProgress(job, "CREATING_BLOCKS:" + blocks.size());
-            createTranscriptionBlocks(documentId, blocks, userId, doc.getFileHash());
+            AtomicInteger blockCounter = new AtomicInteger(0);
+            AtomicInteger currentPage = new AtomicInteger(0);
+            AtomicInteger skippedPages = new AtomicInteger(0);
+            AtomicInteger totalPages = new AtomicInteger(0);
+
+            ocrClient.streamBlocks(pdfUrl, doc.getScriptType(), event -> {
+                switch (event) {
+                    case OcrStreamEvent.Start start -> {
+                        totalPages.set(start.totalPages());
+                        if (jobDoc != null) {
+                            jobDoc.setTotalPages(start.totalPages());
+                            ocrJobDocumentRepository.save(jobDoc);
+                        }
+                    }
+                    case OcrStreamEvent.Page page -> {
+                        for (OcrBlockResult block : page.blocks()) {
+                            createSingleBlock(documentId, block, userId,
+                                    doc.getFileHash(), blockCounter.getAndIncrement());
+                        }
+                        currentPage.incrementAndGet();
+                        if (jobDoc != null) {
+                            jobDoc.setCurrentPage(currentPage.get());
+                            ocrJobDocumentRepository.save(jobDoc);
+                        }
+                        updateProgress(job, "ANALYZING_PAGE:" + currentPage.get()
+                                + ":" + totalPages.get() + ":" + blockCounter.get());
+                    }
+                    case OcrStreamEvent.Error error -> {
+                        log.warn("OCR page {} failed for document {}: {}",
+                                error.pageNumber(), documentId, error.message());
+                        skippedPages.incrementAndGet();
+                        currentPage.incrementAndGet();
+                        if (jobDoc != null) {
+                            jobDoc.setCurrentPage(currentPage.get());
+                            ocrJobDocumentRepository.save(jobDoc);
+                        }
+                    }
+                    case OcrStreamEvent.Done done -> {
+                        if (jobDoc != null) {
+                            jobDoc.setCurrentPage(totalPages.get());
+                            ocrJobDocumentRepository.save(jobDoc);
+                        }
+                    }
+                }
+            });
 
             job.setStatus(OcrJobStatus.DONE);
             job.setProcessedDocuments(1);
-            updateProgress(job, "DONE:" + blocks.size());
+            updateProgress(job, "DONE:" + blockCounter.get() + ":" + skippedPages.get());
             if (jobDoc != null) {
                 jobDoc.setStatus(OcrDocumentStatus.DONE);
                 ocrJobDocumentRepository.save(jobDoc);
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrAsyncRunnerTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrAsyncRunnerTest.java
index e4275378..018befc9 100644
--- a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrAsyncRunnerTest.java
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrAsyncRunnerTest.java
@@ -12,9 +12,11 @@ import org.raddatz.familienarchiv.repository.OcrJobDocumentRepository;
 import org.raddatz.familienarchiv.repository.OcrJobRepository;
 import org.raddatz.familienarchiv.repository.TranscriptionBlockRepository;
 
+import java.util.ArrayList;
 import java.util.List;
 import java.util.Optional;
 import java.util.UUID;
+import java.util.function.Consumer;
 
 import static org.assertj.core.api.Assertions.assertThat;
 import static org.mockito.ArgumentMatchers.any;
@@ -103,15 +105,25 @@ class OcrAsyncRunnerTest {
         UUID docId = UUID.randomUUID();
         UUID userId = UUID.randomUUID();
         OcrJob job = OcrJob.builder().id(jobId).totalDocuments(1).status(OcrJobStatus.PENDING).build();
+        OcrJobDocument jobDoc = OcrJobDocument.builder().id(UUID.randomUUID())
+                .jobId(jobId).documentId(docId).status(OcrDocumentStatus.PENDING).build();
         Document doc = Document.builder().id(docId).filePath("test.pdf")
                 .fileHash("hash").scriptType(ScriptType.TYPEWRITER).build();
 
         when(ocrJobRepository.findById(jobId)).thenReturn(Optional.of(job));
         when(ocrJobRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+        when(ocrJobDocumentRepository.findByJobIdAndDocumentId(jobId, docId))
+                .thenReturn(Optional.of(jobDoc));
         when(documentService.getDocumentById(docId)).thenReturn(doc);
         when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
         when(fileService.generatePresignedUrl(any())).thenReturn("http://presigned");
-        when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of());
+        doAnswer(inv -> {
+            Consumer<OcrStreamEvent> handler = inv.getArgument(2);
+            handler.accept(new OcrStreamEvent.Start(1));
+            handler.accept(new OcrStreamEvent.Page(0, List.of()));
+            handler.accept(new OcrStreamEvent.Done(0, 0));
+            return null;
+        }).when(ocrClient).streamBlocks(any(), any(), any());
 
         ocrAsyncRunner.runSingleDocument(jobId, docId, userId);
 
@@ -124,19 +136,140 @@ class OcrAsyncRunnerTest {
         UUID docId = UUID.randomUUID();
         UUID userId = UUID.randomUUID();
         OcrJob job = OcrJob.builder().id(jobId).totalDocuments(1).status(OcrJobStatus.PENDING).build();
+        OcrJobDocument jobDoc = OcrJobDocument.builder().id(UUID.randomUUID())
+                .jobId(jobId).documentId(docId).status(OcrDocumentStatus.PENDING).build();
         Document doc = Document.builder().id(docId).filePath("test.pdf")
                 .fileHash("hash").scriptType(ScriptType.TYPEWRITER).build();
 
         when(ocrJobRepository.findById(jobId)).thenReturn(Optional.of(job));
         when(ocrJobRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+        when(ocrJobDocumentRepository.findByJobIdAndDocumentId(jobId, docId))
+                .thenReturn(Optional.of(jobDoc));
         when(documentService.getDocumentById(docId)).thenReturn(doc);
         when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
         when(fileService.generatePresignedUrl(any())).thenReturn("http://presigned");
-        when(ocrClient.extractBlocks(any(), any())).thenThrow(new RuntimeException("OCR failed"));
+        doThrow(new RuntimeException("OCR failed")).when(ocrClient).streamBlocks(any(), any(), any());
 
         ocrAsyncRunner.runSingleDocument(jobId, docId, userId);
 
         assertThat(job.getStatus()).isEqualTo(OcrJobStatus.FAILED);
         assertThat(job.getErrorCount()).isEqualTo(1);
     }
+
+    @Test
+    void runSingleDocument_updatesProgressPerPage() {
+        UUID jobId = UUID.randomUUID();
+        UUID docId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+        OcrJob job = OcrJob.builder().id(jobId).totalDocuments(1).status(OcrJobStatus.PENDING).build();
+        OcrJobDocument jobDoc = OcrJobDocument.builder().id(UUID.randomUUID())
+                .jobId(jobId).documentId(docId).status(OcrDocumentStatus.PENDING).build();
+        Document doc = Document.builder().id(docId).filePath("test.pdf")
+                .fileHash("hash").scriptType(ScriptType.TYPEWRITER).build();
+        DocumentAnnotation ann = DocumentAnnotation.builder().id(UUID.randomUUID()).build();
+
+        when(ocrJobRepository.findById(jobId)).thenReturn(Optional.of(job));
+        when(ocrJobRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+        when(ocrJobDocumentRepository.findByJobIdAndDocumentId(jobId, docId))
+                .thenReturn(Optional.of(jobDoc));
+        when(ocrJobDocumentRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+        when(documentService.getDocumentById(docId)).thenReturn(doc);
+        when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
+        when(fileService.generatePresignedUrl(any())).thenReturn("http://presigned");
+        when(annotationService.createOcrAnnotation(any(), any(), any(), any(), any())).thenReturn(ann);
+
+        List<String> progressMessages = new ArrayList<>();
+        doAnswer(inv -> {
+            Consumer<OcrStreamEvent> handler = inv.getArgument(2);
+            handler.accept(new OcrStreamEvent.Start(3));
+            handler.accept(new OcrStreamEvent.Page(0, List.of(
+                    new OcrBlockResult(0, 0.1, 0.1, 0.8, 0.04, null, "L1"),
+                    new OcrBlockResult(0, 0.1, 0.2, 0.8, 0.04, null, "L2"))));
+            progressMessages.add(job.getProgressMessage());
+            handler.accept(new OcrStreamEvent.Page(1, List.of(
+                    new OcrBlockResult(1, 0.1, 0.1, 0.8, 0.04, null, "L3"))));
+            progressMessages.add(job.getProgressMessage());
+            handler.accept(new OcrStreamEvent.Done(3, 0));
+            return null;
+        }).when(ocrClient).streamBlocks(any(), any(), any());
+
+        ocrAsyncRunner.runSingleDocument(jobId, docId, userId);
+
+        assertThat(progressMessages.get(0)).isEqualTo("ANALYZING_PAGE:1:3:2");
+        assertThat(progressMessages.get(1)).isEqualTo("ANALYZING_PAGE:2:3:3");
+        assertThat(job.getProgressMessage()).isEqualTo("DONE:3:0");
+    }
+
+    @Test
+    void runSingleDocument_includesSkippedPagesInDoneMessage() {
+        UUID jobId = UUID.randomUUID();
+        UUID docId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+        OcrJob job = OcrJob.builder().id(jobId).totalDocuments(1).status(OcrJobStatus.PENDING).build();
+        OcrJobDocument jobDoc = OcrJobDocument.builder().id(UUID.randomUUID())
+                .jobId(jobId).documentId(docId).status(OcrDocumentStatus.PENDING).build();
+        Document doc = Document.builder().id(docId).filePath("test.pdf")
+                .fileHash("hash").scriptType(ScriptType.TYPEWRITER).build();
+
+        when(ocrJobRepository.findById(jobId)).thenReturn(Optional.of(job));
+        when(ocrJobRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+        when(ocrJobDocumentRepository.findByJobIdAndDocumentId(jobId, docId))
+                .thenReturn(Optional.of(jobDoc));
+        when(ocrJobDocumentRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+        when(documentService.getDocumentById(docId)).thenReturn(doc);
+        when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
+        when(fileService.generatePresignedUrl(any())).thenReturn("http://presigned");
+
+        doAnswer(inv -> {
+            Consumer<OcrStreamEvent> handler = inv.getArgument(2);
+            handler.accept(new OcrStreamEvent.Start(3));
+            handler.accept(new OcrStreamEvent.Page(0, List.of()));
+            handler.accept(new OcrStreamEvent.Error(1, "failed"));
+            handler.accept(new OcrStreamEvent.Page(2, List.of()));
+            handler.accept(new OcrStreamEvent.Done(0, 1));
+            return null;
+        }).when(ocrClient).streamBlocks(any(), any(), any());
+
+        ocrAsyncRunner.runSingleDocument(jobId, docId, userId);
+
+        assertThat(job.getStatus()).isEqualTo(OcrJobStatus.DONE);
+        assertThat(job.getProgressMessage()).isEqualTo("DONE:0:1");
+    }
+
+    @Test
+    void runSingleDocument_logsStreamErrorAtWarnWithoutSettingJobFailed() {
+        UUID jobId = UUID.randomUUID();
+        UUID docId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+        OcrJob job = OcrJob.builder().id(jobId).totalDocuments(1).status(OcrJobStatus.PENDING).build();
+        OcrJobDocument jobDoc = OcrJobDocument.builder().id(UUID.randomUUID())
+                .jobId(jobId).documentId(docId).status(OcrDocumentStatus.PENDING).build();
+        Document doc = Document.builder().id(docId).filePath("test.pdf")
+                .fileHash("hash").scriptType(ScriptType.TYPEWRITER).build();
+
+        when(ocrJobRepository.findById(jobId)).thenReturn(Optional.of(job));
+        when(ocrJobRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+        when(ocrJobDocumentRepository.findByJobIdAndDocumentId(jobId, docId))
+                .thenReturn(Optional.of(jobDoc));
+        when(ocrJobDocumentRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
+        when(documentService.getDocumentById(docId)).thenReturn(doc);
+        when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
+        when(fileService.generatePresignedUrl(any())).thenReturn("http://presigned");
+
+        doAnswer(inv -> {
+            Consumer<OcrStreamEvent> handler = inv.getArgument(2);
+            handler.accept(new OcrStreamEvent.Start(2));
+            handler.accept(new OcrStreamEvent.Error(0, "some python traceback details"));
+            handler.accept(new OcrStreamEvent.Page(1, List.of()));
+            handler.accept(new OcrStreamEvent.Done(0, 1));
+            return null;
+        }).when(ocrClient).streamBlocks(any(), any(), any());
+
+        ocrAsyncRunner.runSingleDocument(jobId, docId, userId);
+
+        // Job should still be DONE, not FAILED (per-page errors don't fail the whole job)
+        assertThat(job.getStatus()).isEqualTo(OcrJobStatus.DONE);
+        // Raw error message should not leak to progress
+        assertThat(job.getProgressMessage()).doesNotContain("python traceback");
+    }
 }
-- 
2.49.1


From ddec64fc798bf6357e398f59326acb064424eae4 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 10:09:29 +0200
Subject: [PATCH 54/74] feat(ocr): extract translateOcrProgress with
 ANALYZING_PAGE and DONE:skipped support

Move translateOcrProgress from page.svelte to a testable module.
Return structured result with currentPage/totalPages/skippedPages
for the progress bar. Add ANALYZING_PAGE and DONE with skipped pages
parsing. Add i18n keys for de/en/es.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 frontend/messages/de.json                     |  2 +
 frontend/messages/en.json                     |  2 +
 frontend/messages/es.json                     |  2 +
 .../src/lib/ocr/translateOcrProgress.spec.ts  | 78 +++++++++++++++++++
 frontend/src/lib/ocr/translateOcrProgress.ts  | 56 +++++++++++++
 5 files changed, 140 insertions(+)
 create mode 100644 frontend/src/lib/ocr/translateOcrProgress.spec.ts
 create mode 100644 frontend/src/lib/ocr/translateOcrProgress.ts

diff --git a/frontend/messages/de.json b/frontend/messages/de.json
index a4221f78..683c1b3a 100644
--- a/frontend/messages/de.json
+++ b/frontend/messages/de.json
@@ -526,6 +526,8 @@
 	"ocr_status_analyzing": "OCR-Analyse läuft — dies kann einige Minuten dauern…",
 	"ocr_status_creating_blocks": "{count} Textblöcke erkannt — erstelle Transkription…",
 	"ocr_status_done_blocks": "{count} Blöcke erstellt",
+	"ocr_status_analyzing_page": "Seite {current} von {total} wird analysiert…",
+	"ocr_status_done_skipped": "{count} Blöcke erstellt, {skipped} Seite(n) übersprungen",
 	"ocr_status_error": "OCR fehlgeschlagen",
 	"transcription_block_review": "Als geprüft markieren",
 	"transcription_block_unreview": "Markierung aufheben",
diff --git a/frontend/messages/en.json b/frontend/messages/en.json
index e9546eae..c61bc728 100644
--- a/frontend/messages/en.json
+++ b/frontend/messages/en.json
@@ -526,6 +526,8 @@
 	"ocr_status_analyzing": "OCR analysis running — this may take a few minutes…",
 	"ocr_status_creating_blocks": "{count} text blocks detected — creating transcription…",
 	"ocr_status_done_blocks": "{count} blocks created",
+	"ocr_status_analyzing_page": "Analyzing page {current} of {total}…",
+	"ocr_status_done_skipped": "{count} blocks created, {skipped} page(s) skipped",
 	"ocr_status_error": "OCR failed",
 	"transcription_block_review": "Mark as reviewed",
 	"transcription_block_unreview": "Unmark as reviewed",
diff --git a/frontend/messages/es.json b/frontend/messages/es.json
index ce03d8eb..6dcf5a25 100644
--- a/frontend/messages/es.json
+++ b/frontend/messages/es.json
@@ -526,6 +526,8 @@
 	"ocr_status_analyzing": "Análisis OCR en curso — esto puede tardar unos minutos…",
 	"ocr_status_creating_blocks": "{count} bloques de texto detectados — creando transcripción…",
 	"ocr_status_done_blocks": "{count} bloques creados",
+	"ocr_status_analyzing_page": "Analizando página {current} de {total}…",
+	"ocr_status_done_skipped": "{count} bloques creados, {skipped} página(s) omitida(s)",
 	"ocr_status_error": "OCR fallido",
 	"transcription_block_review": "Marcar como revisado",
 	"transcription_block_unreview": "Desmarcar como revisado",
diff --git a/frontend/src/lib/ocr/translateOcrProgress.spec.ts b/frontend/src/lib/ocr/translateOcrProgress.spec.ts
new file mode 100644
index 00000000..62df0dd6
--- /dev/null
+++ b/frontend/src/lib/ocr/translateOcrProgress.spec.ts
@@ -0,0 +1,78 @@
+import { describe, it, expect, vi } from 'vitest';
+
+vi.mock('$lib/paraglide/messages.js', () => ({
+	m: {
+		ocr_progress_heading: () => 'OCR-Analyse',
+		ocr_status_preparing: () => 'Dokument wird vorbereitet…',
+		ocr_status_loading: () => 'Lade Modell und Dokument…',
+		ocr_status_analyzing: () => 'OCR-Analyse läuft…',
+		ocr_status_creating_blocks: ({ count }: { count: string }) => `${count} Textblöcke erkannt`,
+		ocr_status_done_blocks: ({ count }: { count: string }) => `${count} Blöcke erstellt`,
+		ocr_status_done_skipped: ({ count, skipped }: { count: string; skipped: string }) =>
+			`${count} Blöcke erstellt, ${skipped} Seite(n) übersprungen`,
+		ocr_status_analyzing_page: ({ current, total }: { current: string; total: string }) =>
+			`Seite ${current} von ${total} wird analysiert…`,
+		ocr_status_error: () => 'OCR fehlgeschlagen'
+	}
+}));
+
+import { translateOcrProgress } from './translateOcrProgress';
+
+describe('translateOcrProgress', () => {
+	it('returns heading for empty code', () => {
+		const result = translateOcrProgress('');
+		expect(result.message).toBe('OCR-Analyse');
+	});
+
+	it('translates PREPARING', () => {
+		const result = translateOcrProgress('PREPARING');
+		expect(result.message).toBe('Dokument wird vorbereitet…');
+		expect(result.currentPage).toBeUndefined();
+		expect(result.totalPages).toBeUndefined();
+	});
+
+	it('translates LOADING', () => {
+		expect(translateOcrProgress('LOADING').message).toBe('Lade Modell und Dokument…');
+	});
+
+	it('translates ANALYZING', () => {
+		expect(translateOcrProgress('ANALYZING').message).toBe('OCR-Analyse läuft…');
+	});
+
+	it('translates CREATING_BLOCKS with count', () => {
+		expect(translateOcrProgress('CREATING_BLOCKS:42').message).toBe('42 Textblöcke erkannt');
+	});
+
+	it('translates DONE without skipped pages', () => {
+		const result = translateOcrProgress('DONE:15');
+		expect(result.message).toBe('15 Blöcke erstellt');
+		expect(result.skippedPages).toBeUndefined();
+	});
+
+	it('translates DONE with zero skipped', () => {
+		const result = translateOcrProgress('DONE:15:0');
+		expect(result.message).toBe('15 Blöcke erstellt');
+		expect(result.skippedPages).toBeUndefined();
+	});
+
+	it('translates DONE with skipped pages', () => {
+		const result = translateOcrProgress('DONE:12:2');
+		expect(result.message).toBe('12 Blöcke erstellt, 2 Seite(n) übersprungen');
+		expect(result.skippedPages).toBe(2);
+	});
+
+	it('translates ANALYZING_PAGE with current, total, and blocks', () => {
+		const result = translateOcrProgress('ANALYZING_PAGE:2:5:10');
+		expect(result.message).toBe('Seite 2 von 5 wird analysiert…');
+		expect(result.currentPage).toBe(2);
+		expect(result.totalPages).toBe(5);
+	});
+
+	it('translates ERROR', () => {
+		expect(translateOcrProgress('ERROR').message).toBe('OCR fehlgeschlagen');
+	});
+
+	it('returns raw code for unknown codes', () => {
+		expect(translateOcrProgress('UNKNOWN_CODE').message).toBe('UNKNOWN_CODE');
+	});
+});
diff --git a/frontend/src/lib/ocr/translateOcrProgress.ts b/frontend/src/lib/ocr/translateOcrProgress.ts
new file mode 100644
index 00000000..370bb9c8
--- /dev/null
+++ b/frontend/src/lib/ocr/translateOcrProgress.ts
@@ -0,0 +1,56 @@
+import { m } from '$lib/paraglide/messages.js';
+
+export interface OcrProgressResult {
+	message: string;
+	currentPage?: number;
+	totalPages?: number;
+	skippedPages?: number;
+}
+
+export function translateOcrProgress(code: string): OcrProgressResult {
+	if (!code) return { message: m.ocr_progress_heading() };
+
+	const parts = code.split(':');
+	const key = parts[0];
+
+	switch (key) {
+		case 'PREPARING':
+			return { message: m.ocr_status_preparing() };
+		case 'LOADING':
+			return { message: m.ocr_status_loading() };
+		case 'ANALYZING':
+			return { message: m.ocr_status_analyzing() };
+		case 'CREATING_BLOCKS':
+			return { message: m.ocr_status_creating_blocks({ count: parts[1] ?? '0' }) };
+		case 'DONE': {
+			const count = parts[1] ?? '0';
+			const skipped = parts[2] ? parseInt(parts[2], 10) : 0;
+			if (skipped > 0) {
+				return {
+					message: m.ocr_status_done_skipped({
+						count,
+						skipped: String(skipped)
+					}),
+					skippedPages: skipped
+				};
+			}
+			return { message: m.ocr_status_done_blocks({ count }) };
+		}
+		case 'ANALYZING_PAGE': {
+			const current = parseInt(parts[1] ?? '0', 10);
+			const total = parseInt(parts[2] ?? '0', 10);
+			return {
+				message: m.ocr_status_analyzing_page({
+					current: String(current),
+					total: String(total)
+				}),
+				currentPage: current,
+				totalPages: total
+			};
+		}
+		case 'ERROR':
+			return { message: m.ocr_status_error() };
+		default:
+			return { message: code };
+	}
+}
-- 
2.49.1


From 035f9768bd3edd11c1f38014bc0799031b59c5db Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 10:13:57 +0200
Subject: [PATCH 55/74] feat(ocr): add OcrProgressBar component with page-based
 ARIA semantics

Progress bar shows brand-mint fill on brand-sand background with
smooth transition. Displays page counter with tabular-nums and
skipped-pages warning in amber when applicable. Only renders when
totalPages > 0.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 .../src/lib/components/OcrProgressBar.svelte  | 39 +++++++++++++++++
 .../components/OcrProgressBar.svelte.spec.ts  | 43 +++++++++++++++++++
 2 files changed, 82 insertions(+)
 create mode 100644 frontend/src/lib/components/OcrProgressBar.svelte
 create mode 100644 frontend/src/lib/components/OcrProgressBar.svelte.spec.ts

diff --git a/frontend/src/lib/components/OcrProgressBar.svelte b/frontend/src/lib/components/OcrProgressBar.svelte
new file mode 100644
index 00000000..2713b3c3
--- /dev/null
+++ b/frontend/src/lib/components/OcrProgressBar.svelte
@@ -0,0 +1,39 @@
+<script lang="ts">
+let {
+	currentPage,
+	totalPages,
+	skippedPages = 0
+}: {
+	currentPage: number;
+	totalPages: number;
+	skippedPages?: number;
+} = $props();
+
+let percentage = $derived((currentPage / totalPages) * 100);
+</script>
+
+{#if totalPages > 0}
+	<div class="flex flex-col items-center">
+		<div
+			class="bg-brand-sand mx-auto mt-4 h-2 w-full max-w-xs rounded-full"
+			role="progressbar"
+			aria-valuenow={currentPage}
+			aria-valuemax={totalPages}
+			aria-label="OCR progress"
+		>
+			<div
+				class="h-full rounded-full bg-brand-mint transition-all duration-500"
+				data-testid="progress-fill"
+				style="width: {percentage}%"
+			></div>
+		</div>
+		<span class="mt-1 text-xs text-gray-400 tabular-nums">
+			{currentPage} / {totalPages}
+		</span>
+		{#if skippedPages > 0}
+			<span class="mt-1 text-xs text-amber-600" data-testid="skipped-warning">
+				{skippedPages} Seiten übersprungen
+			</span>
+		{/if}
+	</div>
+{/if}
diff --git a/frontend/src/lib/components/OcrProgressBar.svelte.spec.ts b/frontend/src/lib/components/OcrProgressBar.svelte.spec.ts
new file mode 100644
index 00000000..795850e1
--- /dev/null
+++ b/frontend/src/lib/components/OcrProgressBar.svelte.spec.ts
@@ -0,0 +1,43 @@
+import { describe, it, expect, afterEach } from 'vitest';
+import { cleanup, render } from 'vitest-browser-svelte';
+import { page } from 'vitest/browser';
+import OcrProgressBar from './OcrProgressBar.svelte';
+
+afterEach(cleanup);
+
+describe('OcrProgressBar', () => {
+	it('renders progress bar with correct ARIA attributes', async () => {
+		render(OcrProgressBar, { currentPage: 2, totalPages: 5 });
+		const bar = page.getByRole('progressbar');
+		await expect.element(bar).toHaveAttribute('aria-valuenow', '2');
+		await expect.element(bar).toHaveAttribute('aria-valuemax', '5');
+	});
+
+	it('hides progress bar when totalPages is zero', async () => {
+		render(OcrProgressBar, { currentPage: 0, totalPages: 0 });
+		await expect.element(page.getByRole('progressbar')).not.toBeInTheDocument();
+	});
+
+	it('fills to 100 percent when current equals total', async () => {
+		render(OcrProgressBar, { currentPage: 5, totalPages: 5 });
+		const fill = page.getByTestId('progress-fill');
+		await expect.element(fill).toBeInTheDocument();
+		const el = fill.element() as HTMLElement;
+		expect(el.style.width).toBe('100%');
+	});
+
+	it('shows page counter text', async () => {
+		render(OcrProgressBar, { currentPage: 3, totalPages: 7 });
+		await expect.element(page.getByText('3 / 7')).toBeInTheDocument();
+	});
+
+	it('shows skipped pages warning when skippedPages > 0', async () => {
+		render(OcrProgressBar, { currentPage: 5, totalPages: 5, skippedPages: 2 });
+		await expect.element(page.getByTestId('skipped-warning')).toBeInTheDocument();
+	});
+
+	it('does not show warning when skippedPages is 0', async () => {
+		render(OcrProgressBar, { currentPage: 3, totalPages: 5, skippedPages: 0 });
+		await expect.element(page.getByTestId('skipped-warning')).not.toBeInTheDocument();
+	});
+});
-- 
2.49.1


From bac67706b9ac56bd812c3acf6f8f63591f92afe5 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 10:15:55 +0200
Subject: [PATCH 56/74] feat(ocr): integrate progress bar and streaming
 progress into document page

Replace inline translateOcrProgress with the extracted module. Add
OcrProgressBar below the spinner during OCR. Parse page numbers from
ANALYZING_PAGE progress codes and feed them to the bar. On Done, fill
bar to 100% briefly before clearing the overlay.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 .../src/routes/documents/[id]/+page.svelte    | 50 +++++++++----------
 1 file changed, 25 insertions(+), 25 deletions(-)

diff --git a/frontend/src/routes/documents/[id]/+page.svelte b/frontend/src/routes/documents/[id]/+page.svelte
index 5a524328..067b494c 100644
--- a/frontend/src/routes/documents/[id]/+page.svelte
+++ b/frontend/src/routes/documents/[id]/+page.svelte
@@ -8,6 +8,8 @@ import TranscriptionReadView from '$lib/components/TranscriptionReadView.svelte'
 import TranscriptionPanelHeader from '$lib/components/TranscriptionPanelHeader.svelte';
 import type { TranscriptionBlockData } from '$lib/types';
 import { getErrorMessage } from '$lib/errors';
+import { translateOcrProgress } from '$lib/ocr/translateOcrProgress';
+import OcrProgressBar from '$lib/components/OcrProgressBar.svelte';
 
 let { data } = $props();
 
@@ -132,27 +134,9 @@ let ocrRunning = $state(false);
 let ocrProgressMessage = $state('');
 let ocrErrorMessage = $state('');
 let ocrPollTimer = $state<ReturnType<typeof setInterval> | null>(null);
-
-function translateOcrProgress(code: string): string {
-	if (!code) return m.ocr_progress_heading();
-	const [key, param] = code.split(':');
-	switch (key) {
-		case 'PREPARING':
-			return m.ocr_status_preparing();
-		case 'LOADING':
-			return m.ocr_status_loading();
-		case 'ANALYZING':
-			return m.ocr_status_analyzing();
-		case 'CREATING_BLOCKS':
-			return m.ocr_status_creating_blocks({ count: param ?? '0' });
-		case 'DONE':
-			return m.ocr_status_done_blocks({ count: param ?? '0' });
-		case 'ERROR':
-			return m.ocr_status_error();
-		default:
-			return code;
-	}
-}
+let ocrCurrentPage = $state(0);
+let ocrTotalPages = $state(0);
+let ocrSkippedPages = $state(0);
 
 async function triggerOcr(scriptType: string) {
 	ocrRunning = true;
@@ -186,12 +170,23 @@ function pollOcrJob(jobId: string) {
 			const res = await fetch(`/api/ocr/jobs/${jobId}`);
 			if (!res.ok) return;
 			const job = await res.json();
-			ocrProgressMessage = job.progressMessage ?? '';
+			const rawCode = job.progressMessage ?? '';
+			const progress = translateOcrProgress(rawCode);
+			ocrProgressMessage = progress.message;
+			if (progress.currentPage !== undefined) ocrCurrentPage = progress.currentPage;
+			if (progress.totalPages !== undefined) ocrTotalPages = progress.totalPages;
+			if (progress.skippedPages !== undefined) ocrSkippedPages = progress.skippedPages;
 			if (job.status === 'DONE' || job.status === 'FAILED') {
+				ocrCurrentPage = ocrTotalPages;
 				if (ocrPollTimer) clearInterval(ocrPollTimer);
 				ocrPollTimer = null;
-				ocrRunning = false;
-				ocrProgressMessage = '';
+				setTimeout(() => {
+					ocrRunning = false;
+					ocrProgressMessage = '';
+					ocrCurrentPage = 0;
+					ocrTotalPages = 0;
+					ocrSkippedPages = 0;
+				}, 1000);
 				if (job.status === 'FAILED') {
 					ocrErrorMessage = m.ocr_status_error();
 				}
@@ -439,8 +434,13 @@ onMount(() => {
 								{m.ocr_progress_heading()}
 							</p>
 							<p class="mt-2 text-sm text-ink-2">
-								{translateOcrProgress(ocrProgressMessage)}
+								{ocrProgressMessage}
 							</p>
+							<OcrProgressBar
+								currentPage={ocrCurrentPage}
+								totalPages={ocrTotalPages}
+								skippedPages={ocrSkippedPages}
+							/>
 						</div>
 					{:else if panelMode === 'read'}
 						<TranscriptionReadView
-- 
2.49.1


From 97e5138934796112e2fa5a47414946438cd715e9 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 10:32:08 +0200
Subject: [PATCH 57/74] fix(ocr): use 1-based page numbers to match frontend
 PDF viewer

The PDF viewer uses 1-based currentPage (starting at 1) but the OCR
engines produced 0-based pageNumber from enumerate(). Annotations
created by OCR were assigned to page 0, which doesn't exist in the
viewer. Change enumerate() to start=1 in both engines and the
streaming endpoint.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 ocr-service/engines/kraken.py |  2 +-
 ocr-service/engines/surya.py  |  2 +-
 ocr-service/main.py           |  2 +-
 ocr-service/test_engines.py   |  8 ++++----
 ocr-service/test_stream.py    | 16 ++++++++--------
 5 files changed, 15 insertions(+), 15 deletions(-)

diff --git a/ocr-service/engines/kraken.py b/ocr-service/engines/kraken.py
index b2b75787..ce994dd7 100644
--- a/ocr-service/engines/kraken.py
+++ b/ocr-service/engines/kraken.py
@@ -88,7 +88,7 @@ def extract_blocks(images: list, language: str = "de") -> list[dict]:
     """
     all_blocks = []
 
-    for page_idx, image in enumerate(images):
+    for page_idx, image in enumerate(images, start=1):
         all_blocks.extend(extract_page_blocks(image, page_idx, language))
 
     return all_blocks
diff --git a/ocr-service/engines/surya.py b/ocr-service/engines/surya.py
index a82968ce..a0907cb6 100644
--- a/ocr-service/engines/surya.py
+++ b/ocr-service/engines/surya.py
@@ -90,7 +90,7 @@ def extract_blocks(images: list, language: str = "de") -> list[dict]:
     """
     all_blocks = []
 
-    for page_idx, image in enumerate(images):
+    for page_idx, image in enumerate(images, start=1):
         all_blocks.extend(extract_page_blocks(image, page_idx, language))
         del image
 
diff --git a/ocr-service/main.py b/ocr-service/main.py
index 2b0f7785..66cb01dc 100644
--- a/ocr-service/main.py
+++ b/ocr-service/main.py
@@ -108,7 +108,7 @@ async def run_ocr_stream(request: OcrRequest):
         total_blocks = 0
         skipped_pages = 0
 
-        for page_idx, image in enumerate(images):
+        for page_idx, image in enumerate(images, start=1):
             try:
                 engine = kraken_engine if use_kraken else surya_engine
                 blocks = await asyncio.to_thread(
diff --git a/ocr-service/test_engines.py b/ocr-service/test_engines.py
index a6966bd8..8218978e 100644
--- a/ocr-service/test_engines.py
+++ b/ocr-service/test_engines.py
@@ -61,8 +61,8 @@ def test_surya_extract_blocks_delegates_to_extract_page_blocks():
         blocks = surya.extract_blocks([image1, image2])
 
     assert len(blocks) == 2
-    assert blocks[0]["pageNumber"] == 0
-    assert blocks[1]["pageNumber"] == 1
+    assert blocks[0]["pageNumber"] == 1
+    assert blocks[1]["pageNumber"] == 2
 
 
 # ─── Kraken extract_page_blocks ──────────────────────────────────────────────
@@ -128,5 +128,5 @@ def test_kraken_extract_blocks_delegates_to_extract_page_blocks():
     blocks = _run_kraken_with_mocks(kraken.extract_blocks, [image1, image2])
 
     assert len(blocks) == 2
-    assert blocks[0]["pageNumber"] == 0
-    assert blocks[1]["pageNumber"] == 1
+    assert blocks[0]["pageNumber"] == 1
+    assert blocks[1]["pageNumber"] == 2
diff --git a/ocr-service/test_stream.py b/ocr-service/test_stream.py
index 13d41644..8b070430 100644
--- a/ocr-service/test_stream.py
+++ b/ocr-service/test_stream.py
@@ -68,9 +68,9 @@ async def test_ocr_stream_emits_page_event_per_page_with_blocks(mock_images):
         lines = [json.loads(line) for line in response.text.strip().split("\n") if line.strip()]
         page_events = [l for l in lines if l["type"] == "page"]
         assert len(page_events) == 3
-        assert page_events[0]["pageNumber"] == 0
-        assert page_events[1]["pageNumber"] == 1
-        assert page_events[2]["pageNumber"] == 2
+        assert page_events[0]["pageNumber"] == 1
+        assert page_events[1]["pageNumber"] == 2
+        assert page_events[2]["pageNumber"] == 3
         assert len(page_events[0]["blocks"]) == 1
 
 
@@ -109,8 +109,8 @@ async def test_ocr_stream_emits_error_event_on_page_failure_and_continues(mock_i
     def page_blocks(image, page_idx, language="de"):
         nonlocal call_count
         call_count += 1
-        if page_idx == 1:
-            raise RuntimeError("Engine crashed on page 1")
+        if page_idx == 2:
+            raise RuntimeError("Engine crashed on page 2")
         return [_make_block(page_idx)]
 
     with patch("main._download_and_convert_pdf", new_callable=AsyncMock, return_value=mock_images), \
@@ -128,7 +128,7 @@ async def test_ocr_stream_emits_error_event_on_page_failure_and_continues(mock_i
         types = [l["type"] for l in lines]
         assert "error" in types
         error_event = [l for l in lines if l["type"] == "error"][0]
-        assert error_event["pageNumber"] == 1
+        assert error_event["pageNumber"] == 2
         # Error message must be generic, not the raw traceback
         assert "Engine crashed" not in error_event["message"]
 
@@ -148,7 +148,7 @@ async def test_old_ocr_endpoint_still_returns_flat_list(mock_images):
     with patch("main._download_and_convert_pdf", new_callable=AsyncMock, return_value=mock_images), \
          patch("main._models_ready", True), \
          patch("main.surya_engine") as mock_surya:
-        mock_surya.extract_blocks.return_value = [_make_block(0), _make_block(1)]
+        mock_surya.extract_blocks.return_value = [_make_block(1), _make_block(2)]
 
         async with AsyncClient(transport=ASGITransport(app=app), base_url="http://test") as client:
             response = await client.post("/ocr", json={
@@ -160,4 +160,4 @@ async def test_old_ocr_endpoint_still_returns_flat_list(mock_images):
         data = response.json()
         assert isinstance(data, list)
         assert len(data) == 2
-        assert data[0]["pageNumber"] == 0
+        assert data[0]["pageNumber"] == 1
-- 
2.49.1


From 69768a104d2cfd683d4f155f43237980345d19c6 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 10:34:23 +0200
Subject: [PATCH 58/74] test(ocr): add business-logic tests for polygon
 extraction, Kraken routing, and confidence markers

Cover Surya polygon/word-level extraction, health endpoint states,
Kraken script-type routing, 503 when models not ready, 400 when
Kraken unavailable for Kurrent, and confidence marker application
during streaming. Production code coverage: 88%.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 ocr-service/test_engines.py |  46 +++++++++++++++
 ocr-service/test_stream.py  | 108 ++++++++++++++++++++++++++++++++++++
 2 files changed, 154 insertions(+)

diff --git a/ocr-service/test_engines.py b/ocr-service/test_engines.py
index 8218978e..a7ceba27 100644
--- a/ocr-service/test_engines.py
+++ b/ocr-service/test_engines.py
@@ -45,6 +45,52 @@ def test_surya_extract_page_blocks_returns_blocks_for_single_image():
     assert blocks[0]["height"] == 20 / 200
 
 
+def test_surya_extract_page_blocks_extracts_polygon_when_present():
+    image = Image.new("RGB", (100, 200))
+
+    mock_line = _make_surya_line("Text", [10, 20, 90, 40])
+    mock_line.polygon = [(10, 20), (90, 20), (90, 40), (10, 40)]
+
+    mock_pred = MagicMock()
+    mock_pred.text_lines = [mock_line]
+
+    with patch.object(surya, "_recognition_predictor") as mock_rec, \
+         patch.object(surya, "_loaded", True):
+        mock_rec.return_value = [mock_pred]
+
+        blocks = surya.extract_page_blocks(image, page_idx=1, language="de")
+
+    assert blocks[0]["polygon"] is not None
+    assert len(blocks[0]["polygon"]) == 4
+    assert blocks[0]["polygon"][0] == [10 / 100, 20 / 200]
+
+
+def test_surya_extract_page_blocks_extracts_word_level_confidence():
+    image = Image.new("RGB", (100, 200))
+
+    word1 = MagicMock()
+    word1.text = "Hallo"
+    word1.confidence = 0.95
+    word2 = MagicMock()
+    word2.text = "Welt"
+    word2.confidence = 0.3
+
+    mock_line = _make_surya_line("Hallo Welt", [10, 20, 90, 40], words=[word1, word2])
+
+    mock_pred = MagicMock()
+    mock_pred.text_lines = [mock_line]
+
+    with patch.object(surya, "_recognition_predictor") as mock_rec, \
+         patch.object(surya, "_loaded", True):
+        mock_rec.return_value = [mock_pred]
+
+        blocks = surya.extract_page_blocks(image, page_idx=1, language="de")
+
+    assert len(blocks[0]["words"]) == 2
+    assert blocks[0]["words"][0]["text"] == "Hallo"
+    assert blocks[0]["words"][0]["confidence"] == 0.95
+
+
 def test_surya_extract_blocks_delegates_to_extract_page_blocks():
     """After refactoring, extract_blocks should produce the same output."""
     image1 = Image.new("RGB", (100, 200))
diff --git a/ocr-service/test_stream.py b/ocr-service/test_stream.py
index 8b070430..5b9a9332 100644
--- a/ocr-service/test_stream.py
+++ b/ocr-service/test_stream.py
@@ -161,3 +161,111 @@ async def test_old_ocr_endpoint_still_returns_flat_list(mock_images):
         assert isinstance(data, list)
         assert len(data) == 2
         assert data[0]["pageNumber"] == 1
+
+
+# ─── Health and error handling ────────────────────────────────────────────────
+
+
+@pytest.mark.asyncio
+async def test_health_returns_ok_when_models_ready():
+    with patch("main._models_ready", True), \
+         patch("main.kraken_engine") as mock_kraken:
+        mock_kraken.is_available.return_value = True
+
+        async with AsyncClient(transport=ASGITransport(app=app), base_url="http://test") as client:
+            response = await client.get("/health")
+
+        assert response.status_code == 200
+        data = response.json()
+        assert data["status"] == "ok"
+        assert data["surya"] is True
+        assert data["kraken"] is True
+
+
+@pytest.mark.asyncio
+async def test_health_returns_503_when_models_not_ready():
+    with patch("main._models_ready", False):
+        async with AsyncClient(transport=ASGITransport(app=app), base_url="http://test") as client:
+            response = await client.get("/health")
+
+        assert response.status_code == 503
+
+
+@pytest.mark.asyncio
+async def test_ocr_stream_returns_503_when_models_not_ready():
+    with patch("main._models_ready", False):
+        async with AsyncClient(transport=ASGITransport(app=app), base_url="http://test") as client:
+            response = await client.post("/ocr/stream", json={
+                "pdfUrl": "http://minio/test.pdf",
+                "scriptType": "TYPEWRITER",
+            })
+
+        assert response.status_code == 503
+
+
+@pytest.mark.asyncio
+async def test_ocr_stream_uses_kraken_for_kurrent_script(mock_images):
+    with patch("main._download_and_convert_pdf", new_callable=AsyncMock, return_value=mock_images), \
+         patch("main._models_ready", True), \
+         patch("main.kraken_engine") as mock_kraken:
+        mock_kraken.is_available.return_value = True
+        mock_kraken.extract_page_blocks.return_value = [_make_block(1, "Kurrent text")]
+
+        async with AsyncClient(transport=ASGITransport(app=app), base_url="http://test") as client:
+            response = await client.post("/ocr/stream", json={
+                "pdfUrl": "http://minio/test.pdf",
+                "scriptType": "HANDWRITING_KURRENT",
+            })
+
+        lines = [json.loads(line) for line in response.text.strip().split("\n") if line.strip()]
+        page_events = [l for l in lines if l["type"] == "page"]
+        assert len(page_events) == 3
+        mock_kraken.extract_page_blocks.assert_called()
+
+
+@pytest.mark.asyncio
+async def test_ocr_stream_returns_400_when_kraken_unavailable_for_kurrent(mock_images):
+    with patch("main._download_and_convert_pdf", new_callable=AsyncMock, return_value=mock_images), \
+         patch("main._models_ready", True), \
+         patch("main.kraken_engine") as mock_kraken:
+        mock_kraken.is_available.return_value = False
+
+        async with AsyncClient(transport=ASGITransport(app=app), base_url="http://test") as client:
+            response = await client.post("/ocr/stream", json={
+                "pdfUrl": "http://minio/test.pdf",
+                "scriptType": "HANDWRITING_KURRENT",
+            })
+
+        assert response.status_code == 400
+
+
+@pytest.mark.asyncio
+async def test_ocr_stream_applies_confidence_markers(mock_images):
+    """Low-confidence words should be replaced with [unleserlich] in the stream output."""
+    def page_blocks(image, page_idx, language="de"):
+        return [{
+            "pageNumber": page_idx,
+            "x": 0.1, "y": 0.2, "width": 0.8, "height": 0.1,
+            "polygon": None,
+            "text": "original text",
+            "words": [
+                {"text": "Lieber", "confidence": 0.95},
+                {"text": "xkqz", "confidence": 0.1},
+            ],
+        }]
+
+    with patch("main._download_and_convert_pdf", new_callable=AsyncMock, return_value=mock_images[:1]), \
+         patch("main._models_ready", True), \
+         patch("main.surya_engine") as mock_surya:
+        mock_surya.extract_page_blocks.side_effect = page_blocks
+
+        async with AsyncClient(transport=ASGITransport(app=app), base_url="http://test") as client:
+            response = await client.post("/ocr/stream", json={
+                "pdfUrl": "http://minio/test.pdf",
+                "scriptType": "TYPEWRITER",
+            })
+
+    lines = [json.loads(line) for line in response.text.strip().split("\n") if line.strip()]
+    page = [l for l in lines if l["type"] == "page"][0]
+    assert page["blocks"][0]["text"] == "Lieber [unleserlich]"
+    assert "words" not in page["blocks"][0]
-- 
2.49.1


From 3fe6eedffbf921293176fa3dff20e0a4ee6b8ec3 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 10:37:51 +0200
Subject: [PATCH 59/74] feat(ocr): allow re-running OCR when transcription
 blocks already exist
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Add a collapsible OCR trigger below the block list in edit mode.
Uses a <details> element so it's unobtrusive — the primary workflow
is editing existing blocks, but users can expand to re-run OCR with
a confirmation dialog that warns about replacing existing blocks.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 frontend/messages/de.json                       |  1 +
 frontend/messages/en.json                       |  1 +
 frontend/messages/es.json                       |  1 +
 .../lib/components/TranscriptionEditView.svelte | 17 +++++++++++++++++
 4 files changed, 20 insertions(+)

diff --git a/frontend/messages/de.json b/frontend/messages/de.json
index 683c1b3a..2221634e 100644
--- a/frontend/messages/de.json
+++ b/frontend/messages/de.json
@@ -515,6 +515,7 @@
 	"ocr_confirm_title": "Vorhandene Transkription ersetzen?",
 	"ocr_confirm_body": "Alle {count} vorhandenen Blöcke werden gelöscht und durch die OCR-Ergebnisse ersetzt. Diese Aktion kann nicht rückgängig gemacht werden.",
 	"ocr_confirm_btn": "Ersetzen",
+	"ocr_rerun_label": "OCR erneut ausführen…",
 	"ocr_progress_heading": "OCR läuft",
 	"ocr_progress_page": "Seite {current} von {total}",
 	"ocr_error_heading": "OCR fehlgeschlagen",
diff --git a/frontend/messages/en.json b/frontend/messages/en.json
index c61bc728..8dcfb42e 100644
--- a/frontend/messages/en.json
+++ b/frontend/messages/en.json
@@ -515,6 +515,7 @@
 	"ocr_confirm_title": "Replace existing transcription?",
 	"ocr_confirm_body": "All {count} existing blocks will be deleted and replaced with OCR results. This action cannot be undone.",
 	"ocr_confirm_btn": "Replace",
+	"ocr_rerun_label": "Re-run OCR…",
 	"ocr_progress_heading": "OCR running",
 	"ocr_progress_page": "Page {current} of {total}",
 	"ocr_error_heading": "OCR failed",
diff --git a/frontend/messages/es.json b/frontend/messages/es.json
index 6dcf5a25..1737621b 100644
--- a/frontend/messages/es.json
+++ b/frontend/messages/es.json
@@ -515,6 +515,7 @@
 	"ocr_confirm_title": "¿Reemplazar transcripción existente?",
 	"ocr_confirm_body": "Los {count} bloques existentes serán eliminados y reemplazados con los resultados del OCR. Esta acción no se puede deshacer.",
 	"ocr_confirm_btn": "Reemplazar",
+	"ocr_rerun_label": "Ejecutar OCR de nuevo…",
 	"ocr_progress_heading": "OCR en curso",
 	"ocr_progress_page": "Página {current} de {total}",
 	"ocr_error_heading": "OCR fallido",
diff --git a/frontend/src/lib/components/TranscriptionEditView.svelte b/frontend/src/lib/components/TranscriptionEditView.svelte
index d1c74e29..a8f27ec3 100644
--- a/frontend/src/lib/components/TranscriptionEditView.svelte
+++ b/frontend/src/lib/components/TranscriptionEditView.svelte
@@ -318,6 +318,23 @@ $effect(() => {
 			>
 				{m.transcription_next_block_cta({ number: sortedBlocks.length + 1 })}
 			</div>
+
+			{#if canRunOcr && onTriggerOcr}
+				<details class="mt-6">
+					<summary
+						class="cursor-pointer font-sans text-xs font-medium text-ink-3 transition-colors hover:text-brand-navy"
+					>
+						{m.ocr_rerun_label()}
+					</summary>
+					<div class="mt-3 max-w-xs">
+						<OcrTrigger
+							existingBlockCount={blocks.length}
+							storedScriptType={storedScriptType}
+							onTrigger={onTriggerOcr}
+						/>
+					</div>
+				</details>
+			{/if}
 		</div>
 	{:else}
 		<div class="flex flex-1 flex-col items-center justify-center px-6 py-12 text-center">
-- 
2.49.1


From 84aca240ea726f3b5f35d58e01d8e6b1edc8de86 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 10:40:54 +0200
Subject: [PATCH 60/74] fix(ocr): remove misleading ANALYZING progress before
 streaming starts
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

The ANALYZING message appeared while the Python service was still
downloading the PDF and loading models. Remove it so the LOADING
message ("Lade Modell und Dokument…") stays visible until the first
ANALYZING_PAGE event arrives from the stream.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 .../java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java | 2 --
 1 file changed, 2 deletions(-)

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
index b3ab3bea..5dbe4c7d 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
@@ -54,8 +54,6 @@ public class OcrAsyncRunner {
             clearExistingBlocks(documentId);
             String pdfUrl = fileService.generatePresignedUrl(doc.getFilePath());
 
-            updateProgress(job, "ANALYZING");
-
             AtomicInteger blockCounter = new AtomicInteger(0);
             AtomicInteger currentPage = new AtomicInteger(0);
             AtomicInteger skippedPages = new AtomicInteger(0);
-- 
2.49.1


From b868da07cded48cc799f07ea71017f76e8c26d88 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 10:46:29 +0200
Subject: [PATCH 61/74] fix(ocr): remove progress bar, keep text-only page
 counter

The thin bar without a border looked broken at low progress values.
The text counter (e.g. "1 / 6") already communicates progress clearly
so the bar is unnecessary.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 .../src/lib/components/OcrProgressBar.svelte  | 25 ++++++-------------
 .../components/OcrProgressBar.svelte.spec.ts  | 12 ++-------
 2 files changed, 10 insertions(+), 27 deletions(-)

diff --git a/frontend/src/lib/components/OcrProgressBar.svelte b/frontend/src/lib/components/OcrProgressBar.svelte
index 2713b3c3..b1aeb7d4 100644
--- a/frontend/src/lib/components/OcrProgressBar.svelte
+++ b/frontend/src/lib/components/OcrProgressBar.svelte
@@ -8,26 +8,17 @@ let {
 	totalPages: number;
 	skippedPages?: number;
 } = $props();
-
-let percentage = $derived((currentPage / totalPages) * 100);
 </script>
 
 {#if totalPages > 0}
-	<div class="flex flex-col items-center">
-		<div
-			class="bg-brand-sand mx-auto mt-4 h-2 w-full max-w-xs rounded-full"
-			role="progressbar"
-			aria-valuenow={currentPage}
-			aria-valuemax={totalPages}
-			aria-label="OCR progress"
-		>
-			<div
-				class="h-full rounded-full bg-brand-mint transition-all duration-500"
-				data-testid="progress-fill"
-				style="width: {percentage}%"
-			></div>
-		</div>
-		<span class="mt-1 text-xs text-gray-400 tabular-nums">
+	<div
+		class="mt-2 flex flex-col items-center"
+		role="progressbar"
+		aria-valuenow={currentPage}
+		aria-valuemax={totalPages}
+		aria-label="OCR progress"
+	>
+		<span class="text-xs text-gray-400 tabular-nums">
 			{currentPage} / {totalPages}
 		</span>
 		{#if skippedPages > 0}
diff --git a/frontend/src/lib/components/OcrProgressBar.svelte.spec.ts b/frontend/src/lib/components/OcrProgressBar.svelte.spec.ts
index 795850e1..d20d9ea2 100644
--- a/frontend/src/lib/components/OcrProgressBar.svelte.spec.ts
+++ b/frontend/src/lib/components/OcrProgressBar.svelte.spec.ts
@@ -6,26 +6,18 @@ import OcrProgressBar from './OcrProgressBar.svelte';
 afterEach(cleanup);
 
 describe('OcrProgressBar', () => {
-	it('renders progress bar with correct ARIA attributes', async () => {
+	it('renders with correct ARIA attributes', async () => {
 		render(OcrProgressBar, { currentPage: 2, totalPages: 5 });
 		const bar = page.getByRole('progressbar');
 		await expect.element(bar).toHaveAttribute('aria-valuenow', '2');
 		await expect.element(bar).toHaveAttribute('aria-valuemax', '5');
 	});
 
-	it('hides progress bar when totalPages is zero', async () => {
+	it('hides when totalPages is zero', async () => {
 		render(OcrProgressBar, { currentPage: 0, totalPages: 0 });
 		await expect.element(page.getByRole('progressbar')).not.toBeInTheDocument();
 	});
 
-	it('fills to 100 percent when current equals total', async () => {
-		render(OcrProgressBar, { currentPage: 5, totalPages: 5 });
-		const fill = page.getByTestId('progress-fill');
-		await expect.element(fill).toBeInTheDocument();
-		const el = fill.element() as HTMLElement;
-		expect(el.style.width).toBe('100%');
-	});
-
 	it('shows page counter text', async () => {
 		render(OcrProgressBar, { currentPage: 3, totalPages: 7 });
 		await expect.element(page.getByText('3 / 7')).toBeInTheDocument();
-- 
2.49.1


From 6b94882409aedeade8cec6051a98586f35f688fc Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 10:50:05 +0200
Subject: [PATCH 62/74] fix(ocr): remove redundant page counter from progress
 display
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

The progress message already says "Seite 3 von 7 wird analysiert…"
so the separate "3 / 7" counter was redundant. Remove the
OcrProgressBar from the page and inline only the skipped-pages
warning.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 .../src/routes/documents/[id]/+page.svelte     | 18 +++++-------------
 1 file changed, 5 insertions(+), 13 deletions(-)

diff --git a/frontend/src/routes/documents/[id]/+page.svelte b/frontend/src/routes/documents/[id]/+page.svelte
index 067b494c..11b4f185 100644
--- a/frontend/src/routes/documents/[id]/+page.svelte
+++ b/frontend/src/routes/documents/[id]/+page.svelte
@@ -9,7 +9,6 @@ import TranscriptionPanelHeader from '$lib/components/TranscriptionPanelHeader.s
 import type { TranscriptionBlockData } from '$lib/types';
 import { getErrorMessage } from '$lib/errors';
 import { translateOcrProgress } from '$lib/ocr/translateOcrProgress';
-import OcrProgressBar from '$lib/components/OcrProgressBar.svelte';
 
 let { data } = $props();
 
@@ -134,8 +133,6 @@ let ocrRunning = $state(false);
 let ocrProgressMessage = $state('');
 let ocrErrorMessage = $state('');
 let ocrPollTimer = $state<ReturnType<typeof setInterval> | null>(null);
-let ocrCurrentPage = $state(0);
-let ocrTotalPages = $state(0);
 let ocrSkippedPages = $state(0);
 
 async function triggerOcr(scriptType: string) {
@@ -173,18 +170,13 @@ function pollOcrJob(jobId: string) {
 			const rawCode = job.progressMessage ?? '';
 			const progress = translateOcrProgress(rawCode);
 			ocrProgressMessage = progress.message;
-			if (progress.currentPage !== undefined) ocrCurrentPage = progress.currentPage;
-			if (progress.totalPages !== undefined) ocrTotalPages = progress.totalPages;
 			if (progress.skippedPages !== undefined) ocrSkippedPages = progress.skippedPages;
 			if (job.status === 'DONE' || job.status === 'FAILED') {
-				ocrCurrentPage = ocrTotalPages;
 				if (ocrPollTimer) clearInterval(ocrPollTimer);
 				ocrPollTimer = null;
 				setTimeout(() => {
 					ocrRunning = false;
 					ocrProgressMessage = '';
-					ocrCurrentPage = 0;
-					ocrTotalPages = 0;
 					ocrSkippedPages = 0;
 				}, 1000);
 				if (job.status === 'FAILED') {
@@ -436,11 +428,11 @@ onMount(() => {
 							<p class="mt-2 text-sm text-ink-2">
 								{ocrProgressMessage}
 							</p>
-							<OcrProgressBar
-								currentPage={ocrCurrentPage}
-								totalPages={ocrTotalPages}
-								skippedPages={ocrSkippedPages}
-							/>
+							{#if ocrSkippedPages > 0}
+								<p class="mt-1 text-xs text-amber-600">
+									{ocrSkippedPages} Seiten übersprungen
+								</p>
+							{/if}
 						</div>
 					{:else if panelMode === 'read'}
 						<TranscriptionReadView
-- 
2.49.1


From 410ef88e1ab43c1701ebe220d153c89b6c5d074c Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 10:53:10 +0200
Subject: [PATCH 63/74] refactor(ocr): delete unused OcrProgressBar component

The skipped-pages warning is inlined directly in +page.svelte.
The component and its tests are no longer needed.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 .../src/lib/components/OcrProgressBar.svelte  | 30 ----------------
 .../components/OcrProgressBar.svelte.spec.ts  | 35 -------------------
 2 files changed, 65 deletions(-)
 delete mode 100644 frontend/src/lib/components/OcrProgressBar.svelte
 delete mode 100644 frontend/src/lib/components/OcrProgressBar.svelte.spec.ts

diff --git a/frontend/src/lib/components/OcrProgressBar.svelte b/frontend/src/lib/components/OcrProgressBar.svelte
deleted file mode 100644
index b1aeb7d4..00000000
--- a/frontend/src/lib/components/OcrProgressBar.svelte
+++ /dev/null
@@ -1,30 +0,0 @@
-<script lang="ts">
-let {
-	currentPage,
-	totalPages,
-	skippedPages = 0
-}: {
-	currentPage: number;
-	totalPages: number;
-	skippedPages?: number;
-} = $props();
-</script>
-
-{#if totalPages > 0}
-	<div
-		class="mt-2 flex flex-col items-center"
-		role="progressbar"
-		aria-valuenow={currentPage}
-		aria-valuemax={totalPages}
-		aria-label="OCR progress"
-	>
-		<span class="text-xs text-gray-400 tabular-nums">
-			{currentPage} / {totalPages}
-		</span>
-		{#if skippedPages > 0}
-			<span class="mt-1 text-xs text-amber-600" data-testid="skipped-warning">
-				{skippedPages} Seiten übersprungen
-			</span>
-		{/if}
-	</div>
-{/if}
diff --git a/frontend/src/lib/components/OcrProgressBar.svelte.spec.ts b/frontend/src/lib/components/OcrProgressBar.svelte.spec.ts
deleted file mode 100644
index d20d9ea2..00000000
--- a/frontend/src/lib/components/OcrProgressBar.svelte.spec.ts
+++ /dev/null
@@ -1,35 +0,0 @@
-import { describe, it, expect, afterEach } from 'vitest';
-import { cleanup, render } from 'vitest-browser-svelte';
-import { page } from 'vitest/browser';
-import OcrProgressBar from './OcrProgressBar.svelte';
-
-afterEach(cleanup);
-
-describe('OcrProgressBar', () => {
-	it('renders with correct ARIA attributes', async () => {
-		render(OcrProgressBar, { currentPage: 2, totalPages: 5 });
-		const bar = page.getByRole('progressbar');
-		await expect.element(bar).toHaveAttribute('aria-valuenow', '2');
-		await expect.element(bar).toHaveAttribute('aria-valuemax', '5');
-	});
-
-	it('hides when totalPages is zero', async () => {
-		render(OcrProgressBar, { currentPage: 0, totalPages: 0 });
-		await expect.element(page.getByRole('progressbar')).not.toBeInTheDocument();
-	});
-
-	it('shows page counter text', async () => {
-		render(OcrProgressBar, { currentPage: 3, totalPages: 7 });
-		await expect.element(page.getByText('3 / 7')).toBeInTheDocument();
-	});
-
-	it('shows skipped pages warning when skippedPages > 0', async () => {
-		render(OcrProgressBar, { currentPage: 5, totalPages: 5, skippedPages: 2 });
-		await expect.element(page.getByTestId('skipped-warning')).toBeInTheDocument();
-	});
-
-	it('does not show warning when skippedPages is 0', async () => {
-		render(OcrProgressBar, { currentPage: 3, totalPages: 5, skippedPages: 0 });
-		await expect.element(page.getByTestId('skipped-warning')).not.toBeInTheDocument();
-	});
-});
-- 
2.49.1


From 2d43f091726dcfd746bc268f0511620d9dbe387a Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 12:26:14 +0200
Subject: [PATCH 64/74] refactor(ocr): move repository access from
 OcrController into OcrService
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

OcrController was injecting OcrJobRepository and OcrJobDocumentRepository
directly, violating the Controller → Service → Repository layering rule.
Moved getJob() and getDocumentOcrStatus() logic into OcrService.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 .../controller/OcrController.java             | 37 ++---------
 .../familienarchiv/service/OcrService.java    | 29 +++++++++
 .../controller/OcrControllerTest.java         | 15 ++---
 .../service/OcrServiceTest.java               | 65 +++++++++++++++++++
 4 files changed, 105 insertions(+), 41 deletions(-)

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/controller/OcrController.java b/backend/src/main/java/org/raddatz/familienarchiv/controller/OcrController.java
index bd1e41f9..ded4c760 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/controller/OcrController.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/controller/OcrController.java
@@ -5,11 +5,8 @@ import lombok.extern.slf4j.Slf4j;
 import org.raddatz.familienarchiv.dto.BatchOcrDTO;
 import org.raddatz.familienarchiv.dto.OcrStatusDTO;
 import org.raddatz.familienarchiv.dto.TriggerOcrDTO;
-import org.raddatz.familienarchiv.exception.DomainException;
-import org.raddatz.familienarchiv.exception.ErrorCode;
-import org.raddatz.familienarchiv.model.*;
-import org.raddatz.familienarchiv.repository.OcrJobDocumentRepository;
-import org.raddatz.familienarchiv.repository.OcrJobRepository;
+import org.raddatz.familienarchiv.model.AppUser;
+import org.raddatz.familienarchiv.model.OcrJob;
 import org.raddatz.familienarchiv.security.Permission;
 import org.raddatz.familienarchiv.security.RequirePermission;
 import org.raddatz.familienarchiv.service.OcrBatchService;
@@ -23,9 +20,7 @@ import org.springframework.web.bind.annotation.*;
 import org.springframework.web.servlet.mvc.method.annotation.SseEmitter;
 
 import jakarta.validation.Valid;
-import java.util.List;
 import java.util.Map;
-import java.util.Optional;
 import java.util.UUID;
 
 @RestController
@@ -36,8 +31,6 @@ public class OcrController {
     private final OcrService ocrService;
     private final OcrBatchService ocrBatchService;
     private final OcrProgressService ocrProgressService;
-    private final OcrJobRepository ocrJobRepository;
-    private final OcrJobDocumentRepository ocrJobDocumentRepository;
     private final UserService userService;
 
     @PostMapping("/api/documents/{documentId}/ocr")
@@ -66,40 +59,20 @@ public class OcrController {
     @GetMapping("/api/ocr/jobs/{jobId}")
     @RequirePermission(Permission.READ_ALL)
     public OcrJob getJobStatus(@PathVariable UUID jobId) {
-        return ocrJobRepository.findById(jobId)
-                .orElseThrow(() -> DomainException.notFound(
-                        ErrorCode.OCR_JOB_NOT_FOUND, "OCR job not found: " + jobId));
+        return ocrService.getJob(jobId);
     }
 
     @GetMapping(value = "/api/ocr/jobs/{jobId}/progress", produces = MediaType.TEXT_EVENT_STREAM_VALUE)
     @RequirePermission(Permission.READ_ALL)
     public SseEmitter streamProgress(@PathVariable UUID jobId) {
-        ocrJobRepository.findById(jobId)
-                .orElseThrow(() -> DomainException.notFound(
-                        ErrorCode.OCR_JOB_NOT_FOUND, "OCR job not found: " + jobId));
+        ocrService.getJob(jobId);
         return ocrProgressService.register(jobId);
     }
 
     @GetMapping("/api/documents/{documentId}/ocr-status")
     @RequirePermission(Permission.READ_ALL)
     public OcrStatusDTO getDocumentOcrStatus(@PathVariable UUID documentId) {
-        List<OcrDocumentStatus> activeStatuses = List.of(
-                OcrDocumentStatus.PENDING, OcrDocumentStatus.RUNNING);
-
-        Optional<OcrJobDocument> activeJobDoc = ocrJobDocumentRepository
-                .findFirstByDocumentIdAndStatusIn(documentId, activeStatuses);
-
-        if (activeJobDoc.isEmpty()) {
-            return OcrStatusDTO.builder().status("NONE").build();
-        }
-
-        OcrJobDocument jobDoc = activeJobDoc.get();
-        return OcrStatusDTO.builder()
-                .status(jobDoc.getStatus().name())
-                .jobId(jobDoc.getJobId())
-                .currentPage(jobDoc.getCurrentPage())
-                .totalPages(jobDoc.getTotalPages())
-                .build();
+        return ocrService.getDocumentOcrStatus(documentId);
     }
 
     private UUID resolveUserId(Authentication authentication) {
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
index 75ade1c7..38b783da 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
@@ -2,6 +2,7 @@ package org.raddatz.familienarchiv.service;
 
 import lombok.RequiredArgsConstructor;
 import lombok.extern.slf4j.Slf4j;
+import org.raddatz.familienarchiv.dto.OcrStatusDTO;
 import org.raddatz.familienarchiv.exception.DomainException;
 import org.raddatz.familienarchiv.exception.ErrorCode;
 import org.raddatz.familienarchiv.model.*;
@@ -9,6 +10,8 @@ import org.raddatz.familienarchiv.repository.OcrJobDocumentRepository;
 import org.raddatz.familienarchiv.repository.OcrJobRepository;
 import org.springframework.stereotype.Service;
 
+import java.util.List;
+import java.util.Optional;
 import java.util.UUID;
 
 @Service
@@ -22,6 +25,32 @@ public class OcrService {
     private final OcrJobDocumentRepository ocrJobDocumentRepository;
     private final OcrAsyncRunner ocrAsyncRunner;
 
+    public OcrJob getJob(UUID jobId) {
+        return ocrJobRepository.findById(jobId)
+                .orElseThrow(() -> DomainException.notFound(
+                        ErrorCode.OCR_JOB_NOT_FOUND, "OCR job not found: " + jobId));
+    }
+
+    public OcrStatusDTO getDocumentOcrStatus(UUID documentId) {
+        List<OcrDocumentStatus> activeStatuses = List.of(
+                OcrDocumentStatus.PENDING, OcrDocumentStatus.RUNNING);
+
+        Optional<OcrJobDocument> activeJobDoc = ocrJobDocumentRepository
+                .findFirstByDocumentIdAndStatusIn(documentId, activeStatuses);
+
+        if (activeJobDoc.isEmpty()) {
+            return OcrStatusDTO.builder().status("NONE").build();
+        }
+
+        OcrJobDocument jobDoc = activeJobDoc.get();
+        return OcrStatusDTO.builder()
+                .status(jobDoc.getStatus().name())
+                .jobId(jobDoc.getJobId())
+                .currentPage(jobDoc.getCurrentPage())
+                .totalPages(jobDoc.getTotalPages())
+                .build();
+    }
+
     public UUID startOcr(UUID documentId, ScriptType scriptTypeOverride, UUID userId) {
         Document doc = documentService.getDocumentById(documentId);
 
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/controller/OcrControllerTest.java b/backend/src/test/java/org/raddatz/familienarchiv/controller/OcrControllerTest.java
index aef427ef..a7d6d5cf 100644
--- a/backend/src/test/java/org/raddatz/familienarchiv/controller/OcrControllerTest.java
+++ b/backend/src/test/java/org/raddatz/familienarchiv/controller/OcrControllerTest.java
@@ -4,12 +4,11 @@ import tools.jackson.databind.ObjectMapper;
 import org.junit.jupiter.api.Test;
 import org.raddatz.familienarchiv.config.SecurityConfig;
 import org.raddatz.familienarchiv.dto.BatchOcrDTO;
+import org.raddatz.familienarchiv.dto.OcrStatusDTO;
 import org.raddatz.familienarchiv.dto.TriggerOcrDTO;
 import org.raddatz.familienarchiv.exception.DomainException;
 import org.raddatz.familienarchiv.exception.ErrorCode;
 import org.raddatz.familienarchiv.model.*;
-import org.raddatz.familienarchiv.repository.OcrJobDocumentRepository;
-import org.raddatz.familienarchiv.repository.OcrJobRepository;
 import org.raddatz.familienarchiv.security.PermissionAspect;
 import org.raddatz.familienarchiv.service.*;
 import org.springframework.beans.factory.annotation.Autowired;
@@ -22,7 +21,6 @@ import org.springframework.test.context.bean.override.mockito.MockitoBean;
 import org.springframework.test.web.servlet.MockMvc;
 
 import java.util.List;
-import java.util.Optional;
 import java.util.UUID;
 
 import static org.mockito.ArgumentMatchers.any;
@@ -43,8 +41,6 @@ class OcrControllerTest {
     @MockitoBean OcrService ocrService;
     @MockitoBean OcrBatchService ocrBatchService;
     @MockitoBean OcrProgressService ocrProgressService;
-    @MockitoBean OcrJobRepository ocrJobRepository;
-    @MockitoBean OcrJobDocumentRepository ocrJobDocumentRepository;
     @MockitoBean UserService userService;
     @MockitoBean CustomUserDetailsService customUserDetailsService;
 
@@ -81,7 +77,8 @@ class OcrControllerTest {
     @WithMockUser(authorities = "READ_ALL")
     void getJobStatus_returns404_whenJobNotFound() throws Exception {
         UUID jobId = UUID.randomUUID();
-        when(ocrJobRepository.findById(jobId)).thenReturn(Optional.empty());
+        when(ocrService.getJob(jobId))
+                .thenThrow(DomainException.notFound(ErrorCode.OCR_JOB_NOT_FOUND, "OCR job not found"));
 
         mockMvc.perform(get("/api/ocr/jobs/{jobId}", jobId))
                 .andExpect(status().isNotFound());
@@ -99,7 +96,7 @@ class OcrControllerTest {
                 .errorCount(1)
                 .skippedCount(0)
                 .build();
-        when(ocrJobRepository.findById(jobId)).thenReturn(Optional.of(job));
+        when(ocrService.getJob(jobId)).thenReturn(job);
 
         mockMvc.perform(get("/api/ocr/jobs/{jobId}", jobId))
                 .andExpect(status().isOk())
@@ -128,8 +125,8 @@ class OcrControllerTest {
     @WithMockUser(authorities = "READ_ALL")
     void getDocumentOcrStatus_returnsNone_whenNoOcrJobExists() throws Exception {
         UUID docId = UUID.randomUUID();
-        when(ocrJobDocumentRepository.findFirstByDocumentIdAndStatusIn(eq(docId), any()))
-                .thenReturn(Optional.empty());
+        when(ocrService.getDocumentOcrStatus(docId))
+                .thenReturn(OcrStatusDTO.builder().status("NONE").build());
 
         mockMvc.perform(get("/api/documents/{id}/ocr-status", docId))
                 .andExpect(status().isOk())
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java
index a94958a3..6827e03b 100644
--- a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java
@@ -5,12 +5,14 @@ import org.junit.jupiter.api.extension.ExtendWith;
 import org.mockito.InjectMocks;
 import org.mockito.Mock;
 import org.mockito.junit.jupiter.MockitoExtension;
+import org.raddatz.familienarchiv.dto.OcrStatusDTO;
 import org.raddatz.familienarchiv.exception.DomainException;
 import org.raddatz.familienarchiv.exception.ErrorCode;
 import org.raddatz.familienarchiv.model.*;
 import org.raddatz.familienarchiv.repository.OcrJobDocumentRepository;
 import org.raddatz.familienarchiv.repository.OcrJobRepository;
 
+import java.util.Optional;
 import java.util.UUID;
 
 import static org.assertj.core.api.Assertions.assertThat;
@@ -30,6 +32,69 @@ class OcrServiceTest {
 
     @InjectMocks OcrService ocrService;
 
+    // ─── getJob ──────────────────────────────────────────────────────────────────
+
+    @Test
+    void getJob_returnsJob_whenFound() {
+        UUID jobId = UUID.randomUUID();
+        OcrJob job = OcrJob.builder().id(jobId).status(OcrJobStatus.RUNNING).build();
+        when(ocrJobRepository.findById(jobId)).thenReturn(Optional.of(job));
+
+        OcrJob result = ocrService.getJob(jobId);
+
+        assertThat(result).isEqualTo(job);
+    }
+
+    @Test
+    void getJob_throwsNotFound_whenJobDoesNotExist() {
+        UUID jobId = UUID.randomUUID();
+        when(ocrJobRepository.findById(jobId)).thenReturn(Optional.empty());
+
+        assertThatThrownBy(() -> ocrService.getJob(jobId))
+                .isInstanceOf(DomainException.class)
+                .satisfies(e -> {
+                    DomainException de = (DomainException) e;
+                    assertThat(de.getStatus()).isEqualTo(NOT_FOUND);
+                    assertThat(de.getCode()).isEqualTo(ErrorCode.OCR_JOB_NOT_FOUND);
+                });
+    }
+
+    // ─── getDocumentOcrStatus ───────────────────────────────────────────────────
+
+    @Test
+    void getDocumentOcrStatus_returnsNone_whenNoActiveJob() {
+        UUID docId = UUID.randomUUID();
+        when(ocrJobDocumentRepository.findFirstByDocumentIdAndStatusIn(any(), any()))
+                .thenReturn(Optional.empty());
+
+        OcrStatusDTO result = ocrService.getDocumentOcrStatus(docId);
+
+        assertThat(result.getStatus()).isEqualTo("NONE");
+        assertThat(result.getJobId()).isNull();
+    }
+
+    @Test
+    void getDocumentOcrStatus_returnsActiveStatus_whenJobExists() {
+        UUID docId = UUID.randomUUID();
+        UUID jobId = UUID.randomUUID();
+        OcrJobDocument jobDoc = OcrJobDocument.builder()
+                .jobId(jobId).documentId(docId)
+                .status(OcrDocumentStatus.RUNNING)
+                .currentPage(2).totalPages(5)
+                .build();
+        when(ocrJobDocumentRepository.findFirstByDocumentIdAndStatusIn(any(), any()))
+                .thenReturn(Optional.of(jobDoc));
+
+        OcrStatusDTO result = ocrService.getDocumentOcrStatus(docId);
+
+        assertThat(result.getStatus()).isEqualTo("RUNNING");
+        assertThat(result.getJobId()).isEqualTo(jobId);
+        assertThat(result.getCurrentPage()).isEqualTo(2);
+        assertThat(result.getTotalPages()).isEqualTo(5);
+    }
+
+    // ─── startOcr ───────────────────────────────────────────────────────────────
+
     @Test
     void startOcr_throwsBadRequest_whenDocumentIsPlaceholder() {
         UUID docId = UUID.randomUUID();
-- 
2.49.1


From 6a0fd25662f035ec06a6308c994338026d6f739a Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 12:26:37 +0200
Subject: [PATCH 65/74] fix(ocr): persist scriptType override via
 DocumentService transaction

OcrService.startOcr() was setting scriptType on a detached entity,
silently losing the mutation. Added DocumentService.updateScriptType()
with @Transactional to persist the change properly.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 .../raddatz/familienarchiv/service/DocumentService.java   | 8 ++++++++
 .../org/raddatz/familienarchiv/service/OcrService.java    | 2 +-
 .../raddatz/familienarchiv/service/OcrServiceTest.java    | 4 ++--
 3 files changed, 11 insertions(+), 3 deletions(-)

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/DocumentService.java b/backend/src/main/java/org/raddatz/familienarchiv/service/DocumentService.java
index e3a6aea0..f06a9922 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/DocumentService.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/DocumentService.java
@@ -8,6 +8,7 @@ import org.raddatz.familienarchiv.dto.IncompleteDocumentDTO;
 import org.raddatz.familienarchiv.model.Document;
 import org.raddatz.familienarchiv.dto.DocumentSort;
 import org.raddatz.familienarchiv.model.DocumentStatus;
+import org.raddatz.familienarchiv.model.ScriptType;
 import org.raddatz.familienarchiv.model.Person;
 import org.raddatz.familienarchiv.model.Tag;
 import org.raddatz.familienarchiv.repository.DocumentRepository;
@@ -377,6 +378,13 @@ public class DocumentService {
         return documentRepository.findAll(conversation, Sort.by(Sort.Direction.ASC, "documentDate"));
     }
 
+    @Transactional
+    public void updateScriptType(UUID documentId, ScriptType scriptType) {
+        Document doc = getDocumentById(documentId);
+        doc.setScriptType(scriptType);
+        documentRepository.save(doc);
+    }
+
     public Document getDocumentById(UUID id) {
         return documentRepository.findById(id)
                 .orElseThrow(() -> DomainException.notFound(ErrorCode.DOCUMENT_NOT_FOUND, "Document not found: " + id));
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
index 38b783da..dcc14dd1 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrService.java
@@ -65,7 +65,7 @@ public class OcrService {
         }
 
         if (scriptTypeOverride != null) {
-            doc.setScriptType(scriptTypeOverride);
+            documentService.updateScriptType(documentId, scriptTypeOverride);
         }
 
         OcrJob job = OcrJob.builder()
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java
index 6827e03b..f9932616 100644
--- a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrServiceTest.java
@@ -146,7 +146,7 @@ class OcrServiceTest {
     }
 
     @Test
-    void startOcr_setsScriptTypeOnDocument_whenProvided() {
+    void startOcr_updatesScriptType_whenProvided() {
         UUID docId = UUID.randomUUID();
         Document doc = Document.builder().id(docId).status(DocumentStatus.UPLOADED)
                 .filePath("test.pdf").scriptType(ScriptType.UNKNOWN).build();
@@ -160,6 +160,6 @@ class OcrServiceTest {
 
         ocrService.startOcr(docId, ScriptType.HANDWRITING_LATIN, UUID.randomUUID());
 
-        assertThat(doc.getScriptType()).isEqualTo(ScriptType.HANDWRITING_LATIN);
+        verify(documentService).updateScriptType(docId, ScriptType.HANDWRITING_LATIN);
     }
 }
-- 
2.49.1


From caae2ead81f3cd4a960afdcc01d368b05b6447a0 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 12:27:01 +0200
Subject: [PATCH 66/74] refactor(ocr): route block lifecycle through
 TranscriptionService
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

OcrAsyncRunner was bypassing TranscriptionService — building blocks
directly and calling blockRepository.save(), skipping sanitizeText()
and saveVersion(). Also replaced N individual deleteBlock() calls with
a single bulk deleteAllBlocksByDocument() for OCR re-runs.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 .../service/OcrAsyncRunner.java               | 19 +----
 .../service/TranscriptionService.java         | 34 ++++++++
 .../service/OcrAsyncRunnerTest.java           | 40 ++++-----
 .../service/TranscriptionServiceTest.java     | 82 ++++++++++++++++++-
 4 files changed, 134 insertions(+), 41 deletions(-)

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
index 5dbe4c7d..9100f58e 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrAsyncRunner.java
@@ -6,7 +6,6 @@ import org.raddatz.familienarchiv.dto.CreateAnnotationDTO;
 import org.raddatz.familienarchiv.model.*;
 import org.raddatz.familienarchiv.repository.OcrJobDocumentRepository;
 import org.raddatz.familienarchiv.repository.OcrJobRepository;
-import org.raddatz.familienarchiv.repository.TranscriptionBlockRepository;
 import org.springframework.scheduling.annotation.Async;
 import org.springframework.stereotype.Component;
 
@@ -26,7 +25,6 @@ public class OcrAsyncRunner {
     private final DocumentService documentService;
     private final TranscriptionService transcriptionService;
     private final AnnotationService annotationService;
-    private final TranscriptionBlockRepository blockRepository;
     private final FileService fileService;
     private final OcrJobRepository ocrJobRepository;
     private final OcrJobDocumentRepository ocrJobDocumentRepository;
@@ -194,10 +192,7 @@ public class OcrAsyncRunner {
     }
 
     private void clearExistingBlocks(UUID documentId) {
-        List<TranscriptionBlock> existing = transcriptionService.listBlocks(documentId);
-        for (TranscriptionBlock block : existing) {
-            transcriptionService.deleteBlock(documentId, block.getId());
-        }
+        transcriptionService.deleteAllBlocksByDocument(documentId);
     }
 
     private void createTranscriptionBlocks(UUID documentId, List<OcrBlockResult> blocks,
@@ -216,15 +211,7 @@ public class OcrAsyncRunner {
         DocumentAnnotation annotation = annotationService.createOcrAnnotation(
                 documentId, annotationDTO, userId, fileHash, block.polygon());
 
-        TranscriptionBlock transcriptionBlock = TranscriptionBlock.builder()
-                .annotationId(annotation.getId())
-                .documentId(documentId)
-                .text(block.text() != null ? block.text() : "")
-                .sortOrder(sortOrder)
-                .source(BlockSource.OCR)
-                .createdBy(userId)
-                .updatedBy(userId)
-                .build();
-        blockRepository.save(transcriptionBlock);
+        transcriptionService.createOcrBlock(documentId, annotation.getId(),
+                block.text(), sortOrder, userId);
     }
 }
diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/TranscriptionService.java b/backend/src/main/java/org/raddatz/familienarchiv/service/TranscriptionService.java
index 1f8126c1..c93c98a5 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/TranscriptionService.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/TranscriptionService.java
@@ -8,6 +8,7 @@ import org.raddatz.familienarchiv.dto.ReorderTranscriptionBlocksDTO;
 import org.raddatz.familienarchiv.dto.UpdateTranscriptionBlockDTO;
 import org.raddatz.familienarchiv.exception.DomainException;
 import org.raddatz.familienarchiv.exception.ErrorCode;
+import org.raddatz.familienarchiv.model.BlockSource;
 import org.raddatz.familienarchiv.model.Document;
 import org.raddatz.familienarchiv.model.DocumentAnnotation;
 import org.raddatz.familienarchiv.model.TranscriptionBlock;
@@ -75,6 +76,24 @@ public class TranscriptionService {
         return saved;
     }
 
+    @Transactional
+    public TranscriptionBlock createOcrBlock(UUID documentId, UUID annotationId,
+                                              String text, int sortOrder, UUID userId) {
+        String sanitized = sanitizeText(text);
+        TranscriptionBlock block = TranscriptionBlock.builder()
+                .annotationId(annotationId)
+                .documentId(documentId)
+                .text(sanitized)
+                .sortOrder(sortOrder)
+                .source(BlockSource.OCR)
+                .createdBy(userId)
+                .updatedBy(userId)
+                .build();
+        TranscriptionBlock saved = blockRepository.save(block);
+        saveVersion(saved, userId);
+        return saved;
+    }
+
     @Transactional
     public TranscriptionBlock updateBlock(UUID documentId, UUID blockId,
                                           UpdateTranscriptionBlockDTO dto, UUID userId) {
@@ -106,6 +125,21 @@ public class TranscriptionService {
                 blockId, annotationId, documentId);
     }
 
+    @Transactional
+    public void deleteAllBlocksByDocument(UUID documentId) {
+        List<TranscriptionBlock> blocks = blockRepository.findByDocumentIdOrderBySortOrderAsc(documentId);
+        if (blocks.isEmpty()) return;
+
+        List<UUID> annotationIds = blocks.stream()
+                .map(TranscriptionBlock::getAnnotationId)
+                .toList();
+
+        blockRepository.deleteAll(blocks);
+        blockRepository.flush();
+        annotationRepository.deleteAllById(annotationIds);
+        log.info("Bulk-deleted {} transcription blocks for document {}", blocks.size(), documentId);
+    }
+
     @Transactional
     public void reorderBlocks(UUID documentId, ReorderTranscriptionBlocksDTO dto) {
         List<UUID> blockIds = dto.getBlockIds();
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrAsyncRunnerTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrAsyncRunnerTest.java
index 018befc9..4c580c19 100644
--- a/backend/src/test/java/org/raddatz/familienarchiv/service/OcrAsyncRunnerTest.java
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/OcrAsyncRunnerTest.java
@@ -2,7 +2,6 @@ package org.raddatz.familienarchiv.service;
 
 import org.junit.jupiter.api.Test;
 import org.junit.jupiter.api.extension.ExtendWith;
-import org.mockito.ArgumentCaptor;
 import org.mockito.InjectMocks;
 import org.mockito.Mock;
 import org.mockito.junit.jupiter.MockitoExtension;
@@ -10,7 +9,6 @@ import org.raddatz.familienarchiv.dto.CreateAnnotationDTO;
 import org.raddatz.familienarchiv.model.*;
 import org.raddatz.familienarchiv.repository.OcrJobDocumentRepository;
 import org.raddatz.familienarchiv.repository.OcrJobRepository;
-import org.raddatz.familienarchiv.repository.TranscriptionBlockRepository;
 
 import java.util.ArrayList;
 import java.util.List;
@@ -19,8 +17,7 @@ import java.util.UUID;
 import java.util.function.Consumer;
 
 import static org.assertj.core.api.Assertions.assertThat;
-import static org.mockito.ArgumentMatchers.any;
-import static org.mockito.ArgumentMatchers.eq;
+import static org.mockito.ArgumentMatchers.*;
 import static org.mockito.Mockito.*;
 
 @ExtendWith(MockitoExtension.class)
@@ -30,7 +27,6 @@ class OcrAsyncRunnerTest {
     @Mock DocumentService documentService;
     @Mock TranscriptionService transcriptionService;
     @Mock AnnotationService annotationService;
-    @Mock TranscriptionBlockRepository blockRepository;
     @Mock FileService fileService;
     @Mock OcrJobRepository ocrJobRepository;
     @Mock OcrJobDocumentRepository ocrJobDocumentRepository;
@@ -42,61 +38,59 @@ class OcrAsyncRunnerTest {
     void processDocument_clearsExistingBlocks() {
         UUID docId = UUID.randomUUID();
         UUID userId = UUID.randomUUID();
-        TranscriptionBlock existing = TranscriptionBlock.builder()
-                .id(UUID.randomUUID()).documentId(docId).build();
         Document doc = Document.builder().id(docId).filePath("test.pdf")
                 .fileHash("hash").scriptType(ScriptType.TYPEWRITER).build();
 
-        when(transcriptionService.listBlocks(docId)).thenReturn(List.of(existing));
         when(fileService.generatePresignedUrl(any())).thenReturn("http://presigned");
         when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of());
 
         ocrAsyncRunner.processDocument(docId, doc, userId);
 
-        verify(transcriptionService).deleteBlock(docId, existing.getId());
+        verify(transcriptionService).deleteAllBlocksByDocument(docId);
     }
 
     @Test
     void processDocument_createsAnnotationAndBlock_forEachResult() {
         UUID docId = UUID.randomUUID();
         UUID userId = UUID.randomUUID();
+        UUID annId = UUID.randomUUID();
         Document doc = Document.builder().id(docId).filePath("test.pdf")
                 .fileHash("hash").scriptType(ScriptType.TYPEWRITER).build();
 
-        when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
+
         when(fileService.generatePresignedUrl(any())).thenReturn("http://presigned");
         when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of(
                 new OcrBlockResult(0, 0.1, 0.1, 0.8, 0.04, null, "Line 1"),
                 new OcrBlockResult(0, 0.1, 0.2, 0.8, 0.04, null, "Line 2")));
-        DocumentAnnotation ann = DocumentAnnotation.builder().id(UUID.randomUUID()).build();
+        DocumentAnnotation ann = DocumentAnnotation.builder().id(annId).build();
         when(annotationService.createOcrAnnotation(any(), any(), any(), any(), any())).thenReturn(ann);
 
         ocrAsyncRunner.processDocument(docId, doc, userId);
 
         verify(annotationService, times(2)).createOcrAnnotation(
                 eq(docId), any(CreateAnnotationDTO.class), eq(userId), eq("hash"), any());
-        verify(blockRepository, times(2)).save(any());
+        verify(transcriptionService, times(2)).createOcrBlock(
+                eq(docId), eq(annId), any(), anyInt(), eq(userId));
     }
 
     @Test
-    void processDocument_setsBlockSourceToOcr() {
+    void processDocument_delegatesBlockCreationToTranscriptionService() {
         UUID docId = UUID.randomUUID();
         UUID userId = UUID.randomUUID();
+        UUID annId = UUID.randomUUID();
         Document doc = Document.builder().id(docId).filePath("test.pdf")
                 .fileHash("hash").scriptType(ScriptType.TYPEWRITER).build();
 
-        when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
+
         when(fileService.generatePresignedUrl(any())).thenReturn("http://presigned");
         when(ocrClient.extractBlocks(any(), any())).thenReturn(List.of(
                 new OcrBlockResult(0, 0.1, 0.1, 0.8, 0.04, null, "Test")));
-        DocumentAnnotation ann = DocumentAnnotation.builder().id(UUID.randomUUID()).build();
+        DocumentAnnotation ann = DocumentAnnotation.builder().id(annId).build();
         when(annotationService.createOcrAnnotation(any(), any(), any(), any(), any())).thenReturn(ann);
 
         ocrAsyncRunner.processDocument(docId, doc, userId);
 
-        ArgumentCaptor<TranscriptionBlock> captor = ArgumentCaptor.forClass(TranscriptionBlock.class);
-        verify(blockRepository).save(captor.capture());
-        assertThat(captor.getValue().getSource()).isEqualTo(BlockSource.OCR);
+        verify(transcriptionService).createOcrBlock(docId, annId, "Test", 0, userId);
     }
 
     @Test
@@ -115,7 +109,7 @@ class OcrAsyncRunnerTest {
         when(ocrJobDocumentRepository.findByJobIdAndDocumentId(jobId, docId))
                 .thenReturn(Optional.of(jobDoc));
         when(documentService.getDocumentById(docId)).thenReturn(doc);
-        when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
+
         when(fileService.generatePresignedUrl(any())).thenReturn("http://presigned");
         doAnswer(inv -> {
             Consumer<OcrStreamEvent> handler = inv.getArgument(2);
@@ -146,7 +140,7 @@ class OcrAsyncRunnerTest {
         when(ocrJobDocumentRepository.findByJobIdAndDocumentId(jobId, docId))
                 .thenReturn(Optional.of(jobDoc));
         when(documentService.getDocumentById(docId)).thenReturn(doc);
-        when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
+
         when(fileService.generatePresignedUrl(any())).thenReturn("http://presigned");
         doThrow(new RuntimeException("OCR failed")).when(ocrClient).streamBlocks(any(), any(), any());
 
@@ -174,7 +168,7 @@ class OcrAsyncRunnerTest {
                 .thenReturn(Optional.of(jobDoc));
         when(ocrJobDocumentRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
         when(documentService.getDocumentById(docId)).thenReturn(doc);
-        when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
+
         when(fileService.generatePresignedUrl(any())).thenReturn("http://presigned");
         when(annotationService.createOcrAnnotation(any(), any(), any(), any(), any())).thenReturn(ann);
 
@@ -217,7 +211,7 @@ class OcrAsyncRunnerTest {
                 .thenReturn(Optional.of(jobDoc));
         when(ocrJobDocumentRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
         when(documentService.getDocumentById(docId)).thenReturn(doc);
-        when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
+
         when(fileService.generatePresignedUrl(any())).thenReturn("http://presigned");
 
         doAnswer(inv -> {
@@ -253,7 +247,7 @@ class OcrAsyncRunnerTest {
                 .thenReturn(Optional.of(jobDoc));
         when(ocrJobDocumentRepository.save(any())).thenAnswer(inv -> inv.getArgument(0));
         when(documentService.getDocumentById(docId)).thenReturn(doc);
-        when(transcriptionService.listBlocks(docId)).thenReturn(List.of());
+
         when(fileService.generatePresignedUrl(any())).thenReturn("http://presigned");
 
         doAnswer(inv -> {
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/TranscriptionServiceTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/TranscriptionServiceTest.java
index f25a884b..f8ca7753 100644
--- a/backend/src/test/java/org/raddatz/familienarchiv/service/TranscriptionServiceTest.java
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/TranscriptionServiceTest.java
@@ -10,6 +10,7 @@ import org.raddatz.familienarchiv.dto.CreateTranscriptionBlockDTO;
 import org.raddatz.familienarchiv.dto.ReorderTranscriptionBlocksDTO;
 import org.raddatz.familienarchiv.dto.UpdateTranscriptionBlockDTO;
 import org.raddatz.familienarchiv.exception.DomainException;
+import org.raddatz.familienarchiv.model.BlockSource;
 import org.raddatz.familienarchiv.model.Document;
 import org.raddatz.familienarchiv.model.DocumentAnnotation;
 import org.raddatz.familienarchiv.model.TranscriptionBlock;
@@ -26,8 +27,8 @@ import static org.assertj.core.api.Assertions.assertThat;
 import static org.assertj.core.api.Assertions.assertThatThrownBy;
 import static org.mockito.ArgumentMatchers.any;
 import static org.mockito.ArgumentMatchers.eq;
-import static org.mockito.Mockito.verify;
-import static org.mockito.Mockito.when;
+import static org.mockito.Mockito.*;
+
 import static org.springframework.http.HttpStatus.NOT_FOUND;
 
 @ExtendWith(MockitoExtension.class)
@@ -99,6 +100,50 @@ class TranscriptionServiceTest {
         verify(versionRepository).save(any(TranscriptionBlockVersion.class));
     }
 
+    // ─── createOcrBlock ──────────────────────────────────────────────────────────
+
+    @Test
+    void createOcrBlock_createsBlockWithOcrSourceAndSavesVersion() {
+        UUID docId = UUID.randomUUID();
+        UUID annotId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+
+        when(blockRepository.save(any())).thenAnswer(inv -> {
+            TranscriptionBlock b = inv.getArgument(0);
+            b.setId(UUID.randomUUID());
+            return b;
+        });
+
+        TranscriptionBlock result = transcriptionService.createOcrBlock(
+                docId, annotId, "OCR text", 3, userId);
+
+        assertThat(result.getAnnotationId()).isEqualTo(annotId);
+        assertThat(result.getDocumentId()).isEqualTo(docId);
+        assertThat(result.getText()).isEqualTo("OCR text");
+        assertThat(result.getSortOrder()).isEqualTo(3);
+        assertThat(result.getSource()).isEqualTo(BlockSource.OCR);
+        assertThat(result.getCreatedBy()).isEqualTo(userId);
+        verify(versionRepository).save(any(TranscriptionBlockVersion.class));
+    }
+
+    @Test
+    void createOcrBlock_sanitizesNullText() {
+        UUID docId = UUID.randomUUID();
+        UUID annotId = UUID.randomUUID();
+        UUID userId = UUID.randomUUID();
+
+        when(blockRepository.save(any())).thenAnswer(inv -> {
+            TranscriptionBlock b = inv.getArgument(0);
+            b.setId(UUID.randomUUID());
+            return b;
+        });
+
+        TranscriptionBlock result = transcriptionService.createOcrBlock(
+                docId, annotId, null, 0, userId);
+
+        assertThat(result.getText()).isEmpty();
+    }
+
     // ─── updateBlock ─────────────────────────────────────────────────────────────
 
     @Test
@@ -168,6 +213,39 @@ class TranscriptionServiceTest {
                 .satisfies(e -> assertThat(((DomainException) e).getStatus()).isEqualTo(NOT_FOUND));
     }
 
+    // ─── deleteAllBlocksByDocument ─────────────────────────────────────────────
+
+    @Test
+    void deleteAllBlocksByDocument_deletesAllBlocksAndAnnotations() {
+        UUID docId = UUID.randomUUID();
+        UUID annId1 = UUID.randomUUID();
+        UUID annId2 = UUID.randomUUID();
+
+        TranscriptionBlock block1 = TranscriptionBlock.builder()
+                .id(UUID.randomUUID()).documentId(docId).annotationId(annId1).sortOrder(0).build();
+        TranscriptionBlock block2 = TranscriptionBlock.builder()
+                .id(UUID.randomUUID()).documentId(docId).annotationId(annId2).sortOrder(1).build();
+
+        when(blockRepository.findByDocumentIdOrderBySortOrderAsc(docId))
+                .thenReturn(List.of(block1, block2));
+
+        transcriptionService.deleteAllBlocksByDocument(docId);
+
+        verify(blockRepository).deleteAll(List.of(block1, block2));
+        verify(blockRepository).flush();
+        verify(annotationRepository).deleteAllById(List.of(annId1, annId2));
+    }
+
+    @Test
+    void deleteAllBlocksByDocument_doesNothing_whenNoBlocksExist() {
+        UUID docId = UUID.randomUUID();
+        when(blockRepository.findByDocumentIdOrderBySortOrderAsc(docId)).thenReturn(List.of());
+
+        transcriptionService.deleteAllBlocksByDocument(docId);
+
+        verify(blockRepository, never()).deleteAll(any());
+    }
+
     // ─── reorderBlocks ───────────────────────────────────────────────────────────
 
     @Test
-- 
2.49.1


From 9282e46a0270821741a5ee1e162d7b560ddb55a4 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 12:27:20 +0200
Subject: [PATCH 67/74] fix(ocr): handle unknown NDJSON fields with
 @JsonIgnoreProperties

Added @JsonIgnoreProperties(ignoreUnknown = true) to OcrBlockResult so
new fields from the Python OCR service don't crash the Java parser,
while keeping FAIL_ON_UNKNOWN_PROPERTIES strict globally.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 .../familienarchiv/service/OcrBlockResult.java  |  3 +++
 .../service/RestClientOcrClientStreamTest.java  | 17 +++++++++++++++++
 2 files changed, 20 insertions(+)

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrBlockResult.java b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrBlockResult.java
index e01b7def..b091f145 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/service/OcrBlockResult.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/service/OcrBlockResult.java
@@ -1,7 +1,10 @@
 package org.raddatz.familienarchiv.service;
 
+import com.fasterxml.jackson.annotation.JsonIgnoreProperties;
+
 import java.util.List;
 
+@JsonIgnoreProperties(ignoreUnknown = true)
 public record OcrBlockResult(
         int pageNumber,
         double x,
diff --git a/backend/src/test/java/org/raddatz/familienarchiv/service/RestClientOcrClientStreamTest.java b/backend/src/test/java/org/raddatz/familienarchiv/service/RestClientOcrClientStreamTest.java
index 36d5db22..2812f0bf 100644
--- a/backend/src/test/java/org/raddatz/familienarchiv/service/RestClientOcrClientStreamTest.java
+++ b/backend/src/test/java/org/raddatz/familienarchiv/service/RestClientOcrClientStreamTest.java
@@ -98,6 +98,23 @@ class RestClientOcrClientStreamTest {
         assertThat(events).hasSize(2);
     }
 
+    @Test
+    void parseNdjsonStream_handlesUnknownFieldsInBlocks() {
+        String ndjson = """
+                {"type":"start","totalPages":1}
+                {"type":"page","pageNumber":0,"blocks":[{"pageNumber":0,"x":0.1,"y":0.2,"width":0.8,"height":0.1,"polygon":null,"text":"Line 1","confidence":0.95,"newFutureField":"ignored"}]}
+                {"type":"done","totalBlocks":1,"skippedPages":0}
+                """;
+        InputStream stream = new ByteArrayInputStream(ndjson.getBytes(StandardCharsets.UTF_8));
+
+        List<OcrStreamEvent> events = new ArrayList<>();
+        RestClientOcrClient.parseNdjsonStream(stream, events::add);
+
+        assertThat(events).hasSize(3);
+        var page = (OcrStreamEvent.Page) events.get(1);
+        assertThat(page.blocks().get(0).text()).isEqualTo("Line 1");
+    }
+
     @Test
     void parseNdjsonStream_parsesPageWithPolygon() {
         String ndjson = """
-- 
2.49.1


From 5a973169409072d6f8f4944c5221a3297624662b Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 12:27:39 +0200
Subject: [PATCH 68/74] fix(ocr): log warning when user ID resolution fails

The resolveUserId() catch block was silently swallowing exceptions,
making auth failures invisible in logs.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 .../org/raddatz/familienarchiv/controller/OcrController.java     | 1 +
 1 file changed, 1 insertion(+)

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/controller/OcrController.java b/backend/src/main/java/org/raddatz/familienarchiv/controller/OcrController.java
index ded4c760..4b8f9cd3 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/controller/OcrController.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/controller/OcrController.java
@@ -81,6 +81,7 @@ public class OcrController {
             AppUser user = userService.findByUsername(authentication.getName());
             return user != null ? user.getId() : null;
         } catch (Exception e) {
+            log.warn("Failed to resolve user ID for authentication: {}", authentication.getName(), e);
             return null;
         }
     }
-- 
2.49.1


From 08b1cd5dac5842da011ebed05530f9ebcd181713 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 12:27:58 +0200
Subject: [PATCH 69/74] fix(ocr): reduce async queue capacity from 100 to 10
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Queue capacity of 100 is disproportionate for 2 worker threads — a
backed-up queue would represent hours of unprocessed OCR jobs.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 .../java/org/raddatz/familienarchiv/config/AsyncConfig.java     | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/backend/src/main/java/org/raddatz/familienarchiv/config/AsyncConfig.java b/backend/src/main/java/org/raddatz/familienarchiv/config/AsyncConfig.java
index 51f11f57..acdac4c5 100644
--- a/backend/src/main/java/org/raddatz/familienarchiv/config/AsyncConfig.java
+++ b/backend/src/main/java/org/raddatz/familienarchiv/config/AsyncConfig.java
@@ -18,7 +18,7 @@ public class AsyncConfig {
         ThreadPoolTaskExecutor executor = new ThreadPoolTaskExecutor();
         executor.setCorePoolSize(2);
         executor.setMaxPoolSize(2);
-        executor.setQueueCapacity(100);
+        executor.setQueueCapacity(10);
         executor.setThreadNamePrefix("Async-");
         executor.setRejectedExecutionHandler(new ThreadPoolExecutor.AbortPolicy());
         return executor;
-- 
2.49.1


From dd47a48d90deba4351fb5c0bd3a740d2a1f16f28 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 12:28:18 +0200
Subject: [PATCH 70/74] feat(ocr): add unique constraint on (job_id,
 document_id)

Prevents the same document from being added to an OCR job twice.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 .../migration/V28__add_unique_constraint_ocr_job_documents.sql  | 2 ++
 1 file changed, 2 insertions(+)
 create mode 100644 backend/src/main/resources/db/migration/V28__add_unique_constraint_ocr_job_documents.sql

diff --git a/backend/src/main/resources/db/migration/V28__add_unique_constraint_ocr_job_documents.sql b/backend/src/main/resources/db/migration/V28__add_unique_constraint_ocr_job_documents.sql
new file mode 100644
index 00000000..8b476381
--- /dev/null
+++ b/backend/src/main/resources/db/migration/V28__add_unique_constraint_ocr_job_documents.sql
@@ -0,0 +1,2 @@
+ALTER TABLE ocr_job_documents
+    ADD CONSTRAINT uq_ocr_job_document UNIQUE (job_id, document_id);
-- 
2.49.1


From 8c07779a9117633813119231269e5a4ccbb34dd2 Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 12:28:40 +0200
Subject: [PATCH 71/74] fix(ocr): fix SSE retry to actually reconnect
 EventSource

The retry button set status='running' but didn't re-trigger the $effect
because jobId hadn't changed. Added retryCount state so the effect
re-runs and creates a fresh EventSource on retry. Also added aria-label
to the progress bar for accessibility.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 frontend/src/lib/components/OcrProgress.svelte | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/frontend/src/lib/components/OcrProgress.svelte b/frontend/src/lib/components/OcrProgress.svelte
index 17d60e46..c9bbc124 100644
--- a/frontend/src/lib/components/OcrProgress.svelte
+++ b/frontend/src/lib/components/OcrProgress.svelte
@@ -13,10 +13,12 @@ let processed: number = $state(0);
 let total: number = $state(0);
 let currentPage: number = $state(0);
 let totalPages: number = $state(0);
+let retryCount: number = $state(0);
 
 let progressPercent = $derived(total > 0 ? Math.round((processed / total) * 100) : 0);
 
 $effect(() => {
+	void retryCount; // track dependency to re-create EventSource on retry
 	const source = new EventSource(`/api/ocr/jobs/${jobId}/progress`);
 
 	source.addEventListener('document', (e) => {
@@ -63,6 +65,7 @@ $effect(() => {
 				class="h-full bg-brand-mint transition-all duration-300"
 				style="width: {progressPercent}%"
 				role="progressbar"
+				aria-label={m.ocr_progress_heading()}
 				aria-valuenow={progressPercent}
 				aria-valuemin={0}
 				aria-valuemax={100}
@@ -79,7 +82,7 @@ $effect(() => {
 		</h3>
 		<button
 			type="button"
-			onclick={() => { status = 'running'; }}
+			onclick={() => { retryCount++; status = 'running'; }}
 			class="text-sm font-medium text-brand-navy transition-colors hover:text-brand-navy/80"
 		>
 			{m.ocr_error_retry()}
-- 
2.49.1


From b7fd4018c281a00c3ac46ce3dcfc399c3f0a215f Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 12:29:00 +0200
Subject: [PATCH 72/74] fix(frontend): normalize paraglide imports and improve
 accessibility

Changed OcrTrigger and ScriptTypeSelect from 'import * as m' to
'import { m }' to match the rest of the codebase. Increased
ScriptTypeSelect label to text-sm and annotation badge font to 12px
for better readability.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 frontend/src/lib/components/AnnotationShape.svelte  | 2 +-
 frontend/src/lib/components/OcrTrigger.svelte       | 2 +-
 frontend/src/lib/components/ScriptTypeSelect.svelte | 4 ++--
 3 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/frontend/src/lib/components/AnnotationShape.svelte b/frontend/src/lib/components/AnnotationShape.svelte
index 38856474..69c41223 100644
--- a/frontend/src/lib/components/AnnotationShape.svelte
+++ b/frontend/src/lib/components/AnnotationShape.svelte
@@ -96,7 +96,7 @@ let shapeStyle = $derived(
 				border-radius: 50%;
 				background-color: {annotation.color};
 				color: white;
-				font-size: 11px;
+				font-size: 12px;
 				font-family: sans-serif;
 				font-weight: 700;
 				display: flex;
diff --git a/frontend/src/lib/components/OcrTrigger.svelte b/frontend/src/lib/components/OcrTrigger.svelte
index 45002059..e00fda82 100644
--- a/frontend/src/lib/components/OcrTrigger.svelte
+++ b/frontend/src/lib/components/OcrTrigger.svelte
@@ -1,6 +1,6 @@
 <script lang="ts">
 import { untrack } from 'svelte';
-import * as m from '$lib/paraglide/messages.js';
+import { m } from '$lib/paraglide/messages.js';
 import { getConfirmService } from '$lib/services/confirm.svelte';
 import ScriptTypeSelect from './ScriptTypeSelect.svelte';
 
diff --git a/frontend/src/lib/components/ScriptTypeSelect.svelte b/frontend/src/lib/components/ScriptTypeSelect.svelte
index 9db31811..238ffd7d 100644
--- a/frontend/src/lib/components/ScriptTypeSelect.svelte
+++ b/frontend/src/lib/components/ScriptTypeSelect.svelte
@@ -1,5 +1,5 @@
 <script lang="ts">
-import * as m from '$lib/paraglide/messages.js';
+import { m } from '$lib/paraglide/messages.js';
 
 interface Props {
 	value: string;
@@ -10,7 +10,7 @@ let { value = $bindable(), disabled = false }: Props = $props();
 </script>
 
 <div>
-	<label for="script-type-select" class="text-xs font-bold tracking-widest text-gray-400 uppercase">
+	<label for="script-type-select" class="text-sm font-bold tracking-widest text-gray-400 uppercase">
 		{m.ocr_trigger_label()}
 	</label>
 	<select
-- 
2.49.1


From 0beaf351f0ab75187aed68773525c20032e6b29d Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 12:29:21 +0200
Subject: [PATCH 73/74] fix(docker): soften ocr-service dependency and clean up
 compose

Changed ocr-service dependency from service_healthy to service_started
since the backend already handles OCR unavailability gracefully. Removed
unused APP_S3_INTERNAL_URL env var. Added expose directive and
.dockerignore for ocr-service.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 docker-compose.yml        | 5 +++--
 ocr-service/.dockerignore | 6 ++++++
 2 files changed, 9 insertions(+), 2 deletions(-)
 create mode 100644 ocr-service/.dockerignore

diff --git a/docker-compose.yml b/docker-compose.yml
index ebea678e..46ed94b2 100644
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -78,6 +78,8 @@ services:
       dockerfile: Dockerfile
     container_name: archive-ocr
     restart: unless-stopped
+    expose:
+      - "8000"
     mem_limit: 8g
     memswap_limit: 8g
     volumes:
@@ -117,7 +119,7 @@ services:
       mailpit:
         condition: service_started
       ocr-service:
-        condition: service_healthy
+        condition: service_started
     environment:
       SPRING_DATASOURCE_URL: jdbc:postgresql://db:5432/${POSTGRES_DB}
       SPRING_DATASOURCE_USERNAME: ${POSTGRES_USER}
@@ -139,7 +141,6 @@ services:
       SPRING_MAIL_PROPERTIES_MAIL_SMTP_AUTH: ${MAIL_SMTP_AUTH:-false}
       SPRING_MAIL_PROPERTIES_MAIL_SMTP_STARTTLS_ENABLE: ${MAIL_STARTTLS_ENABLE:-false}
       APP_OCR_BASE_URL: http://ocr-service:8000
-      APP_S3_INTERNAL_URL: http://minio:9000
     ports:
       - "${PORT_BACKEND}:8080"
     networks:
diff --git a/ocr-service/.dockerignore b/ocr-service/.dockerignore
new file mode 100644
index 00000000..9acf40b9
--- /dev/null
+++ b/ocr-service/.dockerignore
@@ -0,0 +1,6 @@
+__pycache__
+*.pyc
+.venv
+models/
+.git
+.pytest_cache
-- 
2.49.1


From 70689b8f7ba7e1de34024a08e202530030d1029a Mon Sep 17 00:00:00 2001
From: Marcel <marcel@familienarchiv>
Date: Mon, 13 Apr 2026 12:29:42 +0200
Subject: [PATCH 74/74] feat(ocr): add SSRF protection for PDF URL downloads

Validates PDF download URLs against an ALLOWED_PDF_HOSTS allowlist
(default: minio,localhost,127.0.0.1) and disables redirect following
to prevent redirect-based SSRF.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 ocr-service/main.py        | 19 ++++++++++++++++++-
 ocr-service/test_stream.py | 32 ++++++++++++++++++++++++++++++++
 2 files changed, 50 insertions(+), 1 deletion(-)

diff --git a/ocr-service/main.py b/ocr-service/main.py
index 66cb01dc..11f8b520 100644
--- a/ocr-service/main.py
+++ b/ocr-service/main.py
@@ -4,7 +4,9 @@ import asyncio
 import io
 import json
 import logging
+import os
 from contextlib import asynccontextmanager
+from urllib.parse import urlparse
 
 import httpx
 import pypdfium2 as pdfium
@@ -22,6 +24,18 @@ logger = logging.getLogger(__name__)
 
 _models_ready = False
 
+ALLOWED_PDF_HOSTS = set(
+    h.strip() for h in os.getenv("ALLOWED_PDF_HOSTS", "minio,localhost,127.0.0.1").split(",")
+)
+
+
+def _validate_url(url: str) -> None:
+    """Validate that the PDF URL points to an allowed host (SSRF protection)."""
+    parsed = urlparse(url)
+    hostname = parsed.hostname or ""
+    if hostname not in ALLOWED_PDF_HOSTS:
+        raise HTTPException(status_code=400, detail=f"PDF host not allowed: {hostname}")
+
 
 @asynccontextmanager
 async def lifespan(app: FastAPI):
@@ -157,7 +171,10 @@ async def run_ocr_stream(request: OcrRequest):
 
 async def _download_and_convert_pdf(url: str) -> list[Image.Image]:
     """Download a PDF from a presigned URL and convert each page to a PIL Image."""
-    async with httpx.AsyncClient(timeout=httpx.Timeout(300.0)) as client:
+    _validate_url(url)
+    async with httpx.AsyncClient(
+        timeout=httpx.Timeout(300.0), follow_redirects=False
+    ) as client:
         response = await client.get(url)
         response.raise_for_status()
 
diff --git a/ocr-service/test_stream.py b/ocr-service/test_stream.py
index 5b9a9332..73164602 100644
--- a/ocr-service/test_stream.py
+++ b/ocr-service/test_stream.py
@@ -239,6 +239,38 @@ async def test_ocr_stream_returns_400_when_kraken_unavailable_for_kurrent(mock_i
         assert response.status_code == 400
 
 
+# ─── SSRF protection ─────────────────────────────────────────────────────────
+
+
+@pytest.mark.asyncio
+async def test_ocr_stream_rejects_disallowed_host():
+    with patch("main._models_ready", True):
+        async with AsyncClient(transport=ASGITransport(app=app), base_url="http://test") as client:
+            response = await client.post("/ocr/stream", json={
+                "pdfUrl": "http://evil.example.com/malicious.pdf",
+                "scriptType": "TYPEWRITER",
+            })
+
+    assert response.status_code == 400
+    assert "not allowed" in response.json()["detail"]
+
+
+@pytest.mark.asyncio
+async def test_ocr_stream_allows_minio_host(mock_images):
+    with patch("main._download_and_convert_pdf", new_callable=AsyncMock, return_value=mock_images), \
+         patch("main._models_ready", True), \
+         patch("main.surya_engine") as mock_surya:
+        mock_surya.extract_page_blocks.return_value = [_make_block(0)]
+
+        async with AsyncClient(transport=ASGITransport(app=app), base_url="http://test") as client:
+            response = await client.post("/ocr/stream", json={
+                "pdfUrl": "http://minio/test.pdf",
+                "scriptType": "TYPEWRITER",
+            })
+
+    assert response.status_code == 200
+
+
 @pytest.mark.asyncio
 async def test_ocr_stream_applies_confidence_markers(mock_images):
     """Low-confidence words should be replaced with [unleserlich] in the stream output."""
-- 
2.49.1