feat(training): add segmentation training pipeline and complete Part 6

- Add /segtrain endpoint to OCR service (ZIP upload, ketos.segtrain, backup rotation, in-process model reload) - Add segtrainModel() to OcrClient and RestClientOcrClient (10-min timeout, X-Training-Token header) - Add SegmentationTrainingExportService: PAGE XML export with polygon de-normalization and per-page PNG rendering via PDFBox - Add GET /api/ocr/segmentation-training-data/export endpoint - Make TranscriptionBlock.text nullable for segmentation-only blocks (V31 migration) - Add Paraglide i18n translation keys for all training UI strings (de/en/es) - Pass source prop from TranscriptionEditView to TranscriptionBlock Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-04-13 15:15:17 +02:00
parent 86e9c05aaf
commit 9b2f91ee59
13 changed files with 383 additions and 5 deletions
--- a/frontend/messages/de.json
+++ b/frontend/messages/de.json
@@ -533,5 +533,28 @@
 	"ocr_status_error": "OCR fehlgeschlagen",
 	"transcription_block_review": "Als geprüft markieren",
 	"transcription_block_unreview": "Markierung aufheben",
-	"transcription_reviewed_count": "{reviewed} von {total} geprüft"
+	"transcription_reviewed_count": "{reviewed} von {total} geprüft",
+	"training_ocr_heading": "Kurrent-Erkennung trainieren",
+	"training_ocr_description": "Starte ein neues Training mit den bisher geprüften OCR-Blöcken, um die Erkennungsgenauigkeit für Kurrentschrift zu verbessern.",
+	"training_ocr_blocks_ready": "{blocks} geprüfte Blöcke bereit / {docs} Dokumente",
+	"training_ocr_blocks_total": "(von {total} OCR-Blöcken gesamt)",
+	"training_start_btn": "Training starten",
+	"training_in_progress": "…",
+	"training_success": "Training wurde gestartet und abgeschlossen.",
+	"training_too_few_blocks": "Mindestens 5 geprüfte Blöcke erforderlich (aktuell: {available}).",
+	"training_service_down": "OCR-Dienst ist nicht erreichbar.",
+	"training_history_heading": "Verlauf",
+	"training_history_empty": "Noch keine Trainings-Läufe.",
+	"training_history_col_date": "Datum",
+	"training_history_col_status": "Status",
+	"training_history_col_blocks": "Blöcke",
+	"training_history_col_docs": "Dokumente",
+	"training_status_done": "Fertig",
+	"training_status_failed": "Fehler",
+	"training_status_running": "Läuft…",
+	"training_seg_heading": "Segmentierung trainieren",
+	"training_seg_description": "Starte ein neues Training mit annotierten Segmentierungsbereichen, um die Texterkennung zu verbessern.",
+	"training_seg_blocks_ready": "{blocks} Segmentierungsblöcke bereit",
+	"training_seg_too_few_blocks": "Mindestens 5 Segmentierungsblöcke erforderlich (aktuell: {available}).",
+	"transcription_block_segmentation_only": "Nur Segmentierung"
 }