scanner-und-bilddigitalisierung

Papier wird nicht „irgendwie digital“. Es wird sauber erfasst, oder es wird nur schlecht weitergetragen.

Scanner gehörten für mich nie in die Kategorie dekorativer Bürogeräte, sondern in dieselbe nüchterne Werkzeugwelt wie Drucker, Backuptools, Dateimanager oder Logviewer. Ihre Aufgabe ist klar: etwas Physisches so in eine Datei zu überführen, dass Inhalt, Struktur und spätere Nutzbarkeit erhalten bleiben. Genau daran scheitert in der Praxis erstaunlich viel.

Sauberes Scannen ist deshalb mehr als „Bild machen“. Es geht um Auflösung, Kontrast, Vorlagenzustand, Glasfläche, Schräglage, Dateiformat, spätere Lesbarkeit, OCR-Tauglichkeit, Ablagestruktur und die Frage, ob aus dem Scan am Ende nur ein großer Datenklotz entsteht oder tatsächlich ein brauchbares digitales Dokument.

Diese Seite behandelt genau diese nüchterne Praxis: Flachbettscanner, Handscanner, Fotos, Dokumente, Formulare, OCR, TIFF, JPEG, PDF und die typischen Bedienfehler, die später mehr Arbeit erzeugen als ein sauberer Scan am Anfang gekostet hätte.

Aufgabe dieser Seite im sslxy-Archiv

scanner-und-bilddigitalisierung.htm ist die zentrale Akte für die Umwandlung physischer zweidimensionaler Vorlagen in nachvollziehbare digitale Objekte: Erfassung, Scanparameter, Masterdatei, Bearbeitungskopie, OCR, Metadaten, Qualitätskontrolle und langfristige Erhaltung.

bildbearbeitung-und-grafikalltag.htm bleibt für kreative und praktische Bildbearbeitung zuständig. datensicherung-und-backups.htm vertieft Redundanz und Restore. the-vault.htm ordnet langfristige Provenienz und Archivzusammenhänge ein.

Die zentrale Trennung lautet: Vorlage → Erfassungs-/Archivmaster → gegebenenfalls Produktionsmaster → Zugriffskopie → OCR-/Suchtext. Diese Zustände dürfen miteinander verknüpft sein, sollten aber nicht unbemerkt ineinanderfallen.

System Diagnostic

> SCAN / OCR / IMAGE DIGITIZATION ANALYSIS

SOURCE Papierdokumente / Fotos / Formulare / Ausdrucke / Archivmaterial DEVICES Flachbettscanner / Einzugscanner / Handscanner / Multifunktionsgeräte OUTPUT TIFF / JPEG / PNG / PDF / OCR-Text / Archivdateien MAIN RISKS schiefe Vorlagen / falsche Auflösung / harte Kompression / schlechte Benennung / OCR-Fehler USE CASES Archiv / Nachweis / Wiederfindbarkeit / Web / Druckvorstufe / Textgewinnung REAL RULE ein sauberer Scan spart später viel Nacharbeit MASTER möglichst originalgetreue Erfassung / verlustarm / dokumentierter Zustand DERIVATIVES Webkopie / OCR-PDF / JPEG / komprimierte Zugriffsversion getrennt vom Master RESOLUTION bei Bilderfassung präziser: PPI am Original · DPI ist primär eine Ausgabedichte QUALITY Vollständigkeit / Schärfe / Tonwert / Farbe / Geometrie / Dateiintegrität / Metadaten FIXITY Prüfsummen erkennen spätere Dateiveränderung · ersetzen kein Backup MINDSET nicht Effekt, sondern Lesbarkeit, Struktur und spätere Nutzbarkeit

Ein schlechter Scan konserviert nicht nur Papier, sondern auch jeden Fehler beim Erfassen.

Chronologie

frühe Phase

Papier bleibt Papier

Dokumente, Ausdrucke, Fotos und Unterlagen existieren primär physisch. Ordnung entsteht durch Ablage, nicht durch Suche.

Scannerzeit

Erfassung

Flachbettscanner und Multifunktionsgeräte bringen Papier erstmals systematisch in Dateien überführbar ins Archiv.

OCR-Phase

Text wird wieder benutzbar

Nicht nur das Bild des Dokuments, sondern auch sein Inhalt lässt sich zurückgewinnen – mit Grenzen.

später

Digitales Archiv

Dateiformat, Benennung, Backup und Wiederfindbarkeit werden wichtiger als der reine Scanvorgang.

[scan/role_boundary]

Digitalisierung ist eine Prozesskette, kein einzelner Scan-Klick

Original

physische Vorlage mit Zustand, Vorder-/Rückseite und Kontext.

Master

möglichst originalgetreue digitale Erfassung mit dokumentiertem Prozess.

Derivat

für Web, Versand, Bearbeitung, OCR oder andere konkrete Nutzung optimiert.

Metadaten

verbinden Datei, Vorlage, Entstehung und spätere Bearbeitung miteinander.

[scan/fundamentals]

Grundsatz: Scannen ist Erfassung, nicht bloß Bildproduktion

Wer einen Scan nur als Fotoersatz betrachtet, verschenkt einen Großteil des eigentlichen Nutzens. Ein Scan ist dann brauchbar, wenn er den Inhalt eines Papiers oder eines Bildträgers so überführt, dass man ihn später lesen, prüfen, weitergeben, durchsuchen, sichern und gegebenenfalls erneut verwenden kann. Genau deshalb ist der Scanvorgang immer Teil einer größeren Kette: Vorlage, Gerät, Software, Format, Benennung, Ablage und Backup.

Das bedeutet auch: Ein Scan ist nie nur Technik am Gerät. Er ist ebenso eine Ordnungsfrage. Ein perfekt erfasstes Dokument, das später unter einem nichtssagenden Dateinamen in einem falschen Verzeichnis liegt, ist fast genauso unerquicklicher wie ein schiefer, verrauschter Scan. Beides ist schlechte Digitalisierung – nur an anderer Stelle.

          [Scan Chain] brauchbarer Ablauf

          > Vorlage prüfen

          > Gerät sauber einstellen

          > Format passend wählen

          > Datei sinnvoll benennen

          > Ablage und Backup klären

          > erst dann wird aus Papier ein brauchbares digitales Objekt

„Scannen ist nicht nur Licht auf Papier. Es ist der Versuch, Bedeutung verlustarm in eine Datei zu überführen.“

[scan/master_derivative_model]

Archivmaster, Produktionsmaster und Zugriffskopie sind unterschiedliche Rollen

Rolle	Zweck
ERFASSUNGS-/ARCHIVMASTER	möglichst originalgetreuer, verlustarmer Ausgangszustand mit langfristigem Wert.
PRODUKTIONSMASTER	kontrolliert bearbeitete Fassung für weitere Ableitungen, während der unveränderte Master erhalten bleibt.
ZUGRIFFSKOPIE	kleiner, komprimierter oder für eine bestimmte Nutzung optimiert.
OCR-TEXT	abgeleitete Texterkennung für Suche und Weiterverarbeitung.

Diese Trennung verhindert, dass eine Web-JPEG-Datei, ein stark nachbearbeitetes Bild oder ein OCR-PDF später versehentlich für den einzigen erhaltenen Scan gehalten wird.

[scan/device_types]

Flachbett, Einzug, Handscanner

Unterschiedliche Scannerarten wirken auf den ersten Blick wie reine Komfortvarianten. In Wirklichkeit entscheidet ihre Bauart sehr direkt darüber, wofür sie taugen und wo sie unerquicklicher werden. Ein Flachbettscanner ist langsam, aber kontrolliert. Ein Einzugscanner ist schnell, aber nur bei passenden Vorlagen wirklich nützlich. Ein Handscanner ist flexibel, aber stark vom Nutzer abhängig und damit fehleranfälliger.

Flachbettscanner

Gut für Fotos, einzelne Dokumente, empfindliche Vorlagen, Bücher, Ausweise, unebene oder schlecht transportierbare Papiere.

Langsamer, aber kontrollierter. Für Archivarbeit oft die ruhigste Lösung.

Einzugscanner / ADF

Gut für Stapel, Rechnungen, Formulare, Korrespondenz, wiederkehrende Dokumentenmengen.

Praktisch, solange Papierzustand, Format und Geradlauf stimmen.

Handscanner

Nützlich in Sonderfällen, unterwegs oder bei sperrigen Vorlagen. Stark von ruhiger Führung abhängig.

Gerade bei längeren Vorlagen schnell schief, gestaucht oder unruhig.

Multifunktionsgerät

Praktische Mischform aus Drucker, Scanner und Kopierer. Für Alltag oft ausreichend, für Archivqualität nicht immer ideal.

Der Kompromiss liegt meist in Software, Sensorik oder Langzeitruhe.

Für nüchterne Dokumentenpraxis ist der Flachbettscanner oft unterschätzt, weil er Zeit kostet. Gerade diese Zeit ist aber Teil seiner Qualität: Vorlage liegt ruhig, Position ist kontrollierbar, Druck auf das Papier lässt sich steuern, Ränder sind nachvollziehbar. Einzugsysteme wirken effizienter, sind aber nur dann wirklich effizient, wenn die Vorlagen dazu passen.

[scan/source_safety]

Die Vorlage hat Vorrang vor der Digitalisierung

Empfindliche, gebundene, beschädigte oder stark gewellte Originale dürfen nicht für eine perfekte Planlage gewaltsam belastet werden. Wenn Einzug, Deckeldruck oder Glasauflage das Objekt gefährden, muss ein anderes Erfassungsverfahren gewählt werden.

FADGI behandelt Kulturgutdigitalisierung ausdrücklich als originalgetreue Reproduktion mit dokumentiertem Prozess. Für ein privates Technikarchiv gilt derselbe vernünftige Grundsatz: Ein Scan ist kein Erfolg, wenn dabei die einzige Vorlage beschädigt wird.

[scan/resolution]

Auflösung und was sie praktisch bedeutet

Auflösung ist eines der klassischen Missverständnisse in der Bilddigitalisierung. Mehr DPI klingt zunächst besser, ist aber nur dann nützlich, wenn die Vorlage, der spätere Zweck und das Dateiformat dazu passen. Wer jedes Blatt mit absurd hoher Auflösung scannt, erzeugt nicht automatisch Qualität, sondern oft nur große Dateien mit geringem Zusatznutzen.

Bereich	Praxiswert
Normales Dokument	200–300 dpi reichen meist für Lesbarkeit und OCR.
Feine Schrift / Details	300–400 dpi sinnvoll, wenn wirklich kleine Zeichen sauber erhalten werden sollen.
Fotos für Archiv	Häufig 300–600 dpi, je nach Vorlagegröße und gewünschter Nachbearbeitung.
Kleine Originale / Ausschnitte	Mehr Auflösung kann sinnvoll sein, wenn später vergrößert werden soll.
reine Übertreibung	Sehr hohe Werte ohne klaren Zweck erzeugen oft nur Datenballast.

Der entscheidende Punkt ist der Verwendungszweck. Ein Rechnungsbeleg, der nur lesbar archiviert werden soll, braucht andere Einstellungen als ein kleines altes Foto, aus dem später ein Ausschnitt gezogen werden soll. Wer das nicht trennt, scannt entweder zu grob oder völlig unverhältnismäßig groß.

[scan/ppi_vs_dpi]

Bei der Bilderfassung ist PPI der präzisere Begriff

Im Scanneralltag wird fast überall von „DPI“ gesprochen. Technisch beschreibt die räumliche Rasterauflösung eines digitalen Bildes jedoch präziser Pixel per Inch (PPI) bezogen auf die Abmessung der Vorlage. DPI bezeichnet ursprünglich Punkte einer Ausgabe- beziehungsweise Druckeinheit.

Die vorhandenen Praxiswerte dieser Seite bleiben als alltagstaugliche Orientierung erhalten. Sie sind jedoch keine universellen Archivnormen. Die passende Erfassungsauflösung hängt von Vorlagengröße, Detailgehalt und geplantem Nutzungsszenario ab.

[scan/optical_vs_interpolated]

Interpolierte Auflösung erzeugt keine neuen Originaldetails

Scannerwerbung kann sehr hohe Zahlen nennen, die durch Software- Interpolation entstehen. Entscheidend für die tatsächlich erfasste Detailinformation ist die reale optische beziehungsweise sensorbasierte Leistung des Systems.

Nachträgliches Hochrechnen kann für bestimmte Ausgaben nützlich sein, fügt aber keine feinen Strukturen hinzu, die bei der Aufnahme nie erfasst wurden.

[scan/bit_depth]

Auflösung beschreibt nicht den Tonwertumfang

Zwei Scans können dieselbe Pixelauflösung besitzen und trotzdem unterschiedlich viel Tonwert- oder Farbinformation enthalten. Dafür ist unter anderem die Bit-Tiefe relevant.

Für reine Alltagsdokumente kann eine geringere Tiefe genügen. Bei Fotos, schwachen Bleistiftspuren, vergilbtem Papier oder späterer Tonwertkorrektur kann eine reichhaltigere Erfassung mehr Reserven bieten.

[scan/color_management]

Farbe braucht einen definierten Farbraum

Ein RGB-Wert ist ohne Farbraum nicht vollständig beschrieben. Eingebettete ICC-Profile beziehungsweise ein dokumentierter Farbraum helfen, Farben zwischen Scanner, Bearbeitung und späterer Ausgabe nachvollziehbarer zu halten.

Das bedeutet nicht, dass jedes private Dokumentenarchiv ein professionelles Color-Target-Programm benötigt. Für wertvolle Fotobestände sollte aber zumindest klar sein, ob der Master mit einem definierten Profil gespeichert wurde und ob spätere Konvertierungen neue Dateien erzeugen.

[scan/ocr]

OCR: Textgewinnung statt bloßes Bild

OCR ist dort wertvoll, wo ein Dokument nicht nur als Bild konserviert, sondern inhaltlich wieder benutzbar werden soll. Ein eingescanntes Blatt mit sauberer OCR ist mehr als ein Foto der Seite. Es wird durchsuchbar, kopierbar, indexierbar und bei sauberer Qualität teilweise sogar wieder redaktionell verwertbar. Genau deshalb ist OCR ein echter technischer Gewinn – aber eben keiner ohne Grenzen.

OCR lebt von guten Vorlagen. Klare Schrift, ausreichender Kontrast, keine starke Schräglage, saubere Auflösung und möglichst wenig Druckartefakte. Schlechte Vorlagen führen zu den bekannten Fehlern: verwechselte Buchstaben, zerstörte Zahlenkolonnen, verunglückte Umlaute, falsche Zeilenumbrüche oder groteske Sonderzeichen. Die OCR-Software ist dann nicht „böse“, sondern bekommt nur einen unruhigen Rohstoff.

[ocr_gain]

Der eigentliche Wert von OCR liegt nicht in Perfektion, sondern in Wiederfindbarkeit. Schon eine nicht ganz fehlerfreie Texterkennung kann ein Archiv praktisch viel brauchbarer machen.

Für den Alltag gilt deshalb eine einfache Regel: OCR ist besonders sinnvoll bei Dokumenten, die später noch gesucht, geprüft, verglichen oder inhaltlich weiterverarbeitet werden sollen. Für ein reines Bildarchiv ohne Textbedarf ist sie weniger entscheidend. Für Rechnungen, Schriftverkehr, Formulare, Betriebsunterlagen oder alte Maschinenkopien kann sie dagegen den entscheidenden Unterschied machen.

          [OCR Path] sinnvolle Reihenfolge

          > scan straight

          > contrast readable

          > 300 dpi class usually enough

          > OCR run afterwards

          > archive becomes searchable, not just visible

[ocr/derivative_boundary]

OCR-Text ist eine Interpretation des Scans

Ein OCR-Ergebnis kann falsch sein. Deshalb sollte der erkannte Text bei archivisch wichtigen Unterlagen nicht den Bildscan ersetzen. Suchbarer Text und Seitenbild ergänzen sich: Das Bild bleibt visuelle Referenz, der OCR-Text verbessert Suche und Weiterverarbeitung.

Bei Tabellen, Formularen, Frakturschrift, schwachen Kopien und ungewöhnlichen Layouts steigt das Fehlerrisiko. Kritische Zahlen, Namen oder Beträge werden deshalb am Bild gegengeprüft.

[ocr/quality]

OCR-Qualität hängt stark vom Eingangsbild ab

Die Tesseract-Dokumentation nennt unter anderem Skalierung, Binarisierung, Rauschreduzierung, Rotation beziehungsweise Deskewing und Seitensegmentierung als Faktoren, die die Erkennungsqualität beeinflussen können.

Das erklärt, warum ein sauber ausgerichteter, kontrastreicher Dokumentenscan oft mehr bringt als ein späterer Wechsel der OCR-Engine. Vorverarbeitung sollte aber als eigener Verarbeitungsschritt dokumentiert werden, wenn sie den Master sichtbar verändert.

[scan/file_formats]

TIFF, JPEG, PNG, PDF

Dateiformate sind bei Scans keine reine Exportlaune, sondern eine Sachentscheidung. Unterschiedliche Formate tragen unterschiedliche Zwecke. Wer das falsch behandelt, hat entweder unnötig große Dateien, zu starke Verluste oder ein Format, das für den eigentlichen Zweck unerquicklicher ist.

TIFF: ruhig, verlustarm, archivnah, oft sinnvoll für Master-Dateien oder hochwertige Vorstufen.
JPEG: praktisch für Fotos und webnahe Nutzung, aber mit verlustbehafteter Kompression.
PNG: gut für klare Grafiken, Textbereiche, Linien, Screenshots oder verlustarme Zwischenstände.
PDF: stark für Dokumente, Mehrseitenlogik, Versand, Ablage und OCR-Kombinationen.

Der eigentliche Fehler liegt oft darin, Master und Arbeitskopie nicht zu trennen. Ein sauberer TIFF- oder hochqualitativer PDF-Master kann sinnvoll archiviert werden, während eine kleinere JPEG- oder PDF-Variante für Alltag, Web oder schnellen Versand erzeugt wird. Wer nur ein einziges Format für alles nimmt, behandelt völlig unterschiedliche Zwecke, als wären sie identisch.

Gerade PDF ist im Dokumentenbereich praktisch, weil es Seiten, OCR, Rotation, Kompression und Austausch zusammenführt. Es ist aber kein magisches Archivformat. Ein schlecht erzeugtes PDF bleibt ein schlechter Scan – nur bequemer verpackt.

[formats/master_vs_access]

Dateiformat folgt der Rolle der Datei

FADGI trennt dauerhaft wertvolle Masterdateien von Zugriffskopien. Masterdateien sollen nach den Richtlinien grundsätzlich verlustarm beziehungsweise verlustlos verwaltet werden; Derivate können für konkrete Nutzung, OCR oder Endnutzerzugriff anders optimiert sein.

Deshalb kann eine Kombination sinnvoll sein: ein ruhiger TIFF- oder anderer geeigneter verlustarmer Master, dazu JPEG, PNG oder PDF für konkrete Arbeits- und Zugriffszwecke. Die exakte Wahl hängt von Material, Softwareumgebung und Archivziel ab.

[formats/pdfa]

PDF/A ist eine Archivformatfamilie – kein automatisches Qualitätsmerkmal

Die Library of Congress führt PDF/A als eigene Formatfamilie für langfristige Dokumentenkontexte. Daraus folgt aber nicht, dass jedes PDF/A automatisch ein guter Scan ist.

Ein schiefes, stark komprimiertes oder unvollständiges Seitenbild bleibt auch in einem normorientierten Container mangelhaft. Formatkonformität und inhaltliche Erfassungsqualität sind zwei getrennte Fragen.

[scan/documents]

Dokumente, Formulare und Schriftgut

Dokumente verlangen eine andere Behandlung als Fotos. Hier geht es weniger um Farbstimmung oder Korn, sondern um Zeilen, Stempel, Unterschriften, Tabellen, kleine Schrift, Kanten, Durchschläge und die spätere Lesbarkeit. Gerade bei Formularen oder alten Unterlagen ist „scharf genug“ oft nicht ausreichend. Entscheidend ist, ob Zahlen, Felder und Begriffe später noch eindeutig zu lesen und zu finden sind.

Für diesen Bereich sind Schwarzweiß-, Graustufen- und Farberfassung keine Geschmacksfrage. Manche Unterlagen profitieren von Graustufen, weil Papieralterung, Bleistiftspuren oder schwache Durchschläge sonst zu grob wegbrechen. Andere brauchen klare Schwarzweiß-Kontraste, etwa bei maschinengeschriebenen Seiten, die nur lesbar gesichert werden sollen.

Auch die Kanten sind wichtig. Ein sauberer Dokumentenscan zeigt das Blatt vollständig, ohne übertriebene Beschnittautomatik. Zu aggressive Automatiken schneiden gern Randnotizen, Lochränder, Registraturvermerke oder kleine Stempel weg – also oft genau die Dinge, die später den Unterschied zwischen „irgendeine Kopie“ und „vollständiger Nachweis“ ausmachen.

[documents/page_order]

Mehrseitige Dokumente brauchen kontrollierte Reihenfolge

Bei Stapelscans entstehen eigene Fehlerklassen: fehlende Rückseiten, vertauschte Seiten, doppelte Einzüge, leere Seiten, die versehentlich entfernt wurden, oder Seiten, die im falschen Dokument landen.

Vor Abschluss eines Stapels werden deshalb Seitenzahl, Reihenfolge, Vorder-/Rückseiten und erkennbare Unterbrechungen geprüft. Ein technisch perfektes Einzelbild hilft wenig, wenn das Dokument als Ganzes unvollständig ist.

[documents/cropping]

Der Master sollte Vollständigkeit zeigen – Zugriffskopien dürfen enger sein

Für einen archivischen Master ist es sinnvoll, den vollständigen relevanten Vorlagenbereich zu erfassen. Zu aggressiver Auto-Crop kann Randnotizen, Stempel, Lochungen oder Objektkanten entfernen.

Eine sauber zugeschnittene Web- oder Lesekopie darf davon abweichen, solange sie als Derivat nachvollziehbar bleibt und der vollständigere Ausgangszustand erhalten ist.

[scan/photos]

Alte Fotos und Bildmaterial

Alte Fotos sind ein eigener Bereich, weil sie nicht nur Information, sondern Materialität tragen: Papieroberfläche, Alterung, Tonwertverschiebungen, Kratzer, Staub, Fingerabdrücke, Knicke, Randbeschriftung oder Rückseitennotizen. Wer Fotos digitalisiert, entscheidet deshalb immer auch mit, wie viel vom Objekt selbst im Scan erhalten bleiben soll.

Ein häufiger Fehler ist dabei die falsche „Verbesserung“. Zu aggressive automatische Korrekturen glätten nicht nur Schäden, sondern oft auch Charakter. Farben werden zu grell, Kontraste zu hart, Hauttöne unerquicklicher künstlich, Schatten abgesoffen, helle Bereiche ausgefressen. Gerade bei Archivmaterial ist Zurückhaltung oft besser als spektakuläre Aufbereitung.

Archivblick

Möglichst neutral scannen, Staub vorher real entfernen, Master-Datei sauber sichern, spätere Bearbeitung getrennt halten.

Alltagsblick

Für schnelles Teilen oder Webdarstellung dürfen Kopien kleiner und komprimierter sein – aber nicht anstelle des ruhigeren Masters.

Auch deshalb ist die Rückseite alter Fotos oft nicht weniger wichtig als die Vorderseite. Beschriftungen, Namen, Jahreszahlen, Ortsangaben oder kryptische Kürzel machen aus einem Bild erst ein archivisch lesbares Objekt. Sauberes Digitalisieren endet also nicht am sichtbaren Motiv.

[photos/front_back]

Vorderseite und Rückseite gehören oft zusammen

Beschriftungen, Stempel, Nummern, Fotoatelier-Aufdrucke und handschriftliche Notizen auf der Rückseite können für die Provenienz wichtiger sein als eine spätere Bildverbesserung.

Bei wichtigen Fotos sollten Vorder- und Rückseite deshalb über gemeinsame Kennung oder Metadaten eindeutig miteinander verbunden werden.

[photos/master_vs_restoration]

Digital restaurieren – aber nicht den einzigen Master überschreiben

FADGI betont bei Kulturgut die originalgetreue Dokumentation des Zustands zum Erfassungszeitpunkt. Transformative Eingriffe wie übermäßiges Beschneiden, starke Retusche oder das Entfernen ursprünglicher Flecken und Kratzer sollen nicht unbemerkt den historischen Ausgangszustand ersetzen.

Für das private Archiv ist deshalb die saubere Trennung sinnvoll: neutraler Scanmaster behalten, Restaurierung oder optimierte Präsentationsfassung als neue Datei erzeugen und die Bearbeitung benennen.

[archive/metadata_naming]

Ein Dateiname ist noch keine vollständige Metadatenstrategie

Ein stabiler Identifier, sprechender Dateiname und zusätzliche Metadaten ergänzen sich. Je nach Bestand können Datum, Quelle, Objektart, Seitenzahl, Vorder-/Rückseite, Scanner, Scanparameter und Bearbeitungsstatus relevant sein.

          [SCAN-RECORD]

          > object_id:

          > source / description:

          > capture_date:

          > scanner / device if relevant:

          > capture_ppi / bit_depth / color_space:

          > master_file:

          > derivative_files:

          > OCR_status:

          > checksum / last_verified:

[archive/fixity]

Prüfsummen machen spätere Dateiveränderungen erkennbar

Für wichtige Masterdateien kann beispielsweise eine SHA-256- Prüfsumme gespeichert werden. Eine spätere erneute Berechnung kann zeigen, ob sich die Datei seit dem dokumentierten Zustand verändert hat.

Eine Prüfsumme ist kein Backup und sagt nicht, welche Fassung „inhaltlich richtig“ ist. Sie ist ein Werkzeug für Fixity: die kontrollierte Feststellung, ob ein Bitstrom gleich geblieben ist.

[scan/quality_control]

Qualitätskontrolle prüft das Ergebnis – nicht nur die Scanneranzeige

Prüfung	Frage
VOLLSTÄNDIGKEIT	Sind alle Seiten, Ränder und relevanten Rückseiten vorhanden?
GEOMETRIE	Ist die Seite unbeabsichtigt schief, verzerrt oder abgeschnitten?
SCHÄRFE	Sind kleine Zeichen und wichtige Bilddetails tatsächlich erfasst?
TON/FARBE	Sind helle und dunkle Bereiche sinnvoll erhalten und Farben plausibel?
DATEI	Lässt sich die Datei öffnen und entspricht sie dem vorgesehenen Format?
ZUORDNUNG	Stimmen Name, Reihenfolge, Objekt-ID und Metadaten?
OCR	Ist der Suchtext vorhanden und bei kritischen Stellen gegengeprüft?

[scan/common_errors]

Typische Bedienfehler

Die meisten schlechten Scans entstehen nicht durch kaputte Scanner, sondern durch unruhige Arbeitsweise. Der Fehler liegt oft vor der Datei: schmutzige Glasfläche, schiefe Vorlage, zu hastige Automatik, falsches Format, unpassende Auflösung, schlechte Benennung oder eine Ablage, die spätere Wiederfindung fast unmöglich macht.

Vorlagen schief auflegen und die Schräglage erst später bemerken.
Mit zu harter JPEG-Kompression arbeiten und feine Details zerstören.
Alles mit derselben Auflösung scannen, unabhängig vom Zweck.
OCR ohne Qualitätskontrolle übernehmen und den Text später für „richtig“ halten.
Dateien mit Namen wie scan001, scan002, neu_final_final speichern.
Nur Arbeitskopien aufheben und keine brauchbaren Master-Dateien sichern.
Staub, Fingerabdrücke oder Glasrand mitdigitalisieren und das für „normal“ halten.

[scan_errors]

Der unerquickliche Fehler ist nicht der einmal schlechte Scan, sondern die massenhafte Wiederholung eines schlechten Verfahrens. Dann wächst das Archiv, aber seine Qualität sinkt.

[privacy/scanned_records]

Digitalisieren ist nicht dasselbe wie veröffentlichen

Gescannte Briefe, Rechnungen, Ausweise, Verträge oder historische Unterlagen können personenbezogene, geschäftliche oder vertrauliche Informationen enthalten. Ein sinnvoller Archivscan darf deshalb trotzdem für die öffentliche Website ungeeignet sein.

Für Veröffentlichung können separate redigierte Zugriffskopien erstellt werden. Der vollständige Master bleibt geschützt und seine Zugriffsrechte werden unabhängig von der Webkopie festgelegt.

[scan/web_archive]

Vom Scan ins Web oder Archiv

Scans enden selten am Gerät. Sie landen später in Archiven, Mappen, PDFs, E-Mails, Webseiten, OCR-Beständen oder internen Dokumentationssammlungen. Genau deshalb muss schon beim Erzeugen klar sein, wohin eine Datei eigentlich soll. Webdarstellung und Archivmaster sind zwei verschiedene Endpunkte.

Für das Web brauchen Scans meist andere Eigenschaften: kleinere Maße, reduzierte Dateigröße, saubere Lesbarkeit bei geringerem Gewicht, kontrollierte Kompression, eindeutige Alt-Texte und bei längeren Dokumenten oft eine bessere PDF-Lösung statt schwerer Einzelbilder. Für das Archiv hingegen zählen Vollständigkeit, Ruhe, Nachvollziehbarkeit und späterer Zugriff mehr als rohe Sparsamkeit.

Genau deshalb sollte die Webkopie nie der einzige Zustand sein. Eine für schnelles Laden optimierte JPEG-Datei ist nicht automatisch ein guter Archivstand. Und ein riesiger TIFF-Scan ist nicht automatisch für die Webnutzung sinnvoll. Wieder gilt: Zweck trennen, Arbeitskopie von Master unterscheiden.

Die größere Ordnung darum herum liegt direkt auf laufwerke-und-diskettenstationen.htm, datensicherung-und-backups.htm und drucker-patronen-tanks-laser.htm. Die Dokumentenseite daneben auf fax-und-telefax.htm.

[archive/digitization_workflow]

Ein ruhiger Erhaltungsworkflow trennt Erfassung, Nutzung und Sicherung

Vorlage identifizieren und Zustand prüfen.
Geeignetes Gerät wählen, ohne die Vorlage zu gefährden.
Auflösung, Bit-Tiefe und Farbraum am Material und Zweck ausrichten.
Vollständigen Master erfassen und Qualitätskontrolle durchführen.
Master eindeutig benennen und mit Metadaten verknüpfen.
Prüfsumme erzeugen und unabhängiges Backup anlegen.
OCR, PDF, JPEG oder Webkopien als Derivate erzeugen.
Bearbeitungen und Restaurierungen getrennt dokumentieren.
Master und Derivate regelmäßig auf Lesbarkeit und Integrität prüfen.

[documentation/technical_sources]

Technische Referenzen

Die externen Quellen dienen der allgemeinen technischen Einordnung. Persönliche Scanner- und Archivpraxis wird davon getrennt behandelt; konkrete Scanner-Modelle, Softwareversionen oder persönliche Scanparameter werden nicht erfunden.

[scan/conclusion]

Fazit: sauber erfassen statt nur schnell durchziehen

Scanner und Bilddigitalisierung sind typische Werkzeuge, die von außen oft kleiner wirken, als sie im Alltag sind. In Wahrheit hängen an ihnen Ordnung, Nachweis, Archivqualität, spätere Suchbarkeit und nicht selten auch die Frage, ob man in ein paar Jahren noch mit brauchbaren digitalen Beständen arbeitet oder nur mit einem großen Haufen unerquicklicher schlecht benannter Dateien.

Genau deshalb ist gutes Scannen kein Nebenbei-Vorgang. Es verlangt Ruhe, passenden Geräteeinsatz, sinnvolle Auflösung, korrektes Format, klare Benennung und eine nüchterne Entscheidung darüber, was Master-Datei und was Arbeitskopie ist. Wenn das sauber gemacht wird, spart es später sehr viel Aufwand. Wenn nicht, konserviert man nur Papierchaos in Dateiform.

          [Final Rule] Scan praxis

          > scan straight

          > choose resolution by purpose

          > keep master and working copy separate

          > OCR where search matters

          > a clean scan saves later work

„Digitalisierung ist gelungen, wenn man später nicht mehr über den Scan nachdenken muss, sondern wieder über den Inhalt.“

[links/archive]

Querverweise im SSLXY-Archiv

Rechtliche Hinweise

Diese Seite liegt im sslxy-Bereich der Domain und dokumentiert persönliche und technische Erfahrungen mit Scannern, Bilddigitalisierung, OCR, Dateiformaten, digitalen Masterdateien, Metadaten und Archivpraxis. sslxy ist ein technisches Pseudonym und kein davon getrennt betriebener Scan-, Digitalisierungs-, Archiv-, OCR- oder IT-Dienstleister.

Genannte Hersteller-, Format-, Standard-, Software- und Techniknamen dienen ausschließlich der sachlichen technischen und historischen Einordnung.

Anbieter und Verantwortlicher der gesamten Domain – einschließlich dieses Unterverzeichnisses – ist der Betreiber des Goldenen Ochsen in Göppingen-Hohenstaufen. Die maßgeblichen Anbieterangaben stehen im zentralen Impressum der Domain; die Informationen zur Datenverarbeitung in der Datenschutzerklärung der Domain.

Bei der Digitalisierung fremder, personenbezogener, urheberrechtlich geschützter oder vertraulicher Unterlagen müssen Zugriffs-, Nutzungs- und Veröffentlichungsrechte getrennt vom rein technischen Scanvorgang beurteilt werden.

Kontakt für technische Hinweise: mail@sslxy.de

Hinweis zur Datenverarbeitung

Auch diese Unterseite ist als rein informative, statische HTML-Seite konzipiert. Es werden keine Tracker, keine Analyse-Tools und keine zustimmungspflichtigen Cookies eingesetzt.

Statische Seite. Schlanke Struktur. Technischer Inhalt ohne unnötigen Überbau.