Digitalisierung von Unterlagen: Unterschied zwischen den Versionen

Aus Handreichung
Zur Navigation springen Zur Suche springen
Keine Bearbeitungszusammenfassung
 
(15 dazwischenliegende Versionen von 4 Benutzern werden nicht angezeigt)
Zeile 4: Zeile 4:


== Was sind geeignete Formate für Digitalisate? ==
== Was sind geeignete Formate für Digitalisate? ==

=== Was sind Dateiformate und warum gibt es sie? ===

Zum Verständnis von Dateiformaten ist es notwendig, sich den Prozess der Digitalisierung zu vergegenwärtigen: Bei der Digitalisierung wird über analoge Daten (das können unter anderem Textdokumente, Photographien oder auch Schallwellen sein) ein Raster gelegt und aus jedem Rasterpunkt wird dann ein numerischer Wert generiert. Diese Werte müssen dann so abgespeichert werden, dass aus ihnen die analogen Daten so gut wie möglich wieder rekonstruiert werden können: Das Textdokument soll wieder ausgedruckt, die Photographie wieder auf dem Bildschirm angezeigt und der Klang der Schallplatte wieder hörbar gemacht werden können. Das heißt, es müssen nicht nur die nackten Werte, die bei der Digitalisierung anfallen, gespeichert werden, sondern es muss eine Vorschrift geben, wie diese numerischen Werte wieder zu einem sinnvollen Ganzen zusammengesetzt werden können. Diese Aufgabe leisten Dateiformate: Sie geben den numerischen Daten eine klare Struktur, die dann von Programmen genutzt werden können, um das ursprüngliche Objekt so gut wie möglich wieder herzustellen.

Dementsprechend fallen Dateiformate in zwei grundlegende unterschiedliche Kategorien: Proprietäre Dateiformate und offene Dateiformate. Proprietäres Dateiformat heißt: Das Wissen darüber, wie aus den numerischen Daten das Original wieder hergestellt werden kann, ist das Eigentum einer Firma. Diese kann das Wissen über das Format geheimhalten oder patentieren. Dann kann nur ein ausgewählter Kreis von Nutzer:innen das Format nutzen. Daraus ergibt sich schon von selbst, dass solche proprietären Formate für die Archivierung ungeeignet sind. Vor allem um eine Langzeitarchivierung zu gewährleisten, müssen Archive auf offene Formate setzen, um digitalisiertes Archivgut dauerhaft für die Allgemeinheit bereithalten zu können.

Dann haben unterschiedliche Dateiformate auch unterschiedliche Eigenschaften. Eine Datei im pdf-Format kann beispielsweise mehrere Seiten umfassen, während im jpeg-Format in einer Datei nur eine einzige Seite enthalten sein kann. Eine gif-Datei kann nur 256 verschiedene Farben abspeichern - während ein normaler Farbscan theoretisch mehr als 16 Millionen Farben liefert. Dafür kann das gif-Format Animationen enthalten, die verschiedene Bilder kombiniert. Es ist also kompliziert: Welches Format genutzt werden sollte, hängt von den sehr vielen unterschiedlichen Eigenschaften der Formate ab, über zumindest ein gewisses Grundwissen vorhanden sein sollte.

Das betrifft vor allem eine Eigenschaft, die für Archivzwecke von besonderer Wichtigkeit ist: Die Datenkompression. So gut wie kein Dateiformat speichert die bei der Digitalisierung anfallenden Rasterdaten einfach so ab, wie sie im Prozess der Rasterung analogen Materials entstanden sind, denn das verbraucht extrem viel Speicher. Deswegen stellen die unterschiedlichen Dateiformate verschiedene Kompressionsalgorithmen zur Verfügung, um den Speicherbedarf zu minimieren. Es gibt eine ungesunde Anzahl von Kompressionsalgorithmen, die sehr unterschiedlich funktionieren.

Dabei sind diese Kompressionsalgorithmen vor allem in zwei verschiedene Klassen zu unterteilen: Verlustfreie Kompression vs. verlustbehaftete Kompression. Verlustfrei heißt, dass trotz der Datenkomprimierung aus den gespeicherten Daten das originale Digitalisierungsraster 1:1 wieder hergestellt werden kann. Im Gegensatz dazu bedeutet verlustbehaftete Komprimierung, dass das originale Raster nur so ungefähr wieder hergestellt werden kann, es also einen Datenverlust gibt. Auf den ersten Blick erscheint es so, dass verlustbehaftete Kompression für archivarische Zwecke überhaupt nicht in Frage kommt, doch so einfach ist es nicht. Verlustbehaftete Kompression erlaubt viel bessere Kompressionsraten als verlustfreie. Und spätestens bei digitalisiertem Videomaterial ist es, zumindest für kleine Archive ohne großes Budget nicht mehr finanzierbar, Videomaterial verlustfrei abzuspeichern.

Das macht deutlich, warum es so viele verschiedene Dateiformate gibt: Je nach Ausgangsmaterial, verfügbaren Resourcen und intendierten Anwendungszwecken gibt es unterschiedlichste Formate, die jeweils bestimmte Dinge sehr gut unterstützen und andere schlecht oder gar nicht. Bei der Wahl eines bestimmten Dateiformates wird es deshalb notwendig sein, Kompromisse zu machen. Diese Kompromisse sollten sich vor allem an den intendierten archivarischen Zwecken orientieren. Es wird aber, aus pragmatischen Gründen, manchmal notwendig sein, sich mit der zweit- oder drittbesten Lösung zufrieden zu geben, weil die beste Lösung, gerade für freie Archive, nicht finanzierbar ist.

=== Wie wähle ich das richtige Format für meine Bedürfnisse? ===

Bei der Wahl der Dateiformate bei der Digitalisierung stellt sich zuerst die Frage, wofür die Digitalisate verwendet werden sollen. Hierbei kann zwischen der Nutzung von Digitalisaten und der digitalen Langzeitarchivierung unterschieden werden. Nutzungsderivate zeichnen sich durch einfache Darstellbarkeit (mit für Nutzer*innen aktuell verfügbaren Geräten, Betriebssystemen), aber auch durch die einfache Auswertbarkeit oder digitale Übertragbarkeit aus. Formate für die digitale Langzeitarchivierung müssen möglichst stabil sein und weisen zudem eine hohe Informationsdichte auf. Ändern sich die Ansprüche an Nutzungsderivate, z. B. weil ein Dateiformat nicht mehr mit gängigen Geräten darstellbar ist, können auf Basis der Langzeitarchivierungsformate neue Nutzungsderivate erstellt werden. Bei der Wahl der Dateiformate ist es also praktisch, sich zunächst zu fragen, welche aktuellen und ggf. auch künftige Nutzungsformen die digitalisierten Medien ermöglichen sollen <Verweis auf Kapitel dLZA>. Auf forschungsdaten.info wird zwischen den Aspekten "Maschinen­lesbarkeit, Von Menschen lesbar, Langzeit­stabilität, Metadaten" unterschieden (https://forschungsdaten.info/themen/veroeffentlichen-und-archivieren/formate-erhalten/). Die vier Aspekte können in Betracht gezogen werden, wenn es darum geht, die richtigen Formate bei der Digitalisierung auszuwählen: Wie wichtig sind die jeweiligen Aspekte für die dauerhafte digitale Nutzbarkeit? Mit welchen Dateiformaten sind sie jeweils erreichbar?

Für verschiedene Medientypen/Erhaltungsgruppen (z.B. Text, Bild, Audio, Bewegtbild) bestehen verschiedene gängige Nutzungs- und Langzeitarchierungsformate. Quasi zum Standard geworden sind die [[#dfg_richtlinien|Vorgaben]] der Deutschen Forschungsgemeinschaft (DFG) <Quelle?>.

Ein Monitoring der technischen Entwicklung von Langzeitarchivierungsformaten nimmt die Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen KOST (https://kost-ceco.ch/cms/willkommen.html) vor.


=== Beispiel Archiv Soziale Bewegungen Freiburg ===

Die folgende Aufstellung dokumentiert beispielhaft die reale Praxis im Freiburger Archiv Soziale Bewegungen.

===== Graue Literatur =====

Bei Flugblättern, Broschüren, Zeitschriften (graue Literatur) generieren wir in der Regel nur PDF/A Dateien, auch für die Langzeitarchivierung. Bei besonders seltenen und/oder historisch sehr bedeutenden Dokumenten erstellen wir für die Langzeitarchivierung tif-Dateien, und zwar jeweils eine pro Seite. Diese fassen wir dann in einem zip-Archiv zusammen (wir verzichten auf die theoretische Möglichkeit, tif-Dateien mit mehreren Seiten zu erstellen, da es kaum Software gibt, die dieses tif-Feature unterstützt).

===== Textunikate =====

Bei Unikaten (Briefe, Protokolle etc.) wird immer ein zip-Archiv mit tif-Dateien erstellt, die Gebrauchskopie wird dann im PDF/A-Format erstellt.

==== Photos und Plakate ====

Photos und Plakate werden beide als jpg-Dateien digitalisiert, das Qualitätsniveau wird beim Abspeichern auf 95 gesetzt.

==== Audio ====

Für Audio verwenden wir in der Regel mp3. Dieses Format bzw. der damit einhergehende Kompressionsalgorithmus ist inzwischen patentfrei, einer Nutzung steht rechtlich nichts mehr entgegen. mp3-Komprimierung ist verlustbehaftet, aber die sowieso meist schlechte Qualität der Ausgangsmaterialien rechtfertigt nicht die Speicherung in einem verlustfreien Format. Wenn wir ausnahmsweise für die Langzeitarchivierung verlustfrei komprimierte Daten wollen, verwenden wir das FLAC Format.

==== Video ====

Hier unterscheiden wir nicht zwischen Gebrauchs- und Langzeitarchivierungskopien. Für Video verwenden wir das mp4-Format mit dem H.264 Codec für die Videokomprimierung und AAC für die Audiokomprimierung. Das ist suboptimal, sowohl der Video- wie der Audio-Codec sind durch Patente geschützt. Im Prinzip wäre es durchaus sinnvoll, stattdessen das ogg-Format mit theora und vorbis, zwei offenen Codecs, zu verwenden - die Dateigröße ändert sich dabei nur unwesentlich und die Qualität leidet auch nicht sichtbar. Das Problem sind aber die Abspielgeräte, die oft derartige Dateien nicht wiedergeben können.


=== Praxisbeispiel aus Karlsruhe für die Digitalisierung analog vorliegender Unterlagen ===

==== Akten und andere schriftliche Dokumente ====

Masterdatei (für Publikationen etc.): PDF/A 300dpi mit OCR-Erkennung

Komprimierte Nutzungsdatei: PDF/A 100dpi mit OCR-Erkennung

==== Fotos und Plakate ====

Masterdatei: TIFF 300dpi

Komprimierte Nutzungsdatei: JPG 100dpi

==== Audiodokumente ====

Masterdatei: WAV

Nutzungsdatei: mp3

==== Filmdokumente, z.B. Videokassetten ====

Masterdatei: AVI Codec FFV 1.3

Nutzungsdatei: mp4


=== Praxisbeispiel Archiv Deutsches Atomerbe ===

==== Aktenmaterial und Druckschriften ====

Masterdatei = Nutzungsdatei: PDF/A 300 dpi mit OCR-Erkennung

==== Plakate ====

Masterdatei = Nutzungsdatei: JPG 300 dpi, bei textlastigen Plakaten auch PDF/A 300 dpi mit OCR-Erkennung

==== Fotos ====

Masterdatei = Nutzungsdatei: JPG 600 dpi

==== Audiodokumente ====

Masterdatei: AIFF

Nutzungsdatei: MP3

==== Filmdokumente ====

Masterdatei: bislang noch nicht selber digitalisiert

Nutzungsdatei: MP4


=== Weiterführende Literatur und Links===

* <span id="dfg_richtlinien">[https://www.dfg.de/resource/blob/176108/898bf3574ad0ff3b1db525fa7d04c86c/12-151-v1216-de-data.pdf Praxisregeln] der Deutschen Forschungsgemeinschaft zur Digitalisierung</span>
* CNFDI: [https://docs.nfdi4culture.de/ta4-digital-preservation-basics/3-wie-kommen-materialien-in-ein-digitales-langzeitarchiv/3-4-identifizierung-erhaltenswerter-eigenschaften/dateiformate-fuer-die-langzeitarchivierung Dateiformate] für die Langzeitarchivierung:
*forschungsdaten.info: [https://forschungsdaten.info/themen/veroeffentlichen-und-archivieren/formate-erhalten/ Formate erhalten]
* [https://kost-ceco.ch/cms/willkommen.html Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen KOST].
* nestor-Arbeitsgruppe Media (2016): Leitfaden für die digitale Langzeitarchivierung audiovisueller Medien, Frankfurt am Main: urn:nbn:de:0008-2016102107


== Wie können wir Digitalisate online verfügbar machen?==
== Wie können wir Digitalisate online verfügbar machen?==

Aktuelle Version vom 15. Mai 2025, 06:19 Uhr

Warum sollten wir analoge Dokumente aus unserem Archiv digitalisieren?

Was sollten wir bei der Digitalisierung beachten?

Was sind geeignete Formate für Digitalisate?

Was sind Dateiformate und warum gibt es sie?

Zum Verständnis von Dateiformaten ist es notwendig, sich den Prozess der Digitalisierung zu vergegenwärtigen: Bei der Digitalisierung wird über analoge Daten (das können unter anderem Textdokumente, Photographien oder auch Schallwellen sein) ein Raster gelegt und aus jedem Rasterpunkt wird dann ein numerischer Wert generiert. Diese Werte müssen dann so abgespeichert werden, dass aus ihnen die analogen Daten so gut wie möglich wieder rekonstruiert werden können: Das Textdokument soll wieder ausgedruckt, die Photographie wieder auf dem Bildschirm angezeigt und der Klang der Schallplatte wieder hörbar gemacht werden können. Das heißt, es müssen nicht nur die nackten Werte, die bei der Digitalisierung anfallen, gespeichert werden, sondern es muss eine Vorschrift geben, wie diese numerischen Werte wieder zu einem sinnvollen Ganzen zusammengesetzt werden können. Diese Aufgabe leisten Dateiformate: Sie geben den numerischen Daten eine klare Struktur, die dann von Programmen genutzt werden können, um das ursprüngliche Objekt so gut wie möglich wieder herzustellen.

Dementsprechend fallen Dateiformate in zwei grundlegende unterschiedliche Kategorien: Proprietäre Dateiformate und offene Dateiformate. Proprietäres Dateiformat heißt: Das Wissen darüber, wie aus den numerischen Daten das Original wieder hergestellt werden kann, ist das Eigentum einer Firma. Diese kann das Wissen über das Format geheimhalten oder patentieren. Dann kann nur ein ausgewählter Kreis von Nutzer:innen das Format nutzen. Daraus ergibt sich schon von selbst, dass solche proprietären Formate für die Archivierung ungeeignet sind. Vor allem um eine Langzeitarchivierung zu gewährleisten, müssen Archive auf offene Formate setzen, um digitalisiertes Archivgut dauerhaft für die Allgemeinheit bereithalten zu können.

Dann haben unterschiedliche Dateiformate auch unterschiedliche Eigenschaften. Eine Datei im pdf-Format kann beispielsweise mehrere Seiten umfassen, während im jpeg-Format in einer Datei nur eine einzige Seite enthalten sein kann. Eine gif-Datei kann nur 256 verschiedene Farben abspeichern - während ein normaler Farbscan theoretisch mehr als 16 Millionen Farben liefert. Dafür kann das gif-Format Animationen enthalten, die verschiedene Bilder kombiniert. Es ist also kompliziert: Welches Format genutzt werden sollte, hängt von den sehr vielen unterschiedlichen Eigenschaften der Formate ab, über zumindest ein gewisses Grundwissen vorhanden sein sollte.

Das betrifft vor allem eine Eigenschaft, die für Archivzwecke von besonderer Wichtigkeit ist: Die Datenkompression. So gut wie kein Dateiformat speichert die bei der Digitalisierung anfallenden Rasterdaten einfach so ab, wie sie im Prozess der Rasterung analogen Materials entstanden sind, denn das verbraucht extrem viel Speicher. Deswegen stellen die unterschiedlichen Dateiformate verschiedene Kompressionsalgorithmen zur Verfügung, um den Speicherbedarf zu minimieren. Es gibt eine ungesunde Anzahl von Kompressionsalgorithmen, die sehr unterschiedlich funktionieren.

Dabei sind diese Kompressionsalgorithmen vor allem in zwei verschiedene Klassen zu unterteilen: Verlustfreie Kompression vs. verlustbehaftete Kompression. Verlustfrei heißt, dass trotz der Datenkomprimierung aus den gespeicherten Daten das originale Digitalisierungsraster 1:1 wieder hergestellt werden kann. Im Gegensatz dazu bedeutet verlustbehaftete Komprimierung, dass das originale Raster nur so ungefähr wieder hergestellt werden kann, es also einen Datenverlust gibt. Auf den ersten Blick erscheint es so, dass verlustbehaftete Kompression für archivarische Zwecke überhaupt nicht in Frage kommt, doch so einfach ist es nicht. Verlustbehaftete Kompression erlaubt viel bessere Kompressionsraten als verlustfreie. Und spätestens bei digitalisiertem Videomaterial ist es, zumindest für kleine Archive ohne großes Budget nicht mehr finanzierbar, Videomaterial verlustfrei abzuspeichern.

Das macht deutlich, warum es so viele verschiedene Dateiformate gibt: Je nach Ausgangsmaterial, verfügbaren Resourcen und intendierten Anwendungszwecken gibt es unterschiedlichste Formate, die jeweils bestimmte Dinge sehr gut unterstützen und andere schlecht oder gar nicht. Bei der Wahl eines bestimmten Dateiformates wird es deshalb notwendig sein, Kompromisse zu machen. Diese Kompromisse sollten sich vor allem an den intendierten archivarischen Zwecken orientieren. Es wird aber, aus pragmatischen Gründen, manchmal notwendig sein, sich mit der zweit- oder drittbesten Lösung zufrieden zu geben, weil die beste Lösung, gerade für freie Archive, nicht finanzierbar ist.

Wie wähle ich das richtige Format für meine Bedürfnisse?

Bei der Wahl der Dateiformate bei der Digitalisierung stellt sich zuerst die Frage, wofür die Digitalisate verwendet werden sollen. Hierbei kann zwischen der Nutzung von Digitalisaten und der digitalen Langzeitarchivierung unterschieden werden. Nutzungsderivate zeichnen sich durch einfache Darstellbarkeit (mit für Nutzer*innen aktuell verfügbaren Geräten, Betriebssystemen), aber auch durch die einfache Auswertbarkeit oder digitale Übertragbarkeit aus. Formate für die digitale Langzeitarchivierung müssen möglichst stabil sein und weisen zudem eine hohe Informationsdichte auf. Ändern sich die Ansprüche an Nutzungsderivate, z. B. weil ein Dateiformat nicht mehr mit gängigen Geräten darstellbar ist, können auf Basis der Langzeitarchivierungsformate neue Nutzungsderivate erstellt werden. Bei der Wahl der Dateiformate ist es also praktisch, sich zunächst zu fragen, welche aktuellen und ggf. auch künftige Nutzungsformen die digitalisierten Medien ermöglichen sollen <Verweis auf Kapitel dLZA>. Auf forschungsdaten.info wird zwischen den Aspekten "Maschinen­lesbarkeit, Von Menschen lesbar, Langzeit­stabilität, Metadaten" unterschieden (https://forschungsdaten.info/themen/veroeffentlichen-und-archivieren/formate-erhalten/). Die vier Aspekte können in Betracht gezogen werden, wenn es darum geht, die richtigen Formate bei der Digitalisierung auszuwählen: Wie wichtig sind die jeweiligen Aspekte für die dauerhafte digitale Nutzbarkeit? Mit welchen Dateiformaten sind sie jeweils erreichbar?

Für verschiedene Medientypen/Erhaltungsgruppen (z.B. Text, Bild, Audio, Bewegtbild) bestehen verschiedene gängige Nutzungs- und Langzeitarchierungsformate. Quasi zum Standard geworden sind die Vorgaben der Deutschen Forschungsgemeinschaft (DFG) <Quelle?>.

Ein Monitoring der technischen Entwicklung von Langzeitarchivierungsformaten nimmt die Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen KOST (https://kost-ceco.ch/cms/willkommen.html) vor.


Beispiel Archiv Soziale Bewegungen Freiburg

Die folgende Aufstellung dokumentiert beispielhaft die reale Praxis im Freiburger Archiv Soziale Bewegungen.

Graue Literatur

Bei Flugblättern, Broschüren, Zeitschriften (graue Literatur) generieren wir in der Regel nur PDF/A Dateien, auch für die Langzeitarchivierung. Bei besonders seltenen und/oder historisch sehr bedeutenden Dokumenten erstellen wir für die Langzeitarchivierung tif-Dateien, und zwar jeweils eine pro Seite. Diese fassen wir dann in einem zip-Archiv zusammen (wir verzichten auf die theoretische Möglichkeit, tif-Dateien mit mehreren Seiten zu erstellen, da es kaum Software gibt, die dieses tif-Feature unterstützt).

Textunikate

Bei Unikaten (Briefe, Protokolle etc.) wird immer ein zip-Archiv mit tif-Dateien erstellt, die Gebrauchskopie wird dann im PDF/A-Format erstellt.

Photos und Plakate

Photos und Plakate werden beide als jpg-Dateien digitalisiert, das Qualitätsniveau wird beim Abspeichern auf 95 gesetzt.

Audio

Für Audio verwenden wir in der Regel mp3. Dieses Format bzw. der damit einhergehende Kompressionsalgorithmus ist inzwischen patentfrei, einer Nutzung steht rechtlich nichts mehr entgegen. mp3-Komprimierung ist verlustbehaftet, aber die sowieso meist schlechte Qualität der Ausgangsmaterialien rechtfertigt nicht die Speicherung in einem verlustfreien Format. Wenn wir ausnahmsweise für die Langzeitarchivierung verlustfrei komprimierte Daten wollen, verwenden wir das FLAC Format.

Video

Hier unterscheiden wir nicht zwischen Gebrauchs- und Langzeitarchivierungskopien. Für Video verwenden wir das mp4-Format mit dem H.264 Codec für die Videokomprimierung und AAC für die Audiokomprimierung. Das ist suboptimal, sowohl der Video- wie der Audio-Codec sind durch Patente geschützt. Im Prinzip wäre es durchaus sinnvoll, stattdessen das ogg-Format mit theora und vorbis, zwei offenen Codecs, zu verwenden - die Dateigröße ändert sich dabei nur unwesentlich und die Qualität leidet auch nicht sichtbar. Das Problem sind aber die Abspielgeräte, die oft derartige Dateien nicht wiedergeben können.


Praxisbeispiel aus Karlsruhe für die Digitalisierung analog vorliegender Unterlagen

Akten und andere schriftliche Dokumente

Masterdatei (für Publikationen etc.): PDF/A 300dpi mit OCR-Erkennung

Komprimierte Nutzungsdatei: PDF/A 100dpi mit OCR-Erkennung

Fotos und Plakate

Masterdatei: TIFF 300dpi

Komprimierte Nutzungsdatei: JPG 100dpi

Audiodokumente

Masterdatei: WAV

Nutzungsdatei: mp3

Filmdokumente, z.B. Videokassetten

Masterdatei: AVI Codec FFV 1.3

Nutzungsdatei: mp4


Praxisbeispiel Archiv Deutsches Atomerbe

Aktenmaterial und Druckschriften

Masterdatei = Nutzungsdatei: PDF/A 300 dpi mit OCR-Erkennung

Plakate

Masterdatei = Nutzungsdatei: JPG 300 dpi, bei textlastigen Plakaten auch PDF/A 300 dpi mit OCR-Erkennung

Fotos

Masterdatei = Nutzungsdatei: JPG 600 dpi

Audiodokumente

Masterdatei: AIFF

Nutzungsdatei: MP3

Filmdokumente

Masterdatei: bislang noch nicht selber digitalisiert

Nutzungsdatei: MP4


Weiterführende Literatur und Links

Wie können wir Digitalisate online verfügbar machen?