PDF/A in der Langzeitarchivierung

Schon konventionelle (Papier-) Dokumente stellen erhebliche Ansprüche, wenn die Aufbewahrungsdauer wenige Jahre übersteigt. Neben der Auswahl ausreichend dauerhaften Papiers und stabiler Druckfarben sowie der Sicherstellung geeigneter und langfristig stabiler Lagerbedingungen (günstige Luftfeuchtigkeit, Schutz gegen Feuer, Diebstahl etc.) sind, zumindest bei sehr langem Zeithorizont, auch Fragen der Lesbarkeit (Kenntnis der verwendeten Zeichensätze, Verständnis der Sprache) soweit möglich zu antizipieren. Weitere technische Voraussetzungen sind jedoch nicht notwendig, da auf Papier gedruckte Information von Menschen unmittelbar gelesen werden kann.

Ganz anders bei elektronischer Archivierung, die heute aus praktischen Gründen (Kosten, Platzbedarf, Zugriffsmöglichkeiten etc.) immer mehr Verbreitung findet.  Hier muss nicht nur sichergestellt werden, dass die Medien (CD, DVD, Festplatten etc.) unbeschädigt sind, es ist auch eine komplexe Hard- und Softwareinfrastruktur erforderlich, um die Daten in les- oder anderweitig nutzbarer Form darzustellen.

Die Verwendung weit verbreiteter, standardisierter Komponenten erhöht die Chance, dass Schnittstellen, Datenformate und andere Parameter auch noch in ferner Zukunft unterstützt werden. Aber auch hier gibt es noch Fallen, die eine spätere Nutzung archivierter Daten erschweren oder sogar ganz verhindern können. Im Gegensatz zu vielen anderen Dokumentformaten stellt Adobe’s PDF sicher, dass Seiten unabhängig vom Ausgabegerät immer gleich erscheinen.

Böse Überraschungen erwarten den Benutzer hier nicht. Dennoch ist PDF in den heute verbreiteten Versionen auf Grund seiner Struktur und seines technischen Umfelds nur bedingt als Format für die Langzeitarchivierung tauglich. Um es hierfür einsetzen zu können, müssen verschiedene Einschränkungen in Kauf, aber auch Ergänzungen am üblichen PDF vorgenommen werden, weshalb der PDF/A Standard (ISO 19005-1:2005) geschaffen wurde.  Er basiert auf der PDF-Version 1.4 (entsprechend Adobe Acrobat 5), und definiert die notwendigen Ergänzungen und Einschränkungen, um die Archivtauglichkeit zu garantieren.

Zu unterscheiden sind ferner die beiden Levels A und B, wobei Level B lediglich die korrekte visuelle Darstellung des Dokuments, Level A zusätzlich noch Korrektheit des Textes sowie seiner Struktur garantiert.

PDF/A

PDF/A ist eine Normreihe der ISO zur Verwendung des Portable Document Format (PDF) für die Langzeitarchivierung elektronischer Dokumente (Quelle Wikipedia).

PDF/A

  • Referenzen auf externe Daten bzw. Datenquellen sind strikt untersagt. Alle Daten (Bilder, Fonts sowie Metadaten) müssen in der jeweiligen Datei vollständig enthalten sein («Self-contained»)
  • Die Definition von Farben und Fonts muss komplett in der Datei beschrieben sein
  • Die Verschlüsselung von Daten sowie das Sperren von Funktionen (Kopieren, Drucken) sind in PDF/A unzulässig
  • Die Einbettung von Audio- und/oder Videodaten sowie von Script- und anderen dynamischen Funktionen ist nicht erlaubt