PDF/A-Konformität: Ihr Leitfaden zur Langzeit-Dokumentenarchivierung
Alles, was Sie über PDF/A-Standards, Konformitätsstufen und die Erstellung von Dokumenten wissen müssen, die jahrzehntelang lesbar bleiben.
Was ist PDF/A und warum gibt es dieses Format
PDF/A ist eine Familie von ISO-Standards (ISO 19005), die für die Langzeitarchivierung elektronischer Dokumente entwickelt wurden. Während Standard-PDFs auf externe Ressourcen (Schriftarten, Farbprofile, Multimedia-Plugins) angewiesen sein können, die im Laufe der Zeit möglicherweise nicht mehr verfügbar sind, schreibt PDF/A vor, dass ein Dokument vollständig eigenständig sein muss, um sicherzustellen, dass es Jahrzehnte oder Jahrhunderte später identisch gerendert wird – unabhängig von der Software oder dem Betriebssystem, das zum Öffnen verwendet wird.
Der Bedarf an PDF/A entstand aus der zunehmenden Abhängigkeit von digitalen Dokumenten in rechtlichen, behördlichen und geschäftlichen Kontexten. Gerichtsunterlagen, Krankengeschichten, Jahresabschlüsse und Regierungsarchive müssen jahrzehntelang lesbar und rechtsgültig bleiben. Eine Standard-PDF aus dem Jahr 2005 könnte von einer bestimmten Schriftart abhängen, die nicht mehr vertrieben wird, einem eingebetteten Video, das einen veralteten Codec erfordert, oder JavaScript, das auf einen nicht mehr existierenden Webdienst verweist. PDF/A eliminiert diese Abhängigkeiten.
PDF/A wurde erstmals 2005 als ISO 19005-1 veröffentlicht (PDF/A-1), basierend auf PDF 1.4. Nachfolgende Versionen haben den Standard erweitert: PDF/A-2 (2011, basierend auf PDF 1.7) fügte Unterstützung für JPEG2000, Transparenz, Ebenen und PDF/A-Anhänge hinzu. PDF/A-3 (2012) erlaubte darüber hinaus das Anhängen von Nicht-PDF/A-Dateien. PDF/A-4 (2020, basierend auf PDF 2.0) vereinfachte die Konformitätsstufen und aktualisierte die Basisspezifikation. Jede Version adressiert die sich entwickelnden Anforderungen der digitalen Archivierung, während das Kernprinzip der Eigenständigkeit erhalten bleibt.
Konformitätsstufen erklärt
PDF/A definiert mehrere Konformitätsstufen, die unterschiedliche Compliance-Grade spezifizieren. PDF/A-1 definiert zwei Stufen: Stufe B (basic) gewährleistet die visuelle Reproduzierbarkeit, das heißt, das Dokument sieht beim Rendern gleich aus. Stufe A (accessible) fügt Anforderungen an die logische Dokumentstruktur und Textextraktion hinzu und verlangt im Wesentlichen, dass das Dokument getaggt und barrierefrei ist. Die Konformität mit Stufe A ist deutlich anspruchsvoller, da sie eine korrekte Tag-Struktur, Unicode-Zeichenzuordnung und Sprachspezifikation erfordert.
PDF/A-2 führte eine dritte Stufe ein: Stufe U (Unicode), die zwischen B und A liegt. Stufe U verlangt, dass der gesamte Text im Dokument Unicode-Äquivalente hat, wodurch sichergestellt wird, dass Text durchsucht und extrahiert werden kann, ohne das vollständige strukturelle Tagging der Stufe A zu erfordern. Dies adressierte eine praktische Lücke, da viele Organisationen durchsuchbare Dokumente benötigten, aber Stufe-A-Tagging als zu aufwendig empfanden.
Für die meisten Organisationen beinhaltet die Wahl zwischen den Konformitätsstufen Kompromisse zwischen Aufwand und Leistungsfähigkeit. Stufe B ist am einfachsten zu erreichen und reicht aus, wenn das Ziel rein die visuelle Bewahrung ist. Stufe U fügt Textdurchsuchbarkeit mit mäßigem Zusatzaufwand hinzu. Stufe A ist erforderlich, wenn Barrierefreiheit vorgeschrieben ist oder wenn die strukturelle Semantik des Dokuments erhalten bleiben muss. Behörden in vielen Ländern verlangen Stufe A für öffentlich zugängliche Dokumente, während Stufe B oder U für interne Archive ausreichen kann.
Wesentliche Anforderungen und Einschränkungen
PDF/A erreicht die Langzeitarchivierung, indem Funktionen verboten werden, die externe Abhängigkeiten oder Mehrdeutigkeiten schaffen. Das Verständnis dieser Einschränkungen ist für die Erstellung konformer Dokumente unerlässlich. Schriftarten müssen vollständig eingebettet werden, einschließlich aller im Dokument verwendeten Zeichen. Dies verhindert Rendering-Fehler, wenn Schriftarten auf dem System des Betrachters nicht verfügbar sind. Schriftarten-Subsetting ist erlaubt (Einbettung nur der verwendeten Zeichen), aber das eingebettete Subset muss ausreichen, um den gesamten Text zu rendern.
Alle Farbinformationen müssen geräteunabhängig sein. PDF/A erfordert entweder eine Ausgabeabsicht (ein ICC-Farbprofil, das das beabsichtigte Rendering beschreibt) oder die ausschließliche Verwendung geräteunabhängiger Farbräume wie CalRGB, CalGray oder Lab. Geräteabhängige Farbräume (DeviceRGB, DeviceCMYK, DeviceGray) sind nur bei Vorhandensein einer Ausgabeabsicht erlaubt. Dies stellt sicher, dass Farben in absoluten Werten definiert werden, anstatt von einem bestimmten Drucker oder Display abhängig zu sein.
JavaScript ist in PDF/A vollständig verboten. Skripte erzeugen unvorhersehbares Verhalten und externe Abhängigkeiten. Ebenso ist Verschlüsselung nicht erlaubt, da sie den zukünftigen Zugang verhindern könnte, wenn das Passwort verloren geht. Multimedia-Inhalte (Audio, Video) sind in PDF/A-1 verboten, aber in PDF/A-2 und PDF/A-3 mit Einschränkungen erlaubt. Externe Inhaltsreferenzen (URLs, Dateiverknüpfungen) sind verboten, da die referenzierten Inhalte in Zukunft möglicherweise nicht mehr existieren. Alle referenzierten Inhalte müssen in das Dokument eingebettet werden.
PDF/A-konforme Dokumente erstellen
Die zuverlässigste Methode zur Erstellung PDF/A-konformer Dokumente ist die direkte Generierung aus der Authoring-Anwendung. Microsoft Office, LibreOffice und InDesign unterstützen alle den PDF/A-Export. In Microsoft Word verwenden Sie Datei > Speichern unter > PDF und klicken auf Optionen, um eine PDF/A-Konformitätsstufe auszuwählen. LibreOffice bietet PDF/A-1b, PDF/A-2b und PDF/A-3b in seinen PDF-Exportoptionen an. InDesign bietet detaillierte Kontrolle über PDF/A-Einstellungen durch seine PDF-Export-Voreinstellungen.
Berücksichtigen Sie beim Erstellen von Dokumenten, die für PDF/A bestimmt sind, die Einschränkungen von Anfang an. Verwenden Sie Standardschriftarten oder Schriftarten, zu deren Einbettung Sie berechtigt sind. Vermeiden Sie Transparenzeffekte in PDF/A-1 (obwohl PDF/A-2 und spätere Versionen Transparenz erlauben). Verwenden Sie Vektorgrafiken anstelle von niedrig aufgelösten Bildern, wo es möglich ist. Stellen Sie sicher, dass alle Bilder eingebettet und nicht verlinkt sind. Legen Sie die Dokumentsprache in den Dokumenteigenschaften fest.
Für PDF/A-Konformität auf Stufe A verwenden Sie korrekte Überschriftenstile, erstellen Sie getaggte Inhalte mit den Strukturfunktionen der Authoring-Anwendung, fügen Sie allen Bildern Alternativtext hinzu und stellen Sie sicher, dass Tabellen korrekt mit Kopfzeilen strukturiert sind. Wenn das Dokument komplex ist, planen Sie die Tag-Struktur, bevor Sie mit der Inhaltserstellung beginnen. Die nachträgliche Einrichtung der Barrierefreiheit in einem fertigen Dokument ist deutlich zeitaufwendiger als eine von Anfang an integrierte Planung.
Bestehende PDFs in PDF/A konvertieren
Die Konvertierung bestehender PDFs in das PDF/A-Format ist eine häufige Anforderung, insbesondere für Organisationen, die ältere Dokumentensammlungen digitalisieren. Adobe Acrobat Pros Preflight-Tool enthält mehrere PDF/A-Konvertierungsprofile, die eine PDF analysieren, nicht-konforme Elemente identifizieren und versuchen, diese automatisch zu beheben. Der Konvertierungsprozess kann fehlende Schriftarten einbetten, Farbräume konvertieren, JavaScript entfernen und Transparenz reduzieren.
Die automatische Konvertierung funktioniert gut bei einfachen Dokumenten, erfordert aber bei komplexen oft manuelle Eingriffe. Häufige Probleme, die eine automatische Konvertierung verhindern, sind fehlende Schriftarten (wenn die Originalschrift nicht gefunden werden kann, kann der Konverter eine andere Schrift substituieren, was das Erscheinungsbild des Dokuments verändert), geräteabhängige Farben ohne Ausgabeabsicht und referenzierte externe Inhalte, die entweder eingebettet oder entfernt werden müssen.
Open-Source-Tools bieten Alternativen für die Stapelkonvertierung. Ghostscript kann PDFs mit bestimmten Ausgabegeräte-Einstellungen in PDF/A konvertieren. Das VeraPDF-Tool validiert die PDF/A-Konformität und liefert detaillierte Berichte über Nichtkonformitäten. LibreOffice kann Office-Dokumente per Kommandozeilen-Skript stapelweise in PDF/A konvertieren. Für Großprojekte bieten kommerzielle Tools wie ABBYY FineReader, Foxit PDF Editor und callas pdfaPilot Stapelverarbeitung mit detaillierter Berichterstattung und höheren Erfolgsraten bei komplexen Dokumenten.
PDF/A-Konformität validieren
Das Erstellen einer PDF mit Auswahl von PDF/A in den Exportoptionen garantiert keine Konformität. Viele Authoring-Tools erzeugen Dateien, die vorgeben, PDF/A zu sein (indem sie die entsprechenden Metadaten enthalten), aber nicht-konforme Elemente enthalten. Eine Validierung mit einem speziellen Tool ist unerlässlich.
VeraPDF ist der branchenübliche Open-Source-Validator für PDF/A-Dokumente. Entwickelt im Rahmen des europäischen PREFORMA-Projekts, validiert es alle Teile und Konformitätsstufen des PDF/A-Standards. VeraPDF liefert detaillierte Berichte, die jede Konformitätsverletzung aufführen, kategorisiert nach Schweregrad und mit Verweisen auf die relevante Klausel im ISO-Standard. Es kann als GUI-Anwendung, Kommandozeilen-Tool oder in Workflows über seine REST-API integriert werden.
Adobe Acrobat Pros Preflight-Tool validiert ebenfalls die PDF/A-Konformität und kann versuchen, identifizierte Probleme zu beheben. Die Preflight-Profile für PDF/A sind umfassend und werden regelmäßig aktualisiert. Callas pdfaPilot bietet sowohl Validierungs- als auch Korrekturfunktionen und wird in Produktions-Workflows weit verbreitet eingesetzt.
Validieren Sie das Dokument immer auf der spezifischen Konformitätsstufe, die Sie anstreben. Ein Dokument, das die PDF/A-1b-Validierung besteht, kann die PDF/A-1a-Validierung aufgrund fehlender Tags nicht bestehen. Ebenso kann ein Dokument, das PDF/A-1b-konform ist, Funktionen verwenden (wie JPEG2000 oder Transparenz), die es bei PDF/A-1b scheitern lassen, aber bei PDF/A-2b bestehen. Etablieren Sie einen Validierungsschritt in Ihrem Dokumenterstellungs-Workflow, um Konformitätsprobleme vor der Verteilung oder Archivierung zu erkennen.
PDF/A in branchenspezifischen Kontexten
Verschiedene Branchen haben PDF/A auf spezifische Weise übernommen, die ihren Archivierungsbedürfnissen entspricht. In der Rechtsbranche wird PDF/A zunehmend für Gerichtseinreichungen und die Dokumentenaufbewahrung verlangt. Das US-amerikanische Bundesgerichtssystem (PACER/CM/ECF) akzeptiert PDF/A-Dokumente, und einige Gerichtsbarkeiten schreiben es vor. Anwaltskanzleien verwenden PDF/A zur Archivierung von Fallakten, Verträgen und Korrespondenz und stellen so sicher, dass diese Unterlagen während ihrer gesamten Aufbewahrungsfrist zugänglich bleiben, die Jahrzehnte umfassen kann.
Gesundheitsorganisationen verwenden PDF/A zur Archivierung von Krankenakten, klinischen Studiendokumentationen und behördlichen Einreichungen. Die FDA akzeptiert PDF/A für elektronische Einreichungen, und viele elektronische Patientenakten-Systeme (EPA) können Dokumente im PDF/A-Format exportieren. Die langen Aufbewahrungsfristen für Krankenakten (oft 10+ Jahre für Erwachsene und noch länger für Kinderakten) machen die Archivierungsgarantien von PDF/A besonders wertvoll.
Regierungsbehörden gehören zu den größten Anwendern von PDF/A. Die US-amerikanischen National Archives (NARA) empfehlen PDF/A als bevorzugtes Format für permanente elektronische Unterlagen. Die Europäische Union verlangt PDF/A für offizielle Veröffentlichungen und Gesetzgebungsdokumente. Viele Nationalbibliotheken und Archive weltweit haben PDF/A als Teil ihrer digitalen Archivierungsstrategien übernommen. Finanzinstitute verwenden PDF/A für die regulatorische Compliance und archivieren Transaktionsaufzeichnungen, Auszüge und Prüfungsdokumentationen in einem Format, auf das Regulierungsbehörden bei Prüfungen zuverlässig zugreifen können.