Sensible Informationen aus PDFs sicher schwärzen
Erfahren Sie den entscheidenden Unterschied zwischen echter Schwärzung und visueller Abdeckung sowie schrittweise Techniken zum dauerhaften Entfernen sensibler Inhalte.
Warum korrekte Schwärzung wichtig ist
Unsachgemäße PDF-Schwärzung hat zu zahlreichen aufsehenerregenden Informationslecks geführt. Wenn Personen Text mit einem schwarzen Rechteck mithilfe eines PDF-Annotationswerkzeugs überdecken, bleibt der Text darunter in der Datei und kann durch einfaches Entfernen der Annotation oder Kopieren des Textes dahinter extrahiert werden. Dies ist keine Schwärzung, sondern Dekoration. Echte Schwärzung entfernt den darunterliegenden Inhalt dauerhaft aus der PDF-Datei.
Mehrere weithin berichtete Vorfälle veranschaulichen die Konsequenzen. Im Jahr 2011 veröffentlichte die Transportation Security Administration ein geschwärztes Dokument über Flughafensicherheitsverfahren, doch die Schwärzungen waren einfache schwarze Rechtecke über Text, der ausgewählt und kopiert werden konnte. Im Jahr 2005 enthielt ein UN-Bericht über die Ermordung des libanesischen Premierministers Rafik Hariri Namen, die mit schwarzer Hervorhebung „“ wurden, die trivial entfernt werden konnte. Ein US-Militärdokument, das 2005 über die Erschießung eines italienischen Geheimdienstagenten im Irak veröffentlicht wurde, enthielt schwarze Balken über Text, der kopiert und eingefügt werden konnte, um geheime Informationen preiszugeben.
Diese Fehler traten auf, weil die Personen, die die Schwärzung durchführten, Werkzeuge verwendeten, die für Annotationen (Zeichnen, Hervorheben) statt für Schwärzung konzipiert waren. Eine visuelle Abdeckung verbirgt Inhalte auf dem Bildschirm und im Druck, ändert aber nicht die zugrunde liegenden Daten. Echte Schwärzung muss den PDF-Inhaltsstrom verändern, um den Text, die Bilder oder andere zu schwärzende Daten physisch zu entfernen.
Wie die PDF-Inhaltsspeicherung die Schwärzung beeinflusst
Das Verständnis, wie PDFs Inhalte speichern, ist für eine effektive Schwärzung unerlässlich. PDF-Seiten enthalten Inhaltsströme, die Sequenzen von Zeichenoperatoren sind, die Text, Bilder und Vektorgrafiken rendern. Text in einem Inhaltsstrom wird als Textoperatoren gespeichert, die Schrift, Position und Zeichencodes zum Rendern angeben. Wenn Sie Text auf einer PDF-Seite sehen, existiert dieser Text als Zeichendaten im Inhaltsstrom.
Einige PDF-Funktionen erstellen zusätzliche Kopien von Text, die ebenfalls geschwärzt werden müssen. Die Textebene in OCR-verarbeiteten Dokumenten dupliziert allen sichtbaren Text als unsichtbare Zeichen, die über dem gescannten Bild positioniert sind. Lesezeichen können den geschwärzten Text enthalten. Querverweistabellen in der PDF-Struktur können auf den geschwärzten Inhalt verweisen. Inkrementelle Speicherungen bewahren frühere Versionen der Seite auf, möglicherweise einschließlich des Inhalts vor der Schwärzung. XMP-Metadaten können Dokumentbeschreibungen enthalten, die auf die sensiblen Informationen verweisen.
Echte Schwärzung muss all diese Stellen berücksichtigen. Das einfache Löschen von Text aus dem sichtbaren Inhaltsstrom reicht nicht aus, wenn derselbe Text in der OCR-Ebene, einem Lesezeichen, einem Linkziel oder einer früheren Version verbleibt, die durch inkrementelle Speicherung erhalten wurde. Deshalb sind dedizierte Schwärzungswerkzeuge notwendig: Sie finden und entfernen alle Instanzen des Zielinhalts über alle PDF-Strukturen hinweg und speichern dann das Ergebnis, ohne den ursprünglichen Inhalt zu bewahren.
Schritt-für-Schritt-Schwärzungsprozess
Ein gründlicher Schwärzungsprozess folgt einer definierten Abfolge. Identifizieren Sie zunächst alle Inhalte, die geschwärzt werden müssen. Erstellen Sie einen Schwärzungsplan, der genau festlegt, welche Informationen entfernt werden müssen: bestimmte Namen, Kontonummern, Adressen, Daten oder andere Daten. Ein klarer Plan reduziert das Risiko, eine Instanz der sensiblen Informationen zu übersehen.
Verwenden Sie zweitens ein geeignetes Schwärzungswerkzeug, um Inhalte zur Schwärzung zu markieren. Das Schwärzungswerkzeug von Adobe Acrobat Pro ist das am häufigsten verwendete. Es ermöglicht die Suche nach bestimmtem Text (nützlich für Namen und Nummern, die mehrfach vorkommen) und das Markieren von Bereichen zur Schwärzung. Die markierten Bereiche werden hervorgehoben, aber noch nicht entfernt, was eine Überprüfung vor dem irreversiblen Schwärzungsschritt ermöglicht. Weitere Werkzeuge mit korrekten Schwärzungsfunktionen umfassen Foxit PDF Editor, Nitro Pro und das Open-Source-Werkzeug pdfredi.
Überprüfen Sie drittens alle Schwärzungsmarkierungen sorgfältig. Prüfen Sie jede Seite, um sicherzustellen, dass alle sensiblen Inhalte markiert sind und keine nicht-sensiblen Inhalte versehentlich eingeschlossen wurden. Bei mehrseitigen Dokumenten ist dieser Überprüfungsschritt kritisch und sollte idealerweise von einer anderen Person als derjenigen durchgeführt werden, die die Markierungen erstellt hat. Wenden Sie viertens die Schwärzungen an. Dieser Schritt entfernt den Inhalt dauerhaft und kann nicht rückgängig gemacht werden. Nach der Anwendung sollte das Schwärzungswerkzeug auch die inkrementelle Speicherhistorie, Metadaten, die auf den geschwärzten Inhalt verweisen könnten, und alle versteckten Textebenen entfernen.
Muster suchen und schwärzen
Für Dokumente, in denen derselbe Informationstyp wiederholt vorkommt (Sozialversicherungsnummern, E-Mail-Adressen, Telefonnummern), ist die musterbasierte Suche zuverlässiger als die manuelle Seite-für-Seite-Überprüfung. Das Schwärzungswerkzeug von Adobe Acrobat unterstützt Mustersuchen für gängige Datentypen: Sozialversicherungsnummern, Telefonnummern, E-Mail-Adressen, Kreditkartennummern und Daten. Sie können auch benutzerdefinierte Muster mit regulären Ausdrücken definieren.
Musterbasierte Schwärzung reduziert das Risiko, Instanzen zu übersehen, erheblich. Ein 100-seitiges Dokument könnte einen bestimmten Namen auf 30 Seiten enthalten, und die manuelle Überprüfung jeder Seite, um jede Instanz zu finden, ist fehleranfällig. Eine Textsuche findet alle Instanzen sofort. Die Mustererkennung hat jedoch Einschränkungen: Sie kann keine Informationen in Bildern finden (gescannter Text ohne OCR), sie kann Formatierungsvarianten übersehen („“ vs. „“ vs. „“), und sie versteht keinen Kontext (dieselbe Nummer könnte auf einer Seite eine Sozialversicherungsnummer und auf einer anderen eine Aktenreferenz sein).
Für eine umfassende Schwärzung kombinieren Sie mehrere Ansätze. Beginnen Sie mit Textsuchen nach bekannten sensiblen Zeichenketten. Fahren Sie mit Mustersuchen nach Datentypen fort, die überall dort geschwärzt werden sollten, wo sie auftreten. Führen Sie dann eine manuelle Seite-für-Seite-Überprüfung durch, um alles abzufangen, was automatisierte Methoden übersehen haben, wie sensible Informationen in Bildern, Diagrammen oder handschriftlichen Anmerkungen. Für Schwärzungen mit hohem Risiko (juristische Offenlegung, Informationsfreiheitsanfragen, Verschlusssachen) sollte eine zweite Person das geschwärzte Dokument unabhängig überprüfen.
Vollständigkeit der Schwärzung überprüfen
Nach der Anwendung von Schwärzungen ist die Überprüfung essentiell. Beginnen Sie mit einer visuellen Inspektion des Dokuments, um zu bestätigen, dass alle beabsichtigten Inhalte durch schwarze Balken (oder das gewählte Schwärzungserscheinungsbild) ersetzt wurden. Aber die visuelle Inspektion allein ist unzureichend, da Inhalte in nicht sichtbaren Ebenen verbleiben könnten.
Verwenden Sie die Textextraktion, um zu überprüfen, dass der geschwärzte Text nicht wiederherstellbar ist. Kopieren Sie den gesamten Text aus dem geschwärzten PDF (Alles auswählen, dann in einen Texteditor einfügen) und suchen Sie nach den sensiblen Zeichenketten. Sie sollten nicht erscheinen. Verwenden Sie ein Kommandozeilenwerkzeug wie pdftotext, um den gesamten Text zu extrahieren und programmatisch zu durchsuchen. Überprüfen Sie die Metadaten: Öffnen Sie die Dokumenteigenschaften und stellen Sie sicher, dass keine sensiblen Informationen in Titel, Autor, Betreff, Schlüsselwörtern oder benutzerdefinierten Eigenschaften verbleiben.
Für eine gründliche Überprüfung untersuchen Sie das PDF auf struktureller Ebene. Werkzeuge wie QPDF können die interne Struktur des PDFs als JSON exportieren, sodass Sie die Rohdaten der Objekte nach sensiblen Zeichenketten durchsuchen können. Dies erfasst Inhalte, die in der PDF-Struktur verborgen sein könnten, aber auf keiner Seite sichtbar sind. Überprüfen Sie eingebettete Dateien und Anhänge, die das ungeschwärzte Original enthalten könnten. Stellen Sie sicher, dass die Dateigröße mit der Inhaltsentfernung übereinstimmt; wenn die geschwärzte Datei nahezu die gleiche Größe wie das Original hat, wurde der Inhalt möglicherweise nicht wirklich entfernt. Ein ordnungsgemäß geschwärztes Dokument sollte etwas kleiner als das Original sein, da Inhaltsdaten gelöscht wurden.
Schwärzung im rechtlichen und Compliance-Kontext
Gerichtliche Verfahren erfordern häufig Schwärzungen. Bei der Offenlegung im Rahmen von Rechtsstreitigkeiten müssen Parteien Dokumente mit geschwärzten privilegierten oder irrelevanten Informationen vorlegen. Informationsfreiheitsantworten erfordern, dass Regierungsbehörden Dokumente mit geschwärzten ausgenommenen Informationen freigeben. Gesundheitsorganisationen schwärzen Patientenidentifikatoren, wenn sie Akten zu Forschungszwecken freigeben. Finanzinstitute schwärzen Kontonummern, wenn sie Transaktionsaufzeichnungen teilen.
Jeder Kontext hat spezifische Anforderungen. Rechtliche Schwärzungsprotokolle müssen dokumentieren, was geschwärzt wurde und auf welcher Rechtsgrundlage jede Schwärzung erfolgte (Anwalts-Mandanten-Privileg, Arbeitsprodukt, Geschäftsgeheimnis, Relevanz). Informationsfreiheitsschwärzungen müssen die spezifische Ausnahme zitieren. HIPAA-Schwärzungen müssen 18 Kategorien geschützter Gesundheitsinformationen (PHI) entfernen. Das Verständnis der spezifischen Anforderungen Ihres Kontexts stellt sicher, dass die Schwärzung sowohl ausreichend als auch nicht übermäßig ist.
Die Führung einer klaren Aufzeichnung des Schwärzungsprozesses ist wichtig für die rechtliche Verteidigungsfähigkeit. Dokumentieren Sie, wer die Schwärzung durchgeführt hat, wann sie durchgeführt wurde, welches Werkzeug verwendet wurde, welche Inhalte zur Schwärzung markiert wurden und warum, wer die Markierungen überprüft hat und wann die Schwärzungen angewendet wurden. Bewahren Sie eine Kopie des ursprünglichen ungeschwärzten Dokuments an einem sicheren Ort auf, da Sie möglicherweise zusätzliche Versionen mit unterschiedlichen Schwärzungsstufen erstellen müssen. Einige Fälle erfordern geschwärzte und ungeschwärzte Versionen für unterschiedliche Zielgruppen (eine geschwärzte Version für die Öffentlichkeit und eine ungeschwärzte Version für das Gericht unter Verschluss).
Häufige Schwärzungsfehler und wie Sie sie vermeiden
Der häufigste Fehler, die Verwendung von Annotationswerkzeugen anstelle von Schwärzungswerkzeugen, wurde bereits besprochen. Aber mehrere andere Fehler können die Schwärzung gefährden. Das Versäumnis, alle Kopien der Informationen zu schwärzen, ist häufig. Derselbe Name könnte im Fließtext, in der Kopfzeile, im Inhaltsverzeichnis, in einem Index und in den Metadaten erscheinen. Das Schwärzen des Fließtexts bei gleichzeitigem Belassen des Namens in der Kopfzeile verfehlt den Zweck.
Das Schwärzen von sichtbarem Text bei gleichzeitigem Belassen durchsuchbaren Texts (in einer OCR-Ebene) ist ein weiterer häufiger Fehler. Wenn das Dokument OCR-verarbeitet wurde, muss die Textebene zusammen mit dem sichtbaren Inhalt geschwärzt werden. Einige Schwärzungswerkzeuge handhaben dies automatisch; andere erfordern eine explizite Konfiguration.
Farbbasierte „“ (Änderung der Textfarbe auf Weiß oder an den Hintergrund angepasst) ist keine Schwärzung. Der Text verbleibt im Inhaltsstrom und kann durch Auswählen, Suchen oder Ändern der Hintergrundfarbe sichtbar gemacht werden. Ebenso entfernt das Überdecken von Inhalten mit einem Bild oder einer Formannotation nicht die darunterliegenden Daten.
Das Versäumnis, Dokumentmetadaten und Historie zu entfernen, wird häufig übersehen. Der Dokumenttitel könnte einen Fallnamen enthalten, der im Textkörper geschwärzt werden sollte. Das Autorenfeld könnte Informationen darüber preisgeben, wer das Dokument erstellt hat. Frühere Versionen, die durch inkrementelle Speicherungen gespeichert wurden, könnten den Inhalt vor der Schwärzung enthalten. Verwenden Sie immer die Bereinigung oder die Funktion zur Dokumentuntersuchung nach der Schwärzung, um diese Restdatenquellen zu entfernen. Speichern Sie das geschwärzte Dokument als neue Datei („“ statt „“), um sicherzustellen, dass der ursprüngliche Inhalt nicht durch inkrementelle Aktualisierung beibehalten wird.