Retour à tous les guides

Caviarder les informations sensibles des PDF en toute securite

Decouvrez la difference critique entre un veritable caviardage et un simple masquage visuel, ainsi que les techniques etape par etape pour supprimer definitivement le contenu sensible.

Matthias Baertschi
Founder & Lead Engineer
8 min

Pourquoi un caviardage correct est essentiel

Un caviardage PDF inapproprie a conduit a de nombreuses fuites d'informations tres mediatisees. Lorsque des personnes recouvrent du texte avec un rectangle noir a l'aide d'un outil d'annotation PDF, le texte sous-jacent reste dans le fichier et peut etre extrait en supprimant simplement l'annotation ou en copiant le texte derriere celle-ci. Ce n'est pas du caviardage, c'est de la decoration. Le veritable caviardage supprime definitivement le contenu sous-jacent du fichier PDF.

Plusieurs incidents largement relates illustrent les consequences. En 2011, la Transportation Security Administration a publie un document caviarde sur les procedures de controle aeroportuaire, mais les caviardages etaient de simples rectangles noirs sur du texte qui pouvait etre selectionne et copie. En 2005, un rapport de l'ONU sur l'assassinat du Premier ministre libanais Rafik Hariri contenait des noms "caviardes" avec un surlignage noir qui etait trivialement supprimable. Un document militaire americain publie en 2005 sur la fusillade d'un agent de renseignement italien en Irak contenait des barres noires sur du texte qui pouvait etre copie et colle pour reveler des informations classifiees.

Ces echecs sont survenus parce que les personnes effectuant le caviardage ont utilise des outils concus pour l'annotation (dessin, surlignage) plutot que des outils concus pour le caviardage. Un masquage visuel cache le contenu a l'ecran et a l'impression mais ne modifie pas les donnees sous-jacentes. Le veritable caviardage doit modifier le flux de contenu du PDF pour supprimer physiquement le texte, les images ou les autres donnees caviardees.

Comment le stockage du contenu PDF affecte le caviardage

Comprendre comment les PDF stockent le contenu est essentiel pour un caviardage efficace. Les pages PDF contiennent des flux de contenu, qui sont des sequences d'operateurs de dessin qui restituent le texte, les images et les graphiques vectoriels. Le texte dans un flux de contenu est stocke sous forme d'operateurs de texte qui specifient la police, la position et les codes de caracteres a restituer. Lorsque vous voyez du texte sur une page PDF, ce texte existe sous forme de donnees de caracteres dans le flux de contenu.

Certaines fonctionnalites PDF creent des copies supplementaires du texte qui doivent egalement etre caviardees. La couche de texte dans les documents soumis a l'OCR duplique tout le texte visible sous forme de caracteres invisibles positionnes sur l'image numerisee. Les signets peuvent contenir le texte caviarde. Les tables de references croisees dans la structure PDF peuvent referencer le contenu caviarde. Les sauvegardes incrementales conservent les versions precedentes de la page, incluant potentiellement le contenu pre-caviardage. Les metadonnees XMP peuvent contenir des descriptions de document qui referencent les informations sensibles.

Le veritable caviardage doit traiter tous ces emplacements. La simple suppression du texte du flux de contenu visible est insuffisante si le meme texte reste dans la couche OCR, un signet, une destination de lien ou une version precedente stockee par sauvegarde incrementale. C'est pourquoi des outils de caviardage dedies sont necessaires : ils localisent et suppriment toutes les instances du contenu cible dans toutes les structures PDF, puis enregistrent le resultat sans preserver le contenu original.

Processus de caviardage etape par etape

Un processus de caviardage rigoureux suit une sequence definie. Premierement, identifiez tout le contenu qui doit etre caviarde. Creez un plan de caviardage qui specifie exactement quelles informations doivent etre supprimees : noms specifiques, numeros de compte, adresses, dates ou autres donnees. Avoir un plan clair reduit le risque de manquer une instance de l'information sensible.

Deuxiemement, utilisez un outil de caviardage approprie pour marquer le contenu a caviarder. L'outil de caviardage d'Adobe Acrobat Pro est le plus largement utilise. Il vous permet de rechercher un texte specifique (utile pour les noms et numeros qui apparaissent plusieurs fois) et de marquer les zones a caviarder. Les zones marquees sont mises en evidence mais pas encore supprimees, permettant une revision avant l'etape de caviardage irreversible. D'autres outils disposant de capacites de caviardage appropriees incluent Foxit PDF Editor, Nitro Pro et l'outil open source pdfredi.

Troisiemement, revisez soigneusement toutes les marques de caviardage. Verifiez chaque page pour vous assurer que tout le contenu sensible est marque et qu'aucun contenu non sensible n'est accidentellement inclus. Pour les documents multi-pages, cette etape de revision est critique et devrait idealement etre effectuee par une personne differente de celle qui a cree les marques. Quatriemement, appliquez les caviardages. Cette etape supprime definitivement le contenu et ne peut pas etre annulee. Apres l'application, l'outil de caviardage devrait egalement supprimer l'historique de sauvegarde incrementale, les metadonnees qui pourraient referencer le contenu caviarde et toute couche de texte cachee.

Recherche et caviardage de motifs

Pour les documents ou le meme type d'information apparait de maniere repetee (numeros de securite sociale, adresses e-mail, numeros de telephone), la recherche par motifs est plus fiable que la revision manuelle page par page. L'outil de caviardage d'Adobe Acrobat prend en charge les recherches par motifs pour les types de donnees courants : numeros de securite sociale, numeros de telephone, adresses e-mail, numeros de carte de credit et dates. Vous pouvez egalement definir des motifs personnalises a l'aide d'expressions regulieres.

Le caviardage base sur les motifs reduit considerablement le risque de manquer des instances. Un document de 100 pages peut contenir un nom specifique sur 30 pages, et la revision manuelle de chaque page pour trouver chaque instance est source d'erreurs. Une recherche textuelle trouve toutes les instances immediatement. Cependant, la correspondance de motifs a des limites : elle ne peut pas trouver d'informations dans les images (texte numerise sans OCR), elle peut manquer des variations de formatage ("555-1234" vs "555 1234" vs "5551234"), et elle ne comprend pas le contexte (le meme numero pourrait etre un numero de securite sociale sur une page et une reference de dossier sur une autre).

Pour un caviardage complet, combinez plusieurs approches. Commencez par des recherches textuelles pour les chaines sensibles connues. Poursuivez avec des recherches par motifs pour les types de donnees qui devraient etre caviardes partout ou ils apparaissent. Effectuez ensuite une revision manuelle page par page pour detecter tout ce que les methodes automatisees ont manque, comme les informations sensibles dans les images, graphiques ou annotations manuscrites. Pour les caviardages a enjeux eleves (decouverte juridique, demandes d'acces a l'information, documents classifies), faites reviser independamment le document caviarde par une deuxieme personne.

Verifier l'exhaustivite du caviardage

Apres l'application des caviardages, la verification est essentielle. Commencez par inspecter visuellement le document pour confirmer que tout le contenu prevu est remplace par des barres noires (ou toute autre apparence de caviardage choisie). Mais l'inspection visuelle seule est insuffisante car du contenu pourrait rester dans des couches non visibles.

Utilisez l'extraction de texte pour verifier que le texte caviarde n'est pas recuperable. Copiez tout le texte du PDF caviarde (Tout selectionner, puis collez dans un editeur de texte) et recherchez les chaines sensibles. Elles ne devraient pas apparaitre. Utilisez un outil en ligne de commande comme pdftotext pour extraire tout le texte et le rechercher par programmation. Verifiez les metadonnees : ouvrez les proprietes du document et verifiez qu'aucune information sensible ne reste dans le titre, l'auteur, le sujet, les mots-cles ou les proprietes personnalisees.

Pour une verification approfondie, examinez le PDF au niveau structurel. Des outils comme QPDF peuvent exporter la structure interne du PDF en JSON, vous permettant de rechercher les chaines sensibles dans les donnees brutes des objets. Cela detecte du contenu qui pourrait etre cache dans la structure PDF mais non visible sur aucune page. Verifiez les fichiers integres et les pieces jointes qui pourraient contenir l'original non caviarde. Verifiez que la taille du fichier est coherente avec la suppression de contenu ; si le fichier caviarde a pratiquement la meme taille que l'original, le contenu n'a peut-etre pas ete veritablement supprime. Un document correctement caviarde devrait etre quelque peu plus petit que l'original car des donnees de contenu ont ete supprimees.

Le caviardage dans les contextes juridiques et de conformite

Les procedures juridiques necessitent frequemment le caviardage. Dans la communication de pieces en litige, les parties doivent produire des documents avec les informations privilegiees ou non pertinentes caviardees. Les reponses aux demandes d'acces a l'information exigent des organismes gouvernementaux qu'ils divulguent des documents avec les informations exemptees caviardees. Les etablissements de sante caviardent les identifiants des patients lors de la communication de dossiers a des fins de recherche. Les institutions financieres caviardent les numeros de compte lors du partage de releves de transactions.

Chaque contexte a des exigences specifiques. Les journaux de caviardage juridique doivent documenter ce qui a ete caviarde et le fondement juridique de chaque caviardage (secret professionnel avocat-client, produit du travail, secret commercial, pertinence). Les caviardages au titre de la loi sur l'acces a l'information doivent citer l'exemption specifique applicable. Les caviardages HIPAA doivent supprimer 18 categories d'informations de sante protegees (PHI). Comprendre les exigences specifiques de votre contexte garantit que le caviardage est a la fois suffisant et non excessif.

Maintenir un registre clair du processus de caviardage est important pour la defensibilite juridique. Documentez qui a effectue le caviardage, quand il a ete effectue, quel outil a ete utilise, quel contenu a ete marque pour le caviardage et pourquoi, qui a revise les marquages et quand les caviardages ont ete appliques. Conservez une copie du document original non caviarde dans un emplacement securise, car vous pourriez avoir besoin de produire des versions supplementaires avec differents niveaux de caviardage. Certaines affaires exigent des versions caviardees et non caviardees pour differents publics (une version caviardee pour le public et une version non caviardee pour le tribunal sous scelle).

Erreurs courantes de caviardage et comment les eviter

L'erreur la plus courante, utiliser des outils d'annotation au lieu d'outils de caviardage, a ete discutee. Mais plusieurs autres erreurs peuvent compromettre le caviardage. Ne pas caviarder toutes les copies de l'information est frequent. Le meme nom peut apparaitre dans le corps du texte, l'en-tete, la table des matieres, un index et les metadonnees. Caviarder le corps du texte tout en laissant le nom dans l'en-tete annule l'objectif.

Caviarder le texte visible tout en laissant le texte recherchable (dans une couche OCR) intact est une autre defaillance courante. Si le document a ete soumis a l'OCR, la couche de texte doit etre caviardee en meme temps que le contenu visible. Certains outils de caviardage gerent cela automatiquement ; d'autres necessitent une configuration explicite.

Le "caviardage" base sur la couleur (changer la couleur du texte en blanc ou pour correspondre a l'arriere-plan) n'est pas un caviardage. Le texte reste dans le flux de contenu et peut etre revele en le selectionnant, en le recherchant ou en changeant la couleur de l'arriere-plan. De meme, recouvrir le contenu avec une image ou une annotation de forme ne supprime pas les donnees sous-jacentes.

Ne pas supprimer les metadonnees et l'historique du document est souvent neglige. Le titre du document pourrait contenir un nom d'affaire qui devrait etre caviarde du corps. Le champ auteur pourrait reveler des informations sur qui a prepare le document. Les versions precedentes stockees par sauvegardes incrementales pourraient contenir le contenu pre-caviardage. Utilisez toujours la fonction d'assainissement ou d'examen du document apres le caviardage pour supprimer ces sources de donnees residuelles. Enregistrez le document caviarde comme un nouveau fichier ("Enregistrer sous" plutot que "Enregistrer") pour vous assurer que le contenu original n'est pas conserve par mise a jour incrementale.

Matthias Baertschi
Founder & Lead Engineer

Matthias est le fondateur et l'ingénieur principal de PDF Tools. Il travaille sur le pipeline de traitement PDF dans le navigateur avec pdf-lib et pdfjs-dist, en mettant l'accent sur la confidentialité côté client : les documents sont traités localement et ne sont jamais envoyés sur un serveur. Voir le profil de l'auteur