Comprendre la compression PDF : équilibrer qualité et taille de fichier

Les fondamentaux de la compression PDF

La compression dans les documents PDF opère à plusieurs niveaux. Contrairement aux formats de fichier simples où un seul algorithme de compression est appliqué à l'ensemble du fichier, les PDF permettent différentes méthodes de compression pour différents flux de contenu au sein du même document. Le contenu textuel, les graphiques vectoriels et les images raster ont chacun des caractéristiques différentes qui répondent différemment aux algorithmes de compression, et le format PDF exploite cela en permettant des choix de compression par flux.

Au niveau le plus basique, la compression PDF réduit la taille du fichier en éliminant la redondance. La compression sans perte identifie des motifs dans les données et les représente plus efficacement, permettant une reconstruction parfaite des données originales. La compression avec perte va plus loin en éliminant les informations jugées moins importantes, obtenant une réduction de taille plus importante au prix d'une certaine perte de qualité. L'art de l'optimisation PDF réside dans le choix de la bonne méthode de compression et des bons paramètres pour chaque type de contenu.

La spécification PDF prend en charge plusieurs filtres de compression pouvant être appliqués aux flux de contenu : Flate (zlib/deflate), LZW, JPEG (DCT), JPEG2000 (JPX), CCITT Groupe 3 et 4, JBIG2 et le codage par plages (Run Length Encoding). Ces filtres peuvent même être chaînés, appliquant plusieurs passes de compression au même flux. Comprendre ce que chaque filtre fait bien et où il échoue est essentiel pour une optimisation PDF efficace.

Méthodes de compression sans perte dans les PDF

La compression sans perte préserve chaque bit des données originales et est essentielle pour le contenu où la précision compte, comme le texte, le dessin au trait et les documents destinés à l'impression ou à l'archivage. La principale méthode de compression sans perte dans les PDF modernes est la compression Flate, basée sur l'algorithme deflate (le même algorithme utilisé dans les fichiers ZIP et les images PNG). La compression Flate atteint généralement un ratio de compression de 2:1 à 10:1 sur les flux de contenu riches en texte, selon la redondance des données.

La compression LZW (Lempel-Ziv-Welch) est une méthode sans perte plus ancienne qui était largement utilisée avant que des préoccupations liées aux brevets ne conduisent à son remplacement par Flate dans la plupart des applications. LZW est toujours pris en charge dans la spécification PDF et peut être rencontré dans des documents plus anciens, mais Flate atteint généralement des ratios de compression égaux ou supérieurs et est universellement recommandé pour les nouveaux documents.

Pour les images monochromes (1 bit), la compression CCITT Groupe 4 est très efficace. Conçue à l'origine pour la transmission par fax, la compression CCITT Groupe 4 exploite le fait que la plupart des pixels d'une page de document typique sont blancs, et que les pixels noirs ont tendance à se regrouper selon des motifs prévisibles (caractères de texte, dessins au trait). Un scan monochrome à 300 DPI d'une page de texte peut être compressé d'environ 1 Mo non compressé à 30-50 Ko avec CCITT Groupe 4, soit un ratio de 20:1 ou mieux.

Compression avec perte : JPEG et JPEG2000

La compression JPEG (basée sur la DCT) est la méthode de compression avec perte la plus courante pour le contenu photographique dans les PDF. Le JPEG fonctionne en transformant les données d'image dans le domaine fréquentiel à l'aide de la transformée en cosinus discrète, puis en quantifiant les coefficients de fréquence, éliminant les détails haute fréquence moins perceptibles par l'œil humain. Le réglage de qualité (généralement de 1 à 100) contrôle l'agressivité avec laquelle la quantification élimine les données.

Les réglages de qualité JPEG présentent une relation non linéaire avec à la fois la taille du fichier et la qualité visuelle. Réduire la qualité de 100 à 85 réduit généralement la taille du fichier de 50 à 70 % sans pratiquement aucune perte de qualité visible. Réduire de 85 à 60 produit une autre réduction de taille significative avec une dégradation de qualité subtile visible uniquement lors d'une inspection rapprochée. En dessous de la qualité 40, les artefacts de compression (effet de bloc, effets de sonnerie et bandes de couleur) deviennent clairement visibles. Pour les documents PDF destinés à la consultation à l'écran, une qualité de 60 à 75 est généralement le point d'équilibre optimal. Pour les documents susceptibles d'être imprimés, une qualité de 75 à 85 est recommandée.

Le JPEG2000 est une norme de compression plus moderne qui utilise des transformées en ondelettes au lieu de la DCT. Il atteint de meilleurs ratios de compression que le JPEG à qualité visuelle équivalente, en particulier à des ratios de compression élevés. Le JPEG2000 prend également en charge la compression sans perte, le décodage progressif (permettant un aperçu flou qui se précise à mesure que davantage de données sont chargées) et le codage de région d'intérêt. Cependant, le JPEG2000 a des exigences de calcul plus élevées et n'est pas pris en charge par tous les lecteurs PDF. Il est utilisé dans les formats d'archivage PDF/A-2 et PDF/A-3.

Compression JBIG2 pour les documents numérisés

Le JBIG2 est une norme de compression spécialisée conçue pour les images bi-niveau (monochromes), en particulier les pages de documents numérisés. Il atteint une compression considérablement meilleure que le CCITT Groupe 4 en utilisant la correspondance de motifs et des dictionnaires de symboles. Le JBIG2 identifie les formes répétées sur une page (généralement des caractères), stocke un seul modèle pour chaque forme unique, puis enregistre la position de chaque instance. Comme une page de document typique réutilise les mêmes caractères des centaines de fois, cette approche peut comprimer une page numérisée à 300 DPI en seulement 5 à 15 Ko.

Le JBIG2 fonctionne en deux modes : sans perte et avec perte. En mode sans perte, chaque forme unique est stockée exactement, préservant chaque pixel. En mode avec perte, les formes similaires sont fusionnées en un seul modèle représentatif, améliorant encore la compression mais pouvant substituer des caractères. Ce comportement avec perte a gagné en notoriété en 2013 lorsqu'il a été découvert que certains scanners Xerox utilisant le JBIG2 avec perte remplaçaient silencieusement des caractères dans les documents numérisés, par exemple en changeant « 6 » en « 8 » sur un plan de construction.

Malgré les risques du mode avec perte, le JBIG2 reste l'une des méthodes de compression les plus efficaces pour les documents numérisés. Si vous utilisez le JBIG2, assurez-vous que vos outils utilisent soit le mode sans perte, soit un mode avec perte avec des seuils de similarité stricts qui empêchent la substitution de caractères. Certains outils d'optimisation PDF vous permettent de configurer le seuil de similarité JBIG2. Pour les documents où la précision textuelle est critique (juridiques, financiers, médicaux), utilisez le JBIG2 sans perte ou le CCITT Groupe 4 à la place.

Stratégies d'optimisation pour le contenu mixte

Les PDF du monde réel contiennent généralement un mélange de texte, de graphiques vectoriels, de photographies et de contenu numérisé. L'optimisation de ces documents nécessite l'application d'une compression appropriée à chaque type de contenu. Le concept de contenu raster mixte (MRC) a formalisé cette approche : une page est segmentée en couches, typiquement une couche de premier plan (texte et dessin au trait), une couche d'arrière-plan (contenu photographique) et une couche de masque (définissant quelles parties de chaque couche sont visibles).

La segmentation MRC permet de comprimer le texte avec JBIG2 ou CCITT Groupe 4 à haute résolution (300+ DPI) tandis que les photographies sont comprimées avec JPEG à plus basse résolution (150 DPI). Cette combinaison atteint de bien meilleurs résultats que l'application d'une seule méthode de compression à la page entière. Une page couleur numérisée qui pourrait peser 2 Mo en une seule image JPEG pourrait être réduite à 100-200 Ko avec la segmentation MRC, avec un texte plus net et une qualité photographique acceptable.

Tous les outils d'optimisation PDF ne prennent pas en charge le MRC. Ceux qui le font incluent ABBYY FineReader, Kofax et certaines configurations de Ghostscript. Lorsque le MRC n'est pas disponible, vous pouvez tout de même optimiser le contenu mixte en vous assurant que le processus de création du PDF utilise une compression appropriée par type de contenu : intégration des photographies en JPEG tout en conservant le texte et les graphiques vectoriels sous leur forme native avec une compression Flate sur le flux de contenu.

Artefacts de compression et évaluation de la qualité

Comprendre les artefacts de compression vous aide à choisir les paramètres appropriés et à évaluer les résultats d'optimisation. Les artefacts JPEG incluent l'effet de bloc (motifs de grille de pixels 8x8 visibles à haute compression), l'effet de sonnerie (halos autour des bords nets), les bandes de couleur (les dégradés lisses deviennent en escalier) et le bruit de moustique (motifs scintillants autour des bords dans les zones à fort contraste). Ces artefacts sont plus visibles dans les zones de couleur unie adjacentes à des détails fins, ce qui est exactement le motif que l'on trouve dans le texte rendu sous forme d'images.

L'évaluation de la qualité peut être objective ou subjective. Les métriques objectives incluent le PSNR (rapport signal/bruit crête), le SSIM (indice de similarité structurelle) et des métriques plus modernes comme le VMAF. Le PSNR mesure le rapport signal/bruit en décibels ; des valeurs supérieures à 40 dB indiquent généralement une perte de qualité imperceptible. Le SSIM fonctionne sur une échelle de 0 à 1 où 1,0 signifie identique ; des valeurs supérieures à 0,95 sont généralement considérées comme excellentes. Cependant, ces métriques ne corrèlent pas toujours avec la qualité perçue, car elles ne modélisent pas entièrement le système visuel humain.

Pour des besoins pratiques, la meilleure évaluation de la qualité est l'inspection visuelle dans les conditions de visualisation prévues. Consultez le PDF compressé à un zoom de 100 % sur un écran typique pour les documents optimisés pour l'écran. Pour les documents destinés à l'impression, imprimez une page de test et comparez-la à la version non compressée. Portez une attention particulière à la lisibilité du texte (surtout le petit texte), aux détails photographiques dans les zones d'intérêt et aux dégradés lisses. Si des artefacts sont visibles dans des conditions de visualisation normales, réduisez le niveau de compression jusqu'à ce qu'ils disparaissent.

Choisir les bons paramètres de compression

Les paramètres de compression optimaux dépendent de l'objectif du document, de son contenu et de sa méthode de diffusion. Pour les pièces jointes d'e-mail de documents professionnels (texte avec quelques graphiques et photos), utilisez la compression Flate pour les flux de texte, une qualité JPEG de 65 à 75 pour les photographies, et réduisez la résolution des images à 150 DPI. Cela produit généralement des fichiers de moins de 2 Mo pour un document de 10 à 20 pages.

Pour les documents hébergés sur le web destinés à la lecture à l'écran, des paramètres similaires s'appliquent, avec l'ajout de la linéarisation pour un affichage web rapide. Si le PDF sera consulté sur des appareils mobiles, une réduction de résolution d'image plus agressive à 96-120 DPI est acceptable car les écrans mobiles dépassent rarement 150 DPI effectifs aux distances de visualisation typiques.

Pour les documents destinés à l'impression professionnelle, conservez la résolution complète des images (300 DPI pour les photographies, 1200 DPI pour le dessin au trait) et utilisez une compression JPEG minimale (qualité 85-95) ou une compression sans perte. Pour les documents d'archivage selon les normes PDF/A, n'utilisez que les méthodes de compression autorisées par le niveau de conformité PDF/A ciblé. Le PDF/A-1 interdit le JPEG2000 et le LZW, tandis que le PDF/A-2 et le PDF/A-3 autorisent le JPEG2000.

En règle générale, ne compressez qu'une seule fois et au stade le plus tardif possible. La compression et décompression répétées d'images JPEG entraîne une perte de qualité générationnelle, où les artefacts s'accumulent à chaque cycle. Conservez vos documents maîtres en pleine qualité et produisez des versions compressées pour des canaux de diffusion spécifiques.