Comment optimiser les PDF pour la diffusion par e-mail et sur le web

Pourquoi la taille des fichiers PDF est importante pour la diffusion

La taille des fichiers PDF a un impact direct sur l'efficacité avec laquelle vous pouvez partager des documents par e-mail et sur le web. La plupart des fournisseurs de messagerie imposent des limites de pièces jointes : Gmail plafonne les pièces jointes à 25 Mo, Outlook à 20 Mo, et de nombreux serveurs de messagerie d'entreprise fixent des seuils encore plus bas de 10 Mo. Lorsqu'un PDF dépasse ces limites, l'expéditeur doit recourir à des services de partage de fichiers, ce qui ajoute des frictions à la communication et peut soulever des préoccupations de sécurité chez le destinataire.

Sur le web, la taille des fichiers affecte le temps de chargement des pages, ce qui a un impact sur l'engagement des utilisateurs et le classement dans les moteurs de recherche. Google a confirmé à plusieurs reprises que la vitesse des pages est un facteur de classement, et cela s'étend aux documents PDF liés depuis des pages web. Une étude de Google a révélé qu'à mesure que le temps de chargement d'une page passe de 1 à 3 secondes, la probabilité qu'un utilisateur quitte la page augmente de 32 %. Pour les PDF intégrés dans des pages web ou proposés en téléchargement, chaque mégaoctet compte.

Au-delà des limites techniques, les PDF volumineux créent une mauvaise expérience utilisateur sur les appareils mobiles. Les utilisateurs sur des connexions cellulaires peuvent avoir des forfaits de données limités, et télécharger un PDF de 50 Mo sur une connexion 3G peut prendre plusieurs minutes. Optimiser les PDF en termes de taille garantit que vos documents sont accessibles au public le plus large possible, quelle que soit la vitesse de connexion, le fournisseur de messagerie ou les capacités de l'appareil.

Comprendre ce qui rend les PDF volumineux

Pour réduire efficacement la taille d'un PDF, vous devez comprendre ce qui contribue au gonflement du fichier. Le plus grand contributeur est presque toujours les images. Une seule photographie haute résolution intégrée à 300 DPI en couleur peut consommer plusieurs mégaoctets. Les PDF créés à partir de documents numérisés sont essentiellement des collections de grandes images et peuvent facilement atteindre des centaines de mégaoctets pour des documents de plusieurs pages.

Les polices sont le deuxième contributeur majeur. Lorsqu'un PDF intègre un fichier de police complet, il inclut chaque glyphe de la police, même ceux non utilisés dans le document. Une seule police OpenType peut peser 500 Ko ou plus, et les documents utilisant plusieurs familles de polices peuvent accumuler plusieurs mégaoctets de données de polices seules. Le sous-ensemble de polices, qui n'inclut que les glyphes réellement utilisés, peut réduire cela considérablement.

D'autres contributeurs incluent les contenus multimédias intégrés (audio, vidéo, modèles 3D), les données de champs de formulaire, le JavaScript, les métadonnées du document, les vignettes et la structure du document elle-même. Les PDF qui ont été modifiés à plusieurs reprises peuvent contenir des objets orphelins, des données de sauvegarde incrémentielle des versions précédentes et des ressources en double. Un PDF ayant subi de nombreuses modifications peut être significativement plus volumineux qu'un fichier fraîchement créé avec le même contenu, simplement en raison de la surcharge accumulée lors du processus d'édition.

Stratégies de compression d'images

Puisque les images sont le principal facteur de la taille des fichiers PDF, la compression d'images offre la plus grande opportunité de réduction. Le format PDF prend en charge plusieurs méthodes de compression d'images : JPEG (avec perte), JPEG2000 (avec et sans perte), Flate/ZIP (sans perte), CCITT (pour les images monochromes) et JBIG2 (pour le monochrome, avec un mode optionnel avec perte). Le choix de la méthode de compression dépend du contenu de l'image et du compromis de qualité acceptable.

Pour le contenu photographique, la compression JPEG avec un réglage de qualité de 60 à 75 % produit généralement des fichiers visuellement impossibles à distinguer de l'original à des distances de visualisation normales, tout en réduisant la taille de 80 à 90 % par rapport aux images non compressées. Si le PDF est destiné à être consulté à l'écran plutôt qu'imprimé, la réduction de la résolution des images à 150 DPI (au lieu des 300 DPI habituels) divise par deux le nombre de pixels dans chaque dimension, réduisant les données d'image d'environ 75 %.

Pour les documents contenant principalement du texte et des dessins au trait (comme les documents numérisés après OCR), la compression monochrome utilisant CCITT Groupe 4 ou JBIG2 est bien plus efficace que le JPEG. La conversion d'une numérisation couleur en monochrome et l'application de la compression CCITT peuvent réduire une page de 5 Mo à moins de 50 Ko. Pour les pages à contenu mixte avec à la fois des photos et du texte, certains outils peuvent segmenter la page et appliquer une compression différente à différentes régions, utilisant le JPEG pour les zones photographiques et le CCITT pour les régions de texte.

Optimisation et sous-ensemble de polices

Le sous-ensemble de polices est le processus de suppression des glyphes inutilisés dans les polices intégrées. Si votre document utilise le mot « Bonjour » en Arial, il n'a besoin que des glyphes pour B, o, n, j, u, r, et non de l'ensemble complet des caractères Arial de plus de 3 000 glyphes. La plupart des outils de création de PDF effectuent automatiquement le sous-ensemble, mais les documents modifiés dans certaines applications peuvent accumuler des intégrations de polices complètes.

Pour vérifier l'utilisation des polices dans un PDF, examinez les propriétés du document dans Adobe Acrobat ou utilisez un outil en ligne de commande comme pdffonts (faisant partie des utilitaires Poppler). Celui-ci affichera chaque police, si elle est intégrée ou en sous-ensemble, et l'encodage utilisé. Recherchez les polices indiquées « Intégrée » plutôt que « Sous-ensemble intégré » comme candidates à l'optimisation.

Une autre technique d'optimisation des polices consiste à convertir le texte en contours (chemins vectoriels) pour les documents qui n'ont pas besoin d'extraction de texte ou de possibilité de recherche. Cela élimine complètement l'intégration des polices et remplace chaque caractère par sa représentation géométrique. Cependant, cela augmente la taille du fichier pour les documents riches en texte car les chemins vectoriels nécessitent plus de données que les références de polices pour de grandes quantités de texte. C'est surtout utile pour les documents avec un minimum de texte, comme les fichiers de conception ou les logos. Pour les documents où la possibilité de recherche est importante, conservez les polices intégrées et en sous-ensemble plutôt que de les convertir en contours.

Linéarisation : affichage web rapide

La linéarisation, également connue sous le nom d'« affichage web rapide » ou « optimisation web », restructure un PDF de sorte que la première page puisse être affichée avant que le fichier entier ne soit téléchargé. Dans un PDF non linéarisé, la table de références croisées qui cartographie les emplacements des objets se trouve à la fin du fichier. Un navigateur web doit télécharger l'intégralité du fichier avant de pouvoir localiser et rendre une page quelconque. Dans un PDF linéarisé, les informations de références croisées pour la première page sont placées au début, ainsi que tous les objets nécessaires pour rendre cette première page.

Cette réorganisation n'a aucun effet sur la taille du fichier mais améliore considérablement la performance perçue pour les PDF hébergés sur le web. Lorsqu'un utilisateur clique sur un lien vers un PDF linéarisé, son navigateur peut commencer à rendre la première page presque immédiatement tandis que le reste du fichier continue de se télécharger en arrière-plan. Pour un document de 10 Mo, cela signifie que l'utilisateur voit le contenu en quelques secondes plutôt que d'attendre le téléchargement complet.

La linéarisation est particulièrement importante pour les PDF servis depuis des serveurs web qui prennent en charge les requêtes HTTP par plages d'octets. Avec la prise en charge des plages d'octets, un lecteur PDF peut demander des portions spécifiques du fichier, permettant aux utilisateurs d'accéder à n'importe quelle page sans télécharger l'intégralité du document. L'option « Enregistrer sous » d'Adobe Acrobat inclut un paramètre « Affichage web rapide ». Les outils en ligne de commande comme QPDF peuvent linéariser des PDF existants. Si vous publiez régulièrement des PDF sur un site web, intégrez la linéarisation dans votre flux de publication.

Suppression des éléments PDF inutiles

Les PDF contiennent souvent des éléments qui augmentent la taille du fichier sans apporter de valeur au lecteur final. La suppression de ces éléments peut réduire la taille de manière significative. Commencez par les métadonnées : les documents PDF peuvent contenir des métadonnées XMP étendues, des propriétés personnalisées, un historique de révision du document et des vignettes intégrées. Bien que les métadonnées soient utiles pour la gestion documentaire, elles sont souvent inutiles pour la diffusion et peuvent ajouter des dizaines de kilo-octets à la taille du fichier.

Les champs de formulaire, le JavaScript et les éléments interactifs ajoutent de la surcharge. Si un formulaire PDF remplissable a été complété et que le destinataire n'a pas besoin de modifier les réponses, l'aplatissement du formulaire (conversion des champs de formulaire en contenu statique) réduit la taille et empêche les modifications accidentelles. De même, le JavaScript utilisé pour la validation de formulaire ou le contenu dynamique peut être supprimé de la version finale distribuée.

Les annotations et le balisage qui faisaient partie d'un processus de révision doivent être aplatis ou supprimés avant la diffusion. Chaque commentaire, surlignage ou note adhésive est un objet PDF séparé qui ajoute à la taille du fichier. Les informations de production d'impression comme les profils colorimétriques, les intentions de sortie et les repères d'impression sont importants pour l'impression commerciale mais inutiles pour la diffusion par e-mail et sur le web. La suppression des profils ICC seuls peut économiser plusieurs centaines de kilo-octets. Enfin, supprimez tous les fichiers intégrés ou pièces jointes qui ne sont pas essentiels à l'objectif du document.

Flux de travail d'optimisation automatisés

Pour les organisations qui produisent et diffusent régulièrement des PDF, l'optimisation manuelle n'est pas viable. L'établissement de flux de travail automatisés garantit une qualité et une taille de fichier cohérentes pour tous les documents publiés. L'approche la plus simple consiste à configurer les paramètres de création PDF dans votre application de rédaction. Dans Microsoft Word, les options d'export PDF vous permettent de définir la résolution des images, l'intégration des polices et l'inclusion ou non d'informations non imprimables. Configurer ces paramètres correctement dès la création évite la nécessité d'une optimisation en post-traitement.

Pour le post-traitement, des outils comme Ghostscript offrent une optimisation PDF en ligne de commande qui peut être intégrée dans des scripts et des systèmes de compilation. Les modes de sortie PDF de Ghostscript (écran, livre numérique, imprimante, prépresse) appliquent une compression progressivement moins agressive, ce qui facilite le choix du bon équilibre pour votre cas d'usage. Le paramètre « ebook », qui cible des images à 150 DPI et un sous-ensemble de polices standard, est une bonne valeur par défaut pour la diffusion par e-mail et sur le web.

Les outils PDF basés sur le navigateur offrent une optimisation sans installation de logiciel. Le traitement côté client garantit que les documents sensibles ne quittent jamais votre appareil. Pour les environnements d'équipe, établissez des directives de taille de PDF (par exemple, moins de 5 Mo pour les pièces jointes d'e-mail, moins de 2 Mo pour les téléchargements web) et fournissez aux membres de l'équipe des procédures d'optimisation faciles à suivre. Les modèles de documents devraient être préconfigurés avec des paramètres optimisés afin que la sortie par défaut soit déjà adaptée à la diffusion.

Mesure et validation des résultats d'optimisation

Après avoir optimisé un PDF, validez que l'optimisation a atteint la réduction de taille souhaitée sans perte de qualité inacceptable. Comparez la taille du fichier optimisé à vos seuils cibles. Un PDF bien optimisé d'un document professionnel typique de 10 pages avec quelques images devrait être inférieur à 2 Mo. Les documents uniquement textuels devraient être bien en dessous de 500 Ko.

La qualité visuelle doit être vérifiée à la taille d'affichage prévue. Si le PDF sera consulté à l'écran, zoomez à 100 % et inspectez les images et le texte à la recherche d'artefacts. Les artefacts de compression JPEG sont plus visibles dans les zones de couleur unie adjacentes à des zones détaillées, et dans le texte rendu sous forme d'images. Si le PDF peut être imprimé, zoomez à 200-300 % pour vérifier les problèmes de qualité qui seraient visibles à l'impression.

Vérifiez que le texte reste sélectionnable et consultable après l'optimisation. Certains outils d'optimisation agressifs peuvent par inadvertance convertir le texte en images. Vérifiez que les hyperliens, les signets et la table des matières fonctionnent toujours correctement. Pour les documents accessibles, effectuez une vérification d'accessibilité pour vous assurer que les balises, l'ordre de lecture et le texte alternatif ont survécu au processus d'optimisation. Conservez une copie du fichier original non optimisé au cas où vous auriez besoin de réoptimiser avec des paramètres différents ou d'extraire des images haute qualité ultérieurement.