Volver a todas las guías

Redacción Segura de Información Sensible en PDF

Conozca la diferencia crítica entre la redacción verdadera y la cobertura visual, además de técnicas paso a paso para eliminar permanentemente contenido sensible.

Matthias Baertschi
Founder & Lead Engineer
8 min

Por Qué la Redacción Adecuada Es Importante

La redacción inadecuada de PDF ha provocado numerosas filtraciones de información de alto perfil. Cuando las personas cubren texto con un rectángulo negro usando una herramienta de anotación de PDF, el texto debajo permanece en el archivo y se puede extraer simplemente eliminando la anotación o copiando el texto detrás de ella. Esto no es redacción; es decoración. La redacción verdadera elimina permanentemente el contenido subyacente del archivo PDF.

Varios incidentes ampliamente reportados ilustran las consecuencias. En 2011, la Administración de Seguridad del Transporte de EE. UU. publicó un documento redactado sobre los procedimientos de control en aeropuertos, pero las redacciones eran simples rectángulos negros sobre texto que se podía seleccionar y copiar. En 2005, un informe de la ONU sobre el asesinato del primer ministro libanés Rafik Hariri tenía nombres "redactados" con resaltado negro que se eliminaba trivialmente. Un documento militar estadounidense publicado en 2005 sobre el tiroteo de un agente de inteligencia italiano en Irak contenía barras negras sobre texto que se podía copiar y pegar para revelar información clasificada.

Estos fallos ocurrieron porque las personas que realizaban la redacción usaron herramientas diseñadas para anotación (dibujo, resaltado) en lugar de herramientas diseñadas para redacción. Una cobertura visual oculta el contenido en pantalla y en la impresión pero no modifica los datos subyacentes. La redacción verdadera debe alterar el flujo de contenido del PDF para eliminar físicamente el texto, las imágenes u otros datos que se están redactando.

Cómo el Almacenamiento de Contenido del PDF Afecta la Redacción

Comprender cómo los PDF almacenan el contenido es esencial para una redacción efectiva. Las páginas PDF contienen flujos de contenido, que son secuencias de operadores de dibujo que representan texto, imágenes y gráficos vectoriales. El texto en un flujo de contenido se almacena como operadores de texto que especifican la fuente, la posición y los códigos de caracteres a representar. Cuando ve texto en una página PDF, ese texto existe como datos de caracteres en el flujo de contenido.

Algunas funciones del PDF crean copias adicionales del texto que también deben redactarse. La capa de texto en documentos con OCR duplica todo el texto visible como caracteres invisibles posicionados sobre la imagen escaneada. Los marcadores pueden contener el texto redactado. Las tablas de referencias cruzadas en la estructura del PDF pueden hacer referencia al contenido redactado. Los guardados incrementales preservan versiones anteriores de la página, potencialmente incluyendo el contenido previo a la redacción. Los metadatos XMP pueden contener descripciones del documento que hacen referencia a la información sensible.

La redacción verdadera debe abordar todas estas ubicaciones. Simplemente eliminar texto del flujo de contenido visible es insuficiente si el mismo texto permanece en la capa OCR, un marcador, un destino de enlace o una versión anterior almacenada mediante guardado incremental. Por eso son necesarias las herramientas de redacción dedicadas: localizan y eliminan todas las instancias del contenido objetivo en todas las estructuras del PDF, y luego guardan el resultado sin preservar el contenido original.

Proceso de Redacción Paso a Paso

Un proceso de redacción exhaustivo sigue una secuencia definida. Primero, identifique todo el contenido que necesita ser redactado. Cree un plan de redacción que especifique exactamente qué información debe eliminarse: nombres específicos, números de cuenta, direcciones, fechas u otros datos. Tener un plan claro reduce el riesgo de omitir una instancia de la información sensible.

Segundo, utilice una herramienta de redacción adecuada para marcar el contenido para redacción. La herramienta de redacción de Adobe Acrobat Pro es la más utilizada. Permite buscar texto específico (útil para nombres y números que aparecen múltiples veces) y marcar áreas para redacción. Las áreas marcadas se resaltan pero aún no se eliminan, permitiendo la revisión antes del paso irreversible de redacción. Otras herramientas con capacidades de redacción adecuadas incluyen Foxit PDF Editor, Nitro Pro y la herramienta de código abierto pdfredi.

Tercero, revise todas las marcas de redacción cuidadosamente. Verifique cada página para asegurar que todo el contenido sensible esté marcado y que ningún contenido no sensible se haya incluido accidentalmente. Para documentos de varias páginas, este paso de revisión es crítico e idealmente debe ser realizado por alguien diferente a la persona que creó las marcas. Cuarto, aplique las redacciones. Este paso elimina permanentemente el contenido y no se puede deshacer. Después de aplicar, la herramienta de redacción también debe eliminar el historial de guardado incremental, los metadatos que puedan hacer referencia al contenido redactado y cualquier capa de texto oculta.

Búsqueda y Redacción de Patrones

Para documentos donde el mismo tipo de información aparece repetidamente (números de seguro social, direcciones de correo electrónico, números de teléfono), la búsqueda basada en patrones es más confiable que la revisión manual página por página. La herramienta de redacción de Adobe Acrobat admite búsquedas de patrones para tipos de datos comunes: números de seguro social, números de teléfono, direcciones de correo electrónico, números de tarjetas de crédito y fechas. También puede definir patrones personalizados usando expresiones regulares.

La redacción basada en patrones reduce significativamente el riesgo de omitir instancias. Un documento de 100 páginas podría contener un nombre específico en 30 páginas, y revisar manualmente cada página para encontrar cada instancia es propenso a errores. Una búsqueda de texto encuentra todas las instancias inmediatamente. Sin embargo, la coincidencia de patrones tiene limitaciones: no puede encontrar información en imágenes (texto escaneado sin OCR), puede omitir variaciones en el formato ("555-1234" vs. "555 1234" vs. "5551234"), y no comprende el contexto (el mismo número podría ser un número de seguro social en una página y una referencia de caso en otra).

Para una redacción completa, combine múltiples enfoques. Comience con búsquedas de texto para cadenas sensibles conocidas. Continúe con búsquedas de patrones para tipos de datos que deben redactarse dondequiera que aparezcan. Luego realice una revisión manual página por página para detectar cualquier cosa que los métodos automatizados hayan omitido, como información sensible en imágenes, gráficos o anotaciones manuscritas. Para redacciones de alta importancia (descubrimiento legal, solicitudes FOIA, documentos clasificados), haga que una segunda persona revise independientemente el documento redactado.

Verificación de la Completitud de la Redacción

Después de aplicar las redacciones, la verificación es esencial. Comience inspeccionando visualmente el documento para confirmar que todo el contenido previsto se ha reemplazado con barras negras (o cualquier apariencia de redacción que haya elegido). Pero la inspección visual por sí sola es insuficiente porque el contenido podría permanecer en capas no visibles.

Utilice la extracción de texto para verificar que el texto redactado no sea recuperable. Copie todo el texto del PDF redactado (Seleccionar todo, luego pegar en un editor de texto) y busque las cadenas sensibles. No deberían aparecer. Utilice una herramienta de línea de comandos como pdftotext para extraer todo el texto y buscarlo programáticamente. Verifique los metadatos: abra las propiedades del documento y compruebe que no quede información sensible en el título, autor, asunto, palabras clave o propiedades personalizadas.

Para una verificación exhaustiva, examine el PDF a nivel estructural. Herramientas como QPDF pueden exportar la estructura interna del PDF como JSON, permitiéndole buscar cadenas sensibles en los datos crudos de objetos. Esto detecta contenido que podría estar oculto en la estructura del PDF pero no visible en ninguna página. Verifique si hay archivos incrustados y adjuntos que puedan contener el original sin redactar. Compruebe que el tamaño del archivo sea consistente con la eliminación de contenido; si el archivo redactado tiene casi el mismo tamaño que el original, es posible que el contenido no se haya eliminado realmente. Un documento debidamente redactado debería ser algo más pequeño que el original porque se han eliminado datos de contenido.

Redacción en Contextos Legales y de Cumplimiento

Los procedimientos legales frecuentemente requieren redacción. En el descubrimiento litigioso, las partes deben producir documentos con información privilegiada o irrelevante redactada. Las respuestas FOIA (Ley de Libertad de Información) requieren que las agencias gubernamentales publiquen documentos con información exenta redactada. Las organizaciones de salud redactan identificadores de pacientes al publicar registros para investigación. Las instituciones financieras redactan números de cuenta al compartir registros de transacciones.

Cada contexto tiene requisitos específicos. Los registros de redacción legal deben documentar qué se redactó y la base legal para cada redacción (privilegio abogado-cliente, producto de trabajo, secreto comercial, relevancia). Las redacciones FOIA deben citar la exención FOIA específica (b)(1) a (b)(9). Las redacciones HIPAA deben eliminar 18 categorías de información de salud protegida (PHI). Comprender los requisitos específicos de su contexto asegura que la redacción sea tanto suficiente como no excesiva.

Mantener un registro claro del proceso de redacción es importante para la defensa legal. Documente quién realizó la redacción, cuándo se realizó, qué herramienta se utilizó, qué contenido se marcó para redacción y por qué, quién revisó las marcas y cuándo se aplicaron las redacciones. Conserve una copia del documento original sin redactar en un lugar seguro, ya que puede necesitar producir versiones adicionales con diferentes niveles de redacción. Algunos casos requieren versiones redactadas y sin redactar para diferentes audiencias (una versión redactada para el público y una versión sin redactar para el tribunal bajo sello).

Errores Comunes de Redacción y Cómo Evitarlos

El error más común, usar herramientas de anotación en lugar de herramientas de redacción, ya se ha discutido. Pero varios otros errores pueden comprometer la redacción. No redactar todas las copias de la información es frecuente. El mismo nombre podría aparecer en el texto del cuerpo, el encabezado, la tabla de contenidos, un índice y los metadatos. Redactar el texto del cuerpo mientras se deja el nombre en el encabezado anula el propósito.

Redactar texto visible mientras se deja intacto el texto buscable (en una capa OCR) es otro fallo común. Si el documento tuvo OCR aplicado, la capa de texto debe redactarse junto con el contenido visible. Algunas herramientas de redacción manejan esto automáticamente; otras requieren configuración explícita.

La "redacción" basada en color (cambiar el color del texto a blanco o para que coincida con el fondo) no es redacción. El texto permanece en el flujo de contenido y puede revelarse seleccionándolo, buscándolo o cambiando el color de fondo. De manera similar, cubrir contenido con una imagen o anotación de forma no elimina los datos subyacentes.

No eliminar los metadatos e historial del documento es un error que a menudo se pasa por alto. El título del documento podría contener un nombre de caso que debería redactarse del cuerpo. El campo de autor podría revelar información sobre quién preparó el documento. Las versiones anteriores almacenadas mediante guardados incrementales podrían contener el contenido previo a la redacción. Utilice siempre la función de sanear o examinar documento después de la redacción para eliminar estas fuentes de datos residuales. Guarde el documento redactado como un nuevo archivo ("Guardar como" en lugar de "Guardar") para asegurar que el contenido original no se retenga a través de la actualización incremental.

Matthias Baertschi
Founder & Lead Engineer

Matthias es el fundador e ingeniero principal de PDF Tools y trabaja en la canalización de procesamiento de PDF en el navegador con pdf-lib y pdfjs-dist. Su enfoque es la privacidad del lado del cliente: los documentos se procesan localmente y nunca se suben a un servidor. Ver perfil del autor