Comparar archivos PDF
Dos versiones del mismo PDF — ¿cuál tiene las diferencias?
Mira cada diferencia de texto y visual, lado a lado.
Suelta aquí el original
Suelta aquí la revisión
Los archivos son idénticos
Bajo — sin diferencias
Ambos PDF produjeron el mismo texto y salida visual en cada página comparada. No se detectaron diferencias.
{count} diferencias encontradas
Medio — diferencias detectadas
Ambos PDF se compararon página por página. El panel de resumen siguiente lista qué páginas cambiaron; la vista lado a lado muestra cada cambio en contexto.
Comparación parcial
Alto — diferencia en número de páginas
Los dos PDF tienen diferentes cantidades de páginas ({a} vs {b}). Las páginas superpuestas se compararon normalmente; las páginas no emparejadas se listan en el panel de resumen.
Sobre la comparación de PDF
Cómo funciona realmente la comparación
El algoritmo híbrido elige por página. Para cada par de páginas, la herramienta extrae texto mediante la API getTextContent de pdfjs. Si ambos lados producen 50 o más caracteres, la página pasa por la comparación de Myers a nivel de tokens — un algoritmo clásico O(ND) que encuentra el script de edición mínimo entre dos secuencias de tokens. Por debajo de 50 caracteres (típicamente páginas escaneadas o diseños solo con imágenes), la herramienta recurre a la comparación de píxeles: ambas páginas se renderizan a canvas a escala 1.0, luego se cuentan las diferencias de píxeles por celda por encima de la tolerancia como regiones cambiadas. La clasificación (texto-cambiado vs imagen-cambiada vs idénticas) vive en el resultado por página para que el panel de resumen pueda mostrar qué tipo de cambio ocurrió dónde.
Por qué lado a lado supera la superposición
La comparación por superposición (tachado rojo en texto eliminado, subrayado verde en texto añadido, dibujado sobre una sola representación del documento) se lee de forma natural para diferencias cortas pero pierde contexto rápidamente en cambios más largos. La representación lado a lado muestra ambas versiones completas, sincronizadas para que la misma región de página permanezca alineada en los paneles. El panel de resumen en línea actúa como un índice de navegación — salta a la página 7 para ver el cambio sin desplazarte por todo el documento. El patrón funciona igual de bien para ediciones de dos líneas y para revisiones de cuarenta páginas; la superposición solo funciona para las primeras.
Diferencia en número de páginas — qué pasa
Cuando los dos PDF tienen diferentes cantidades de páginas, el resultado se clasifica como comparación parcial. Las primeras N páginas (donde N es el menor recuento) se comparan normalmente con diferencia de texto o imagen. Las páginas extra del lado más largo se listan en el panel de resumen como no emparejadas, para que veas qué páginas existen solo en una versión. El caso más común es una revisión donde el autor añadió o eliminó páginas entre versiones — la comparación aún funciona para las páginas superpuestas, y el resumen hace explícito el cambio estructural. Si los recuentos difieren mucho (un documento el doble de largo que el otro), PDF a Texto extrae texto plano de ambos para comparación solo de contenido sin la restricción de alineación de páginas.
Por qué solo navegador para comparar
Los casos de uso de comparación se concentran en los documentos donde la privacidad más importa: borradores de contratos que envió la contraparte, versiones redactadas en espera de divulgación, copias de revisión interna que no deben filtrarse. Subir ambas versiones a un servidor de terceros añade riesgo precisamente cuando no lo quieres. Comparar archivos PDF se ejecuta completamente en tu navegador a través de pdf-lib y pdfjs — ambos archivos permanecen en tu dispositivo. Los competidores basados en servidor (iLovePDF, PDF24) requieren subir; Adobe Acrobat Compare requiere una suscripción de 14,99 $/mes. La comparación de pdfmundo se entrega gratis, solo navegador, sin subidas.
Cuando comparar no es suficiente
Si alguno de los PDF está protegido con contraseña, la comparación no puede leer el contenido — quita la contraseña en tu software de PDF primero, luego vuelve. Si alguno de los PDF está corrupto (descarga truncada, fallo de firmware de escáner, daño archivado), pdfjs no puede analizarlo — Reparar PDF puede recuperarlo; la cadena de derivación de recuperación es comparar → reparar → volver a comparar. Para archivos que excedan el límite de 50 páginas, o cuando solo importa el contenido textual, PDF a Texto extrae texto plano de ambos PDF para diferencia externa. Los archivos donde un lado no es un PDF en absoluto (texto o imagen renombrado a .pdf) se detectan en el pre-vuelo mediante la verificación de bytes mágicos %PDF.
Preguntas frecuentes
- ¿Qué tipos de cambios puede encontrar?
- Cambios de texto — adiciones, eliminaciones y modificaciones detectadas mediante extracción de texto de PDF + comparación de Myers a nivel de tokens. Cambios visuales — modificaciones de imágenes, cambios de diseño, o cualquier diferencia a nivel de píxeles detectada cuando la extracción de texto produce muy poco texto para una comparación fiable (menos de 50 caracteres por página). El algoritmo híbrido elige por página automáticamente: diferencia de texto donde existe texto, diferencia de píxeles donde no. El panel de resumen clasifica cada página para que veas qué tipo de cambio ocurrió dónde.
- ¿Funciona con PDF escaneados?
- Sí, mediante el respaldo de diferencia de imágenes. El algoritmo detecta por página si la extracción de texto tuvo éxito (50 caracteres o más). Para páginas escaneadas sin texto extraíble, recurre automáticamente a la comparación de píxeles a nivel de canvas. El respaldo también cubre diseños con muchas imágenes donde el texto se renderiza como bitmaps incrustados. La compensación: la diferencia de imágenes capta cada diferencia de píxeles (útil para verificación de redacciones) pero no distingue cambios significativos del ruido como diferencias de renderizado de fuentes. Usa el panel de resumen para enfocarte en páginas con los recuentos de cambios más altos.
- ¿Y si los dos PDF tienen diferentes cantidades de páginas?
- El resultado se clasifica como comparación parcial. Las páginas superpuestas se comparan normalmente; las extra en el lado más largo aparecen en el panel de resumen como no emparejadas. Este es el caso más común para revisión de revisiones — el autor añadió o eliminó páginas entre versiones. La comparación aún funciona para las páginas superpuestas, y el panel de resumen hace explícito el cambio estructural. Si la diferencia es grande (un documento mucho más largo que el otro), PDF a Texto puede servir mejor para comparación solo de contenido.
- ¿Mis PDF se suben a tus servidores?
- No. La comparación completa se ejecuta en tu navegador a través de pdf-lib y pdfjs. Ambos PDF permanecen en tu dispositivo. Esto importa específicamente para comparar: los casos de uso de revisión a menudo involucran contenido sensible (contratos, documentos redactados, estados financieros) donde subir a un servidor de terceros añade riesgo precisamente cuando no lo quieres. Los competidores basados en servidor requieren subir; la comparación de pdfmundo se ejecuta solo en navegador sin subidas.
- ¿Por qué algunos PDF idénticos en texto se marcan como diferentes?
- La codificación de texto en PDF tiene variantes Unicode para caracteres visualmente idénticos. El caso más común: ligaduras. Las letras 'ff' codificadas como dos puntos de código separados (U+0066 + U+0066) frente al único glifo de ligadura 'ff' (U+FB00). Ambos se renderizan idénticamente en pantalla pero se comparan diferente como secuencias de caracteres. Comparar archivos PDF aplica normalización Unicode NFKC al texto extraído antes de la comparación, lo que detecta el caso de ligaduras automáticamente. Los falsos positivos persistentes generalmente indican diferente subdivisión de fuentes entre los dos PDF — visualmente idénticos pero codificados de forma diferente. El panel de resumen muestra dónde están las diferencias; puedes inspeccionar las páginas relevantes para verificar.
- ¿Puedo descargar un informe de diferencias?
- No en v1. La vista lado a lado visual + panel de resumen en línea cubren el caso de uso principal de revisión. Un informe de diferencias descargable (PDF anotado con regiones resaltadas) está en la hoja de ruta de v1.1. Por ahora, capturas de pantalla de la vista lado a lado o del panel de resumen cubren la mayoría de las necesidades de documentación.
- ¿Cuál es el tamaño máximo de archivo y de páginas?
- 50 MB por archivo y 50 páginas por archivo. El límite de páginas existe porque la memoria de comparación escala con el recuento de páginas: la diferencia de imágenes renderiza ambas páginas a canvas a resolución completa, lo que cuesta unos 10 MB por par de páginas. El límite de 50 páginas mantiene la memoria del navegador acotada para el peor caso donde todas las páginas caen en diferencia de imágenes. La mayoría de casos de uso de revisión caben dentro de ambos límites; los documentos más largos típicamente se benefician de comparación por fragmentos (comparar rangos de páginas específicos en ejecuciones separadas).
- ¿Y si uno de mis PDF está corrupto?
- La comparación da error con un resultado de uno-corrupto y un enlace directo a Reparar PDF. La cadena de derivación de recuperación es comparar → reparar → volver a comparar: reparar recupera lo que puede del PDF dañado, luego traes el archivo recuperado de vuelta a comparar. Si el archivo reparado aún no se analiza, PDF a Texto puede extraer cualquier contenido de texto plano para comparación externa como último recurso.
Más herramientas PDF, próximamente
30+ herramientas en total — unir, dividir, convertir, OCR, firmar, marca de agua y más. Todas gratis para probar.
Volver al inicio →