Trabajando con PDF desde el terminal en Ubuntu con poppler-utils

Uno de los temas mas recurrentes en mis artículos es el tratamiento de archivos PDF. Es innegable que hoy en día, a nivel de documentación, es uno de los tipos de archivos mas utilizados a pesar de que que existen alternativas, como DjVu, CDF, o incluso lenguajes de descripción de página. Pero dado su uso tan extendido, vamos a ver como podemos trabajar con ellos, pero esta vez directamente desde el terminal utilizando un conjunto de herramientas disponibles en el paquete poppler-utils.

Ya he escrito algunos artículos referentes al uso de algunas utilidades que vienen en el paquete como «Extraer imágenes de un pdf a lo fácil«, «Libros eléctrónicos: de PDF a EPUB en Ubuntu» o «Editar un archivo PDF en Ubuntu«. Sin embargo me ha parecido interesante dar un repaso a todas las posibilidades que nos ofrece este conjunto de herramientas…

Trabajando con PDF desde el terminal en Ubuntu con poppler-utils - ejemplo 1

Poppler-Utils

Poppler es una biblioteca basada en xpdf-3.0 que permite renderizar archivos PDF. Esta biblioteca así mismo dispone de un conjunto de herramientas, poppler-utils, que te permitirá realizar las operaciones mas diversas con este tipo de documentos desde un emulador de terminal,

  • pdffponts, nos muestra las fuentes que están presentes es un archivo PDF

Trabajando con PDF desde el terminal en Ubuntu con poppler-utils - ejemplo 2

  • pdfimages, permite extraer todas las imágenes de un archivo PDF

Trabajando con PDF desde el terminal en Ubuntu con poppler-utils - ejemplo 3

También permite listar las imágenes que hay en un determinado documento PDF.

Trabajando con PDF desde el terminal en Ubuntu con poppler-utils - ejemplo 4

  • pdfinfo nos muestra información de un documento

Trabajando con PDF desde el terminal en Ubuntu con poppler-utils - ejemplo 5

  • pdfseparate permite separar el documento en varias páginas

Trabajando con PDF desde el terminal en Ubuntu con poppler-utils - ejemplo 6

  • pdftocairo convierte un archivo PDF a diferentes formatos como PNG, JPEG, PS, EPS, SVG.

Trabajando con PDF desde el terminal en Ubuntu con poppler-utils - ejemplo 7

El resultado es mas que interesante,

Trabajando con PDF desde el terminal en Ubuntu con poppler-utils - ejemplo 8

  • pdftohtml convierte archivos PDF a HTML. Esta utilidad ya la he comentado en otro artículo pudiendo servir de base para convertir a documentos EPUB. Por ejemplo, el archivo con el que estoy haciendo este ejemplo, una vez convertido a HTML presenta el siguiente aspecto,

Trabajando con PDF desde el terminal en Ubuntu con poppler-utils - ejemplo 9

  • pdftoppm permite convertir documentos PDF a imágenes PPM, PNG o JPEG
  • pdftopps convierte archivos PDF a PostScript
  • pdftotext extrae todo el texto de un documento PDF

Trabajando con PDF desde el terminal en Ubuntu con poppler-utils - ejemplo 10

Trabajando con PDF desde el terminal en Ubuntu con poppler-utils - ejemplo 11

  • pdfunite permite unir varios documentos en un único documento.

Trabajando con PDF desde el terminal en Ubuntu con poppler-utils - ejemplo 12

Instalación

En general poppler-utils viene instalado por defecto en Ubuntu, pero por si las moscas, en caso de que no lo tengas, puedes instalarlo haciendo clic en el siguiente enlace, o bien, desde un emulador de terminal ejecutar el siguiente comando,


sudo apt-get install poppler-utils

Conclusiones

No tengo muy claro que para unir y separar documentos estas herramientas sean las más cómodas, aunque yo para estos casos, siempre renombro los archivos que quiero unir anteponiendo un número que me permita saber el orden en que quiero unirlos.

Sobre todo para procesos repetitivos es cuando mas beneficio se puede sacar de estas herramientas corriendo en el emulador, o incluso utilizarlo desde Nautilus como un pequeño script.


Más información,

Para el ejemplo he utilizado un libro en PDF sobre Python «Hands-on Python Tutorial» que puedes descargar libremente y disfrutar con su lectura (en inglés).

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *