Extraer imágenes de un pdf a lo fácil

Por cuestiones de organización, cuando presento un informe, y este es aprobado, normalmente, guardo únicamente el archivo pdf, del informe y le “código fuente del documento”, lo suelo borrar, y con él todas las fotografías, imágenes, hojas de cálculo, empleadas para redactar el informe, y que están contenidos en el propio documento, sin pensar en que un momento necesitaré extraer imágenes de un pdf. Normalmente las hojas de cálculo las suelo guardar, porque me llevan mucho trabajo, y suelen ser útiles en otras ocasiones. No así los documentos de texto, que normalmente no los podemos aprovechar de una ocasión a otra, y en el caso de necesidad siempre podemos copiar y pegar.

Pero no es la primera vez que me pasa, querer utilizar las fotografías de un PDF. Es normal, cuando preparas un informe sueles recurrir a las mejores fotografías e imágenes tomadas, y claro, lo mejor es recuperar esas imágenes del pdf, para tu nuevo informe. Siempre puedes recurrir al copiar y pegar, pero, por una lado pierdes calidad de la images, y por el otro, si se trata de un informe de muchas imágenes, esto es totalmente contraproducente. Hay una solución pdfimages.

Extraer imágenes de un pdf – pdfimages

Pdfimages es una herramienta de la línea de comandos, que te permite precisamente eso, extraer imágenes de un PDF, y guardarlas como archivos de tipo Portable Pixmap (PPM) Portable Bitmap (PBM) o archivos JPEG.

Instalación

Pdfimages, es una herramienta dentro del paquete poppler-utils, que nos permite extraer imágenes de un pdf y que se encuentra en los repositorios de Ubuntu, con lo que puedes instalarlo, o bien, haciendo clic en poppler-utils, o bien desde el terminal:


sudo apt-get install poppler-utils

Uso

La sintaxis de esta herramienta es:


pdfimages archivo.pdf directorio_de_salida

donde archivo.pdf es el fichero del que quieres extraer las imágenes y directorio_de_salida es el directorio donde quieres guardar las imágenes.

Las imágenes se guardan con el siguiente formato:

directorio_de_salida/directorio_de_salida-nnn.ext

Es curioso, pero se nombran con el mismo nombre del directorio en el que se extraen, un número consecutivo y la extensión. Por defecto .ppm, si se trata de imágenes en color, o pbm si son en grises. Si queremos que en lugar de estos formatos queremos que lo guarde en jpg, tendremos que utilizar la opción “-j”, de esta manera, las imágenes que estén en formato DCT, las extraerá en formato jpeg, y el resto en los formatos anteriores según sea en escala de grises o no:


pdfimages -j archivo.pdf directorio_de_salida

Por otro lado, si no queremos extraer imágenes de todo el documento, sino solo de las páginas de la 8 a la 15, por ejemplo, tendremos que utilizar el siguiente comando:


pdfimages -f primera_pagina -l last_pagina archivo.pdf directorio_de_salida

También, puede suceder que el documento esté protegido, o bien con algunas restricciones, para lo que tendremos que proporcionar la contraseña de propietario:


pdfimages -opw contraseña_de_propietario archivo.pdf directorio_de_salida

O bien, si el documento está protegido con una contraseña de usuario


pdfimages -upw contraseña_de_usuario archivo.pdf directorio_de_salida

Conclusiones

Desde luego, con la capacidad que tienen actualmente los discos duros, es muy absurdo, ir borrando los archivos originales, y el documento fuente, con el que preparo un informe. Tendré que organizar el asunto de otra manera, para evitar este tipo de problemas.

De cualquier forma, pdfimages, nos permite extraer imágenes de un pdf, y es una herramienta muy interesante, y que al menos me ha servido para sacarme de un par de apuros, hay que tenerla guardada en el cajón de las herramientas útiles, para sacarla cuando sea necesario.

Más información | die.net

Si te ha gustado el artículo, apúntate y te mantendré actualizado sobre el que es el mejor sistema operativo. Te mostraré como mejorar tu entorno de trabajo y conseguir ser mucho mas productivo

Publicado en la categoría... Ubuntu, una distribución Linux, un entorno de trabajo
Etiquetado como...
  • Al pinchar los enlaces desde feedly dan error, algo tienes mal configurado en feedburner de tu RSS, quitando la “basura” detrás de la dirección funciona, pero igual otros no tienen la pericia de hacerlo 

  • LOcker

    Especifiquen en el titulo que es para ubuntu, nadie usa esa mierda de SO, solo los subnormales que se creen no piratas

    • Paco

      Hay una etiqueta del post que dice Ubuntu. Es cuestión de poner atención.

    • LOcker el Analfabeta

      jjajaaj ya sabemos porque este anormal ya se por que no utilizas ubuntu es evidente jajajajaj