Convetir un sitio web a pdf en Ubuntu

Llevo una temporada persiguiendo la idea de aprender Vala. ¿Porque? Pues la verdad es que a pesar de que me gusta Python, quiero algo más rápido y que consuma menos recursos. Así que he pensado en hacer algunas pruebas y ver como se comporta Vala. Todo ello junto a mi carácter procrastinador, hacen fácilmente comprensible mi actuación.

Lo primero y necesario era localizar un manual y un libro de referencia de Vala. La primera referencia la encontré, evidentemente en la documentación de Vala. Ahora bien, tengo que reconocer que me gusta tener la documentación impresa, ya se que esto ni es ecológico ni tecnológico, pero cuando se trata de documentación de uso constante, es necesario disponer de ella.

Así que no corto ni perezoso, me he dirigido a Google en busca de una solución, y tras un buen rato de busqueda, la desesperación se ha cebado en mi. Si que he localizado aplicaciones como wkhtmltopdf, sin embargo hace uso de librería qt, y a mi no me gusta mezclar las churras con las merinas.

Lo siguiente ha sido recurrir al TODOPODEROSO terminal. Ya se que para los que comienzan, se les hace bastante cuesta arriba, pero cuando lo conoces te das cuenta de su potencial y todo lo que puedes hacer con el. Primero he pensado en descargar la página al sitio, utilizando wget. Pero luego, ¿como convertirla en pdf?. Pues la solución la he encontrado en html2ps, que se encarga de hacer toda la operación.

Html2ps es un convertidor, implementado en perl, de html a postscript. Algunas de las características de esta aplicación:

  • Permite configurar la apariencia del postscript generado, utilizando para ello archivos de configuración.
  • Soporte para proceso de multiples documentos.
  • Soporte para conversión recursiva a partir de enlaces.
  • Permite generar una tabla de contenidos.
  • Tanto el encabezado como el pie de página son configurables (número de página, título, nombre del documento)
  • Si una vez convertido el archivo html a postscript, lo convertimos a pdf, se mantienen los enlaces en el documento pdf. Esto es verdaderamente interesante, porque si tienes el documento en tu equipo, y quieres consultar cualquier parte del mismo, puedes acceder a ella rápidamente.

En fin, como ves es una herramienta verdaderamente potente y con grandes posibilidades. Instalación y uso:

Instalación

html2ps se encuentra en los repositorios de Ubuntu, con lo que su instalación es realmente sencilla, simplemente recurrir al terminal y:


sudo apt-get install html2ps

Uso

La siguiente operación ha sido leer un poco sobre el uso de la herramienta y localizar donde se hace la operación para convertir incluidos los enlaces:


html2ps -W a http://www.vala-project.org/doc/vala/ > file.ps

Aquí es donde se encuentra el truco del asunto: “-W a”. Esta opción se encargar de procesar una web y obtener y procesarla recursivamente. Hay que tener un poco de cuidado a la hora de procesar la página, porque se puede convertir en un documento monstruoso:

Las opciones son las siguientes:

  • “-W a” sigue todos los enlaces
  • “-W b” sigue los enlaces que están en el mismo documento
  • “-W l” sigue los enlaces especificados con “<LINK rel=NEXT>”
  • “-W p” pregunta por cada documento remoto.
  • “-W r” solo sigue enlaces relativos
  • “-W s” solo sigue los enlaces en el mismo servidor

En fin como ves las opciones son muchas. Hay que tener cuidado a la hora de procesar, para no llevarnos una desagradable sorpresa.

A pdf

Por último, nos queda pasar a pdf, pero esto ya es muy sencillo:


ps2pdf file.ps

Así ya tienes tu manual de Vala. Mira como queda la cosa:

Si te ha gustado el artículo, apúntate y te mantendré actualizado sobre el que es el mejor sistema operativo. Te mostraré como mejorar tu entorno de trabajo y conseguir ser mucho mas productivo

Publicado en la categoría... Ubuntu, una distribución Linux, un entorno de trabajo
  • Alonso

    Yo, si quiero convertir una página web a pdf uso algo más sencillo: readability y cups-pdf. Tengo instalada en el navegador una extensión llamada readability que es capaz de extraer el texto principal de una página web y mostrártelo sin publicidad y te conserva los enlaces como notas a pie de página. Una vez que ves el texto con readability pulsas en imprimir y seleccionas cups-pdf, con lo que tendrás la página web convertida a pdf

    • No conocía readability, es interesante. Sin embargo, parece que solo trabaja sobre una página, no sobre todo el sitio.

  • Muy buen artículo, gracias. Ahora, he tenido un inconveniente probando el procedimiento con mi propio blog, que está escrito en castellano: ¿Cómo solucionamos los problemas de codificación con caracteres acentuados? Salen como suele verse un documento que está en UTF-8 visto con ISO-XXXXX o viceversa.

    • Vaya, no me había dado cuenta de ese pequeño pero importantísimo detalle. Habrá que investigar a ver…

      • he probado, por si acaso porque la documentación dice soportar sólo otras opciones, con -e UTF-8, pero no he logrado más que el mismo resultado que con ISO-8859-1.

        • Me rectifico: no es exactamente el mismo resultado, aún es errónea la codificación, pero algo cambió.

Artículos relacionados