23.5.11

pdftohtml

pdftohtml es una utilidad que convierte archivos PDF a formato HTML y XML.

El programa es multiplataforma, aunque únicamente lo he utilizado sobre Windows. La parte de instalación de este documento está centrada en este SO.

Este documento está basado en la versión 0.39 de pdftohtml.

Instalación

Página de descarga: http://pdftohtml.sourceforge.net/

Descargar el binario para Windows (pdftohtml-0.39-win32.tar.gz) y descomprimir el ejecutable pdftohtml.exe donde sea, que para generar html es lo único que hace falta.

Uso de pdftohtml

pdftohtml tiene capacidad para generar tres tipos archivos de salida:

  • HTML básico, perfecto para visualizar el PDF en PDA o similares.
  • HTML complejo, que intenta duplicar al máximo la apariencia original del fichero PDF.
    Bueno para publicar en la web con alta calidad, a costa de un tamaño sensiblemente mayor.
  • XML, para post-procesados adicionales.

Ejecutar pdftohtml.exe sin parámetros para ver la lista completa de opciones. A destacar:

Usage: pdftohtml [options]  [ ]

-f : Primera página a convertir.
-l : Última página a convertir.
-noframes: No genera frames html.
-nomerge : Añade un retorno de carro DOS () después de las etiquetas
html.

Generación HTML básico

Perfecto para visualizar el PDF en PDA o similares.

pdftohtml -noframes -nomerge [-f página_inicio] [-l página_final] origen.pdf [destino.html]

La opción -noframes hace que se genere un único fichero html y la opción -nomerge permite que el fichero generado sea más cómodo de editar, si hiciera falta.

Generación HTML complejo

Intenta duplicar al máximo la apariencia original del fichero PDF. Bueno para publicar en la web con alta calidad, a costa de un tamaño sensiblemente mayor.

pdftohtml -c origen.pdf

A parte de pdftohtml, es necesario descargarse Ghostscript para usar la generación compleja (opción -c). Ver la sección Ghostscript más abajo.

Ghostscript

Descargar el binario para Windows de la versión AFPL desde http://www.cs.wisc.edu/~ghost/.

Actualmente: ftp://mirror.cs.wisc.edu/pub/mirrors/ghost/AFPL/gs854/gs854w32.exe

Ver el las FAQ (http://www.cs.wisc.edu/~ghost/doc/faq.htm) la diferencia entre la versión AFPL y la GNU.

No hace falta instalarlo. Descomprimir y crear estas dos variables de entorno para gswin32c.exe' que es el ejecutable que utiliza pdf2html.exe':

  GS_DLL=C:\..\gs854w32\gs8.54\bin
GS_LIB=C:\..\gs854w32\gs8.54\lib

Enlaces

No hay comentarios:

Publicar un comentario