pdftohtml es una utilidad que convierte archivos PDF a formato HTML y XML.
El programa es multiplataforma, aunque únicamente lo he utilizado sobre Windows. La parte de instalación de este documento está centrada en este SO.
Este documento está basado en la versión 0.39 de pdftohtml.
Instalación
Página de descarga: http://pdftohtml.sourceforge.net/
Descargar el binario para Windows (pdftohtml-0.39-win32.tar.gz) y descomprimir el ejecutable pdftohtml.exe donde sea, que para generar html es lo único que hace falta.
Uso de pdftohtml
pdftohtml tiene capacidad para generar tres tipos archivos de salida:
- HTML básico, perfecto para visualizar el PDF en PDA o similares.
- HTML complejo, que intenta duplicar al máximo la apariencia original del fichero PDF.
Bueno para publicar en la web con alta calidad, a costa de un tamaño sensiblemente mayor. - XML, para post-procesados adicionales.
Ejecutar pdftohtml.exe sin parámetros para ver la lista completa de opciones. A destacar:
Usage: pdftohtml [options] [ ]
-f : Primera página a convertir.
-l : Última página a convertir.
-noframes: No genera frames html.
-nomerge : Añade un retorno de carro DOS () después de las etiquetas
html.
Generación HTML básico
Perfecto para visualizar el PDF en PDA o similares.
pdftohtml -noframes -nomerge [-f página_inicio] [-l página_final] origen.pdf [destino.html]
La opción -noframes hace que se genere un único fichero html y la opción -nomerge permite que el fichero generado sea más cómodo de editar, si hiciera falta.
Generación HTML complejo
Intenta duplicar al máximo la apariencia original del fichero PDF. Bueno para publicar en la web con alta calidad, a costa de un tamaño sensiblemente mayor.
pdftohtml -c origen.pdf
A parte de pdftohtml, es necesario descargarse Ghostscript para usar la generación compleja (opción -c). Ver la sección Ghostscript más abajo.
Ghostscript
Descargar el binario para Windows de la versión AFPL desde http://www.cs.wisc.edu/~ghost/.
Actualmente: ftp://mirror.cs.wisc.edu/pub/mirrors/ghost/AFPL/gs854/gs854w32.exe
Ver el las FAQ (http://www.cs.wisc.edu/~ghost/doc/faq.htm) la diferencia entre la versión AFPL y la GNU.
No hace falta instalarlo. Descomprimir y crear estas dos variables de entorno para gswin32c.exe' que es el ejecutable que utiliza pdf2html.exe':
GS_DLL=C:\..\gs854w32\gs8.54\bin
GS_LIB=C:\..\gs854w32\gs8.54\lib
No hay comentarios:
Publicar un comentario