Archive for the ‘Utilidades ofimática’ Category
pdftk: tildes y caracteres especiales en metadatos de pdf
— my apologies to the english readers, this is related to spanish special characters so the post will only be written in spanish—
Ahora que ya sabemos instalar, extraer y modificar metadatos de los pdf usando pdftk podemos pasar al siguiente nivel: ¿cómo codificar las tildes en, por ejemplo, los autores?
Si usas un fichero como el siguiente para modificar los metadatos, se producirán fallos al almacenar las tildes (línea 3):
1 2 3 4 5 6 7 8 9 10 11 12 13 | InfoKey: Title InfoValue: On the Asymptotic Determination of Invariant Manifolds for Autonomous Ordinary Differential Equations InfoKey: Author InfoValue: Palacián, J. InfoKey: Producer InfoValue: Revista de la Real Academia de Ciencias de Zaragoza InfoKey: ModDate InfoValue: D:20021212160539+01'00' InfoKey: CreationDate InfoValue: D:20021212160539+01'00' PdfID0: 74f6cec73badf5b81956f05090f5af37 PdfID1: 74f6cec73badf5b81956f05090f5af37 NumberOfPages: 60 |
Para saber cómo tenemos que codificar los caracteres ‘extraños’ (con tilde, eñe, etc) se puede consultar la lista de códigos html
Siguiendo estas normas, nuestro fichero de entrada de metadatos será ahora:
1 2 3 4 5 6 7 8 9 10 11 12 13 | InfoKey: Title InfoValue: On the Asymptotic Determination of Invariant Manifolds for Autonomous Ordinary Differential Equations InfoKey: Author InfoValue: Palacián, J. InfoKey: Producer InfoValue: Revista de la Real Academia de Ciencias de Zaragoza InfoKey: ModDate InfoValue: D:20021212160539+01'00' InfoKey: CreationDate InfoValue: D:20021212160539+01'00' PdfID0: 74f6cec73badf5b81956f05090f5af37 PdfID1: 74f6cec73badf5b81956f05090f5af37 NumberOfPages: 60 |
Install pdftk from sources in Linux RedHat
Yesterday I talked about pdftk and how to modify pdf metadata using this software.
Well, today I’ll show you how to install this great tool in your Redhat systems. In my case, I am using:
$ uname -r 2.6.18-164.9.1.el5
This are the steps I followed:
- Download the last version available:
wget http://www.pdfhacks.com/pdftk/pdftk-1.41.tar.gz
- Extract the tar contents:
tar -xzvf pdftk-1.41.tar.gz
- Now change to that directory, check your corresponding Makefile’s variables (TOOLPATH, VERSUFF which in my case are empty) and then proceed to compile:
cd pdftk-1.41/pdftk make -f Makefile.RedHat strip pdftk
Note the last strip command? It is done to reduce the resulting filesize
- Last step, complete the installation (as root):
make -f Makefile.RedHat install
Now you can use pdftk
Extract / modify PDF metadata (using pdftk)
PDFTK is a free, open source PDF toolkit. It is one of my preferred tools to deal with pdf metadata. It runs in Windows and Linux platforms.
For instance, you can read the pdf metadata:
$ pdftk original.pdf dump_data output data.txt $ cat data.txt InfoKey: Creator InfoValue: Writer� InfoKey: Producer InfoValue: OpenOffice.org 3.1� InfoKey: CreationDate InfoValue: D:20090923135542+02'00' PdfID0: e5d831c33f77ac694b32456732f2c86 PdfID1: e5d831c33f77ac694b32456732f2c86 NumberOfPages: 1
And you can also modify the pdf metadata:
$ pdftk original.pdf update_info data.txt output resultado.pdf
Note the data.txt must be in a correct format!
Crear archivos PDF/A desde Word, OpenOffice y LaTeX
¿Qué es PDF/A?
PDF/A es un formato de fichero para la preservación a largo plazo de los documentos electrónicos. Está basado en la versión PDF 1.4 de Adobe Systems Inc. (implementado en Adobe Acrobat 5) y definido por ISO 19005-1:2005, (publicada en Octubre de 2005).
PDF/A se obtiene como resultado de elimiar ciertas características de los PDF no aptas para la preservación de archivos a largo plazo. Esto es similar a la definición del subset PDF/X para la impresión de gráficos.
Dada la abundante documentación relativa a PDF/A y dado que no es la intención de este post ahondar en los detalles relativos al formato, sino dar una visión general de cómo obtener documentos PDF/A, si deseas leer más sobre PDF/A puedes empezar por Wikipedia.
Tradicionalmente los archivos PDF se obtienen de tres fuentes distintas:
- Desde un archivo de texto (OpenOffice, Word, …)
- Desde un archivo generado con LaTeX
- Utilizando Adobe Acrobat Profesional
Veamos cómo obtener un PDF/A desde cada una de estas fuentes:
Desde Word o OpenOffice
Word es parte de la suite ofimática de Microsoft, MS Office. Es un software propietario y de pago.
OpenOffice es la suite ofimática más utilizada dentro del entorno OpenSource, y es gratuita.
La forma de proceder a la conversión de archivos de texto procedentes de ambos programas es similar.
Existe una aplicación (libre y gratuita) que permite automatizar muy fácilmente el proceso de conversión de archivo de texto (archivos Word y OpenOffice, en cualquiera de sus versiones) a PDF/A y genera un documento válido con los siguientes metadatos:
- titulo
- fecha de creación
- fecha de modificación
- autor
- asunto
- palabras clave
Se llama PDFCreator, se puede descargar desde: http://sourceforge.net/projects/pdfcreator/
Se instala fácilmente (doble click en el archivo descargado).
El proceso para convertir a PDF/A desde ambas suites ofimáticas es:
- Archivo – Imprimir – Seleccionar impresora “PDFCreator” y darle a Aceptar.
- Aparece un nuevo menú, solicitando que rellenemos los metadatos relativos al documento. Los rellenamos.
- En la parte inferior pone “opciones”. Lo pulsamos y aparece una nueva ventana.
- En la ventana de opciones buscamos, en la columna de la izquierda, el apartado “Guardar”. Hacemos click sobre él. En esta pantalla, en la parte derecha, aparecerá “Formato de guardado estándar” y allí podemos seleccionar PDF/A (e incluso PDF/X). Pulsamos “Guardar” y esto nos lleva nuevamente a la pantalla de metadatos.
- Pulsamos “Guardar” y se genera el pdf-a junto a los metadatos introducidos.
Nota: los pasos (3) y (4) sólo hay que hacerlos una vez, pues las opciones se guardan de una ejecución a la siguiente.
Desde LaTeX:
Sigue los pasos recomendados en este tutorial. Yo no sabría explicarlo mejor que ellos.




