Archive for the ‘Utilidades ofimática’ Category

pdftk: tildes y caracteres especiales en metadatos de pdf

— my apologies to the english readers, this is related to spanish special characters so the post will only be written in spanish—

Ahora que ya sabemos instalar, extraer y modificar metadatos de los pdf usando pdftk podemos pasar al siguiente nivel: ¿cómo codificar las tildes en, por ejemplo, los autores?

Si usas un fichero como el siguiente para modificar los metadatos, se producirán fallos al almacenar las tildes (línea 3):

1
2
3
4
5
6
7
8
9
10
11
12
13
InfoKey: Title
InfoValue: On the Asymptotic Determination of Invariant Manifolds for Autonomous Ordinary Differential Equations
InfoKey: Author
InfoValue: Palacián, J.
InfoKey: Producer
InfoValue: Revista de la Real Academia de Ciencias de Zaragoza
InfoKey: ModDate
InfoValue: D:20021212160539+01'00'
InfoKey: CreationDate
InfoValue: D:20021212160539+01'00'
PdfID0: 74f6cec73badf5b81956f05090f5af37
PdfID1: 74f6cec73badf5b81956f05090f5af37
NumberOfPages: 60

Para saber cómo tenemos que codificar los caracteres ‘extraños’ (con tilde, eñe, etc) se puede consultar la lista de códigos html

Siguiendo estas normas, nuestro fichero de entrada de metadatos será ahora:

1
2
3
4
5
6
7
8
9
10
11
12
13
InfoKey: Title
InfoValue: On the Asymptotic Determination of Invariant Manifolds for Autonomous Ordinary Differential Equations
InfoKey: Author
InfoValue: Palacián, J.
InfoKey: Producer
InfoValue: Revista de la Real Academia de Ciencias de Zaragoza
InfoKey: ModDate
InfoValue: D:20021212160539+01'00'
InfoKey: CreationDate
InfoValue: D:20021212160539+01'00'
PdfID0: 74f6cec73badf5b81956f05090f5af37
PdfID1: 74f6cec73badf5b81956f05090f5af37
NumberOfPages: 60

Install pdftk from sources in Linux RedHat

Yesterday I talked about pdftk and how to modify pdf metadata using this software.

Well, today I’ll show you how to install this great tool in your Redhat systems. In my case, I am using:

$ uname -r
2.6.18-164.9.1.el5

This are the steps I followed:

  • Download the last version available:
    wget http://www.pdfhacks.com/pdftk/pdftk-1.41.tar.gz
  • Extract the tar contents:
    tar -xzvf pdftk-1.41.tar.gz
  • Now change to that directory, check your corresponding Makefile’s variables (TOOLPATH, VERSUFF which in my case are empty) and then proceed to compile:
    cd pdftk-1.41/pdftk
    make -f Makefile.RedHat
    strip pdftk

    Note the last strip command? It is done to reduce the resulting filesize ;)

  • Last step, complete the installation (as root):
    make -f Makefile.RedHat install

Now you can use pdftk ;)

Extract / modify PDF metadata (using pdftk)

PDFTK is a free, open source PDF toolkit. It is one of my preferred tools to deal with pdf metadata. It runs in Windows and Linux platforms.

For instance, you can read the pdf metadata:

$ pdftk original.pdf dump_data output data.txt
$ cat data.txt
InfoKey: Creator
InfoValue: Writer�
InfoKey: Producer
InfoValue: OpenOffice.org 3.1�
InfoKey: CreationDate
InfoValue: D:20090923135542+02'00'
PdfID0: e5d831c33f77ac694b32456732f2c86
PdfID1: e5d831c33f77ac694b32456732f2c86
NumberOfPages: 1

And you can also modify the pdf metadata:

$ pdftk original.pdf update_info data.txt output resultado.pdf

Note the data.txt must be in a correct format!

Crear archivos PDF/A desde Word, OpenOffice y LaTeX

¿Qué es PDF/A?

PDF/A es un formato de fichero para la preservación a largo plazo de los documentos electrónicos. Está basado en la versión PDF 1.4 de Adobe Systems Inc. (implementado en Adobe Acrobat 5) y definido por ISO 19005-1:2005, (publicada en Octubre de 2005).

PDF/A se obtiene como resultado de elimiar ciertas características de los PDF no aptas para la preservación de archivos a largo plazo. Esto es similar a la definición del subset PDF/X para la impresión de gráficos.

Dada la abundante documentación relativa a PDF/A y dado que no es la intención de este post ahondar en los detalles relativos al formato, sino dar una visión general de cómo obtener documentos PDF/A, si deseas leer más sobre PDF/A puedes empezar por Wikipedia.

Tradicionalmente los archivos PDF se obtienen de tres fuentes distintas:

  1. Desde un archivo de texto (OpenOffice, Word, …)
  2. Desde un archivo generado con LaTeX
  3. Utilizando Adobe Acrobat Profesional

Veamos cómo obtener un PDF/A desde cada una de estas fuentes:

Desde Word o OpenOffice

Word es parte de la suite ofimática de Microsoft, MS Office. Es un software propietario y de pago.
OpenOffice es la suite ofimática más utilizada dentro del entorno OpenSource, y es gratuita.

La forma de proceder a la conversión de archivos de texto procedentes de ambos programas es similar.

Existe una aplicación (libre y gratuita) que permite automatizar muy fácilmente el proceso de conversión de archivo de texto (archivos Word y OpenOffice, en cualquiera de sus versiones) a PDF/A y genera un documento válido con los siguientes metadatos:

  • titulo
  • fecha de creación
  • fecha de modificación
  • autor
  • asunto
  • palabras clave

Se llama PDFCreator, se puede descargar desde: http://sourceforge.net/projects/pdfcreator/

Se instala fácilmente (doble click en el archivo descargado).

El proceso para convertir a PDF/A desde ambas suites ofimáticas es:

  1. Archivo – Imprimir – Seleccionar impresora “PDFCreator” y darle a Aceptar.
  2. Archivo - Imprimir...

    Seleccionar impresora PDFCreator

  3. Aparece un nuevo menú, solicitando que rellenemos los metadatos relativos al documento. Los rellenamos.
  4. PDFCreator: rellenar metadatos del PDF

  5. En la parte inferior pone “opciones”. Lo pulsamos y aparece una nueva ventana.
  6. En la ventana de opciones buscamos, en la columna de la izquierda, el apartado “Guardar”. Hacemos click sobre él. En esta pantalla, en la parte derecha, aparecerá “Formato de guardado estándar” y allí podemos seleccionar PDF/A (e incluso PDF/X). Pulsamos “Guardar” y esto nos lleva nuevamente a la pantalla de metadatos.
  7. Opciones de PDFCreator

    Opciones de PDFCreator (II)

  8. Pulsamos “Guardar” y se genera el pdf-a junto a los metadatos introducidos.

Nota: los pasos (3) y (4) sólo hay que hacerlos una vez, pues las opciones se guardan de una ejecución a la siguiente.

Desde LaTeX:

Sigue los pasos recomendados en este tutorial. Yo no sabría explicarlo mejor que ellos.

Buscar
Anunciarse / Advertise

Póngase en contacto conmigo utilizando el formulario de contacto

Gracias por sus consejos y sugerencias ;)
_______________________

You can contact me using the contact form

Thanks for all your tips & suggestions ;)




Bookmark!
Bookmark and Share