Archivos y repositorios digitales. Drupal con Greenstone, una opción de software libre

1 Introducción

En los últimos años numerosos Centros de Información, Documentación, Archivos, Biblioteca han iniciado un imparable trabajo de digitalización de sus recursos informativos para su posterior difusión en internet. Estos procesos han demandado una serie de herramientas encaminadas a resolver la gestión de los recursos digitales, y la publicación en la web, para dar servicio a un creciente número de usuarios.

Ante esta situación, algunas instituciones de este entorno se han visto inundadas con ofertas de servicios destinadas a ubicar repositorios digitales en internet, con una variada horquilla de precios y sistemas, basados en plataformas y programas muy distintos.

Y así disponemos de servicios en internet de reciente creación: desde sencillos catálogos OPAC, bases de datos fotográficas, hasta enormes colecciones de documentos digitales ofrecidos por las instituciones archivísticas responsables de los mismos.

Si navegamos asiduamente por internet por distintos de centros de información nos habremos fijado de la existencia de portales, webs, o bases de datos, que se autodefinen como Archivos Digitales. En muchos de estos casos, no lo son. Para que exista un Archivo Digital en forma de repositorio se deben de dar al menos las siguientes características:

  • El acceso se realiza mediante un ordenador que conecta al contenido del Archivo Digital, utilizando redes de comunicación. También en la actualidad existen otros dispositivos, como móviles de última generación, o E-Books, con capacidad para conectarse a estos servicios.

  • El Archivo ofrece su propio repositorio, compuesto por la documentación producida y recibida por una institución o persona, a lo largo de su historia. La documentación ha sido previamente seleccionada, clasificada, descrita, y procesada, para permitir su posterior recuperación mediante la ejecución de búsquedas, por parte de usuarios o máquinas.

  • Los materiales del Archivo incluidos en el repositorio tienen en común: su tratamiento (el uso de software y herramientas determinadas) y los procesos previos de descripción, (mediante normas, cuadros de clasificación, etiquetas, descriptores, lenguajes controlados, campos, metadatos…).

  • Todos los documentos incluidos en el repositorio se relacionan entre sí, formando un conjunto que identifica al Archivo en internet.

  • El repositorio tiene como objetivo dar a conocer el fondo documental del Archivo, para cubrir las necesidades de información de unos usuarios.

Cumplir estas características y lograr el éxito en la creación de un repositorio digital requiere el uso de herramientas tecnológicas que funcionen de manera adecuada y oferten servicios de calidad.

No existen muchos programas destinados a la creación de repositorios digitales, y en muchos casos se diseña software propio basado en la intuición y experiencia de los desarrolladores, y con mucha suerte, contando con la colaboración de archiveros y de otros profesionales encargados de la documentación. Entre la variada oferta de programas, podemos contar con las opciones de software libre, o con programas de licencia comercial.

No se trata de abrir un debate sobre el software libre, pero cualquier encargado de desarrollar un repositorio digital debe tener en cuenta:

  • Qué programas tenemos disponibles, tanto de software libre como propietario, para cubrir nuestras necesidades.

  • Los posibles costes de adquisición, renovación de licencias, y adaptación a nuestro proyecto del software propietario.

  • Los posibles costes de adaptación al proyecto del software libre.

  • La seguridad e independencia que oferten los distintos programas, en el acceso, uso, y control del repositorio, y sus lenguajes de programación.

  • La experiencias de otros usuarios.

  • Y si nos planteamos desarrollar nuestro propio sistema gestor de repositorios digitales mediante la creación de un nuevo software, debemos tener la certeza de mejorar todos los programas existentes, con menores costes de inversión que al comprar o adaptar el software disponible.

Una de las principales ventajas del software libre con respecto al comercial, es la posibilidad de adaptación a las necesidades y expectativas particulares de cada institución. El software propietario ofrece una herramienta que únicamente podemos utilizar tal y como es, “enlatada”, sin posibilidad de cambios, mejoras, o adaptación a nuestras necesidades particulares. El software libre lo podemos modificar y adaptar con nuevas funciones, o eliminando aquellas que no nos interesen, para que sea una herramienta al servicio del Archivo. Si el programa no se adapta totalmente a las necesidades de la institución, será ésta quien se amolde al programa, originando graves riesgos y problemas.

Además, los cambios realizados al software libre para adaptarlo a nuestro proyecto, hacen que mejore el propio programa, innove, e incluso se distribuya entre otros usuarios libremente, creciendo constantemente con el aporte de todos. Y así, se convierte en un programa que no solamente satisface necesidades concretas (las que suele ofrecer el software de código propietario), sino muchas, variadas, distintas, y diferentes. Por esta razón el software libre puede ser la única alternativa al desarrollo e innovación en los Archivos, Bibliotecas y otros centros de información.

Este texto no trata aspectos teóricos sobre los Archivos ni tampoco recoge la creación, digitalización, descripción, conservación, o preservación de los repositorios, puesto que se centra en la utilización de las herramientas de software libre Drupal y Greenstone (ambos con licencia GPL) para crear un repositorio institucional de un Archivo. En el último apartado se recogen distintos recursos para conocer más sobre el uso de Drupal y Greenstone.

<!–*/

/*–>*/

2 Archivo, Greenstone, y Drupal: Herramientas para crear un repositorio.

Si hablamos de Archivos o Bibliotecas digitales, implica hablar del término que reúne a ambos: repositorio digital. Un repositorio digital es el conjunto de información, documentos, y datos, reunidos, gestionados, procesados, y disponibles, mediante el uso de infraestructuras electrónicas para dar servicio a usuarios que atiendan a un perfil concreto de acceso y uso.

A continuación se definen y explican diferentes apartados sobre Drupal, Greenstone y el Archivo para mostrar las funciones de cada uno al desarrollar el repositorio.

2.1 Definición de cada apartado.

Drupal

Greenstone

Archivo

Gestor de Contenido CMS

Productor de repositorios digitales

Conjunto de Documentos

A) Drupal www.drupal.org

Drupal es un Sistema de Gestión de Contenido (Content Management System) CMS basado en módulos implementables, y configurables que permiten mostrar y administrar todo tipo de información. Desde la web de Drupal se define como una Estructura de Gestión de Contenidos, Content Management Framework (CMF). Puesto que a diferencia de un CMS corriente, Drupal se orienta a la capacidad de personalización por parte del administrador, más que a las posibilidades predeterminadas de un CMS.

Drupal publica todo tipo de información y utilidades (artículos, imágenes, encuestas, blogs, foros, comercio electrónico…) mediante un sencillo sistema de administración de contenido, de usuarios, y de permisos. Su historia se remonta al año 2000 cuando dos estudiantes de la Universidad de Amberes deciden buscar la manera de compartir sus apuntes y materiales en internet, además de comentar y trabajar en común. Años después el proyecto Drupal tiene usuarios y desarrolladores en casi todos los países, e incluso cuenta con numerosas empresas que se dedican en exclusiva a su desarrollo ofertando servicios con este programa.

Drupal es un CMS dinámico, el contenido que muestra y ofrece se almacena en una base de datos que responde a los usuarios mediante un entorno Web. Destaca por la calidad de sus servicios, su robusta comunidad y las atractivas páginas que genera de una manera bastante sencilla.

El diseño de Drupal es especialmente idóneo para construir y gestionar todo tipo de portales en internet, como webs corporativas, o personales. Además es una herramienta en constante proceso de mejora, para adaptarse a los cambios y tendencias de internet.

Portal “Archives & Special Collections” del Dickinson College desarrollado con Drupal. http://itech.dickinson.edu/archives/

B) Greenstone www.greenstone.org

Greenstone según su web oficial es un conjunto de programas de software diseñado para crear y distribuir colecciones digitales, proporcionando así una nueva forma de organizar y publicar la información a través de Internet. Greenstone se compone de distintas herramientas para que el administrador pueda desarrollar colecciones digitales de manera fácil e independiente.

La filosofía de Greenstone se basa en crear un software de código abierto para poner en dominio público todo tipo de materiales, y desarrollar el acceso universal a la cultura. Esta es su razón de ser.

La historia de Greenstone comienza en 1995 cuando la Universidad de Waikato (Nueva Zelanda) plantea un proyecto de biblioteca digital basada en la indexación del texto completo de documentos electrónicos. Años después, el proyecto Greenstone es una de las herramientas más eficaces para el desarrollo de colecciones digitales a nivel mundial. En el 2007 según las estadísticas de los desarrolladores, el programa se usa en más de 70 países, se descarga una media de 150 veces diarias, se ejecuta en los sistemas operativos más comunes (incluso existe versión para iPod), y su interfaz está disponible en más de 40 idiomas. ¿El éxito? Su sencillez de uso, y sobre todo sus resultados.

Otro factor de este éxito, es el respaldo que tiene Greenstone por la UNESCO como herramienta de referencia para la creación de bibliotecas digitales en todo el mundo, y en especial para los países en desarrollo. El último reconocimiento a este programa fue en Diciembre de 2008 cuando obtuvo el premio a la colaboración tecnológica de la fundación norteamericana Andrew W. Mellon MATC.

Usuarios como la BBC, la Universidad de las Islas Baleares, Fundaciones, u Ong’s, ya han conocido las ventajas de este programa.

Hay que destacar que aunque Greenstone, está planteado como herramienta para la creación de bibliotecas digitales, la mayoría de usuarios lo utiliza para desarrollar repositorios digitales independientemente de su contenido, siendo también una herramienta que puede servir perfectamente para poner accesible en internet un Archivo.

Portal “Estela. Arxiu Digital de Canovelles” desarrollado con Greenstone. http://estela.canovelles.cat/cgi-bin/library

C) Archivo

Un Archivo se puede definir brevemente como el conjunto de documentos generados y reunidos por una institución o persona, a lo largo de su vida, durante el desempeño de las actividades que le son propias. El origen y la formación de los archivos se da mediante una actividad o gestión natural, de tipo práctico o administrativo, y en ningún caso mediante la creación de colecciones. Sus actividades y funciones son muy amplias como por ejemplo, dar servicio a la institución que ha generado la documentación, y también a la sociedad en el caso de archivos públicos o de carácter histórico.

Para nuestro objetivo, que es desarrollar un repositorio, el Archivo ha de estar digitalizado si se trata de soportes tradicionales (papel, cintas audio, soportes fílmicos…) o disponer de un conjunto de documentos digitales producidos originariamente en este soporte por la institución.

Los materiales que vamos a incluir en el repositorio han de cumplir una serie de condiciones técnicas como resolución, formatos de fichero, o tamaño y también requisitos legales sobre derechos de acceso, protección de datos, e incluso propiedad intelectual.

2.2 Programas y elementos necesarios para poner en marcha el repositorio.

Drupal

Greenstone

Archivo

Apache

Php

MySQL

Programa Drupal

Paquete Greenstone

Documentos digitalizados en formatos definidos previamente y que cumplan la legislación vigente.

A) Para poner en marcha Drupal:

Para que Drupal pueda funcionar se requiere de los siguientes programas, desarrollados también como software libre:

  • Apache: Programa Servidor, o también, pero poco recomendado un servidor IIS (Microsoft).

  • MySQL: Programa gestor de base de datos, que manejaremos mediante PHPMyadmin.

  • PHP: Lenguaje de programación que permite, entre otras cosas, crear web dinámicas.

  • Drupal: Content Management System CMS.

Algunos servidores dedicados ofrecen las utilidades Apache, MySQL, PHP entre sus servicios, de lo contrario requieren su instalación. Si decidimos instalar Drupal en un servidor propio (bajo Linux o Windows), se recomiendo instalar un paquete que englobe a todos los programas para ahorrar trabajos, algunas posibilidades:

A estos programas solamente habría que añadir Drupal, que podemos bajar desde http://drupal.org/project/drupal

B) Para trabajar con Greenstone

Greenstone incluye todos los programas y utilidades necesarias para su funcionamiento y gestión (entre otros Java Runtime Environment JRE, ImageMagick, Ghostscript, y Perl). Hay que señalar que Greenstone, de momento, está orientado para trabajar en servidores propios, es decir, en un ordenador de la propia institución conectado a Internet o intranet con un ancho de banda adecuado para permitir su acceso. Aunque se ha probado instalar Greenstone en servidores dedicados o externos, pueden surgir diferentes problemas, y además el espacio de almacenamiento que se necesita, pueden originar bastantes costes. Greenstone está disponible en http://www.greenstone.org/download

C) Los documentos de Archivo

Como ya se ha dicho, para desarrollar el repositorio se requiere de una serie de documentos digitales en formatos adecuados, que cumplan una serie de condiciones técnicas y legales. Los formatos que podemos utilizar para incluir en Greenstone son muy variados: XML, MARC, CDS/ISIS, ProCite, BibTex, Refer, OAI, DSpace, METS, PDF, PDF/A, Word, RTF, HTML, ODT, TXT, Latex, ZIP, Excel, PPT, Email, códigos fuentes, GIF, JIF, JPEG, JPEG 2000, TIFF, MPEG-1, MPEG-2, MPEG-4, MPA, WMV, WMA, ASF, MP3, o QuickTime entre los más destacados. Dependiendo de la política de la institución, se incluirán unos u otros formatos, además hay que tener muy en cuenta los más utilizados y difundidos por los usuarios, para facilitar su consulta.

Con respecto a XML, señalar que podríamos incluir en Greenstone las descripciones del Archivo basadas en EAD, EAC, o EAF, configurando una serie de parámetros.

2.3 Funciones de cada apartado

Drupal

Greenstone

Archivo

Ofrecer todo tipo de información sobre el Archivo: actividades, noticias y también dar a conocer sus fondos.

Gestionar el Repositorio Digital (documentos)

Proporcionar los documentos a incluir en el repositorio

A) Drupal

Como ya se ha explicado Drupal es un programa gestor de contenidos (CMS), y sus utilidades las podemos aprovechar para proyectar en la red el Archivo como institución, y su contenido de muchas formas. Se pueden señalar:

  • Imagen corporativa de la institución, que incluya la historia del Archivo, sus instrumentos de descripción, guías de uso, mapa de localización, servicios, u organigrama.

  • Difusión de noticias relacionadas con el Archivo o su entorno, como por ejemplo adquisiciones, trabajos realizados, calendario de actividades culturales, o mejoras en los servicios.

  • Foros de discusión de usuarios, investigadores, o profesionales, de acceso público o restringido mediante una previa identificación.

  • Desarrollo de programas de alfabetización informacional y acercamiento a grupos no familiarizados con los Archivos.

  • Creación de encuestas y formularios para que los usuarios opinen sobre los próximos recursos a incluir en el repositorio.

  • Permitir mejorar el posicionamiento del Archivo en internet en los distintos buscadores.

  • Relacionar el Archivo con las redes sociales para llegar a un mayor número de usuarios.

En definitiva crear cualquier tipo de contenido que ayude a mejorar la imagen del Archivo y su repositorio digital en Internet, facilitando el acercamiento de los usuarios, y dando a conocer sus servicios y fondos.

Algunos módulos de Drupal permiten desarrollar repositorios digitales. Módulos como KnowledgeTree integration o Docman, e incluso herramientas como CCK, y Viewes, permiten crear los campos de descripción para incluir los documentos. Pero hay que señalar, que aunque la integración de Drupal y el repositorio va a resultar perfecta; para grandes colecciones de documentos los módulos pueden tener resultados imprevistos, y de momento, la actualización de las versiones, tanto de Drupal, de sus módulos, e incluso del propio PHP, pueden originar graves problemas con el trabajo realizado. La independencia entre Drupal y el repositorio (Greenstone u otros), pueden dar mayores garantías en su gestión y funcionamiento.

B) Greenstone.

Greenstone es el gestor del repositorio digital, ofrece el conjunto de documentos del Archivo en internet. Entre algunas de las actividades que permite:

  • Incluir los documentos digitales en los formatos elegidos (PDF, JPG, ODT…).

  • Describir los documentos con las normas y parámetros determinados (ISAD-G, MARC..). La descripción se puede realizar de manera individual, documento a documento, o describir las distintas agrupaciones en conjunto: Fondo, secciones, subsecciones, y series. De esta última manera se asigna a todos los recurso incluidos en cada agrupación la misma descripción de manera automática, desarrollando así un práctico sistema multinivel.

  • Organizar la manera de ofrecer los documentos al usuario, determinando las modalidades de búsqueda, la presentación de la descripción, o los resultados, y la navegación entre los documentos del repositorio.

  • Publicar los documentos en internet para que el usuario pueda acceder y realizar búsquedas en la descripción del documento, en el texto completo, e incluso en los metadatos inherentes de los ficheros (tamaño, medidas, formatos o cualquier otro asignado.).

Existen otros programas de código abierto destinados a la creación de repositorios digitales, con algunas funciones similares a Greenstone, como Fedora (http://www.fedora-commons.org/) , o Dspace (www.dspace.org). La integración de Fedora o Dspace en Drupal está más avanzada (Dspace http://drupalib.interoperating.info/node/205 y Fedora http://islandora.ca/) De la elección de uno u otro programa dependerá de las necesidades y posibilidades de los administradores de estos servicios. Greenstone puede resultar más sencillo de instalar, configurar, adaptar y mantener que los otros dos sistemas, pero es necesario realizar una valoración para determinar la elección. Existen herramientas para migrar repositorios desarrollados con Greenstone a Dspace, y viceversa. E incluso algunas instituciones combinan ambos (William Staughton Collection. http://www.aladin.wrlc.org/gsdl/collect/staughton/staughton.shtml)

Greenstone en su versión 2, ha quedado relativamente desactualizado con respecto a la administración de usuarios, documentación oficial, mantenimiento en red, personalización, o aspectos de la web 2.0. Debido sobre todo a tener como principal objetivo la creación y publicación de repositorios de manera simple, independientemente de su tamaño. Esperemos que la versión 3 de este programa tenga en cuenta nuevas funciones, más allá de la gestión y mantenimiento del repositorio.

Por otro lado este handicap puede ser un motivo para que Greenstone y Drupal se compaginen bastante bien, independizando sus tareas: Greenstone no es un gestor de contenidos, y Drupal plantea una serie de problemas técnicos, y de mantenimiento, para convertirse a día de hoy en una herramienta de repositorios digitales. Ambos programas son sencillos de gestionar, y sus resultados son excelentes de manera independiente, por tanto si los unimos podemos obtener una herramienta que se adapte plenamente a nuestras necesidades.

C) Archivo:

El archivo va a proporcionar los documentos y recursos que formen el repositorio digital, a la vez que se va a encargar de su correcta administración, gestión y actualización. Los documentos a incluir estarán determinados por la política del centro, se pueden tener en cuenta los intereses de los usuarios potenciales. También se puede aprovechar cualquier conmemoración o fecha destacada para aumentar el repositorio con nuevos recursos relacionados con tales eventos, promocionando los documentos y a la vez el archivo; buscando atraer nuevos usuarios más allá del erudito o investigador profesional.

2.4 Ensamblar el Archivo, en Drupal y Greenstone.

Utilizar las posibilidades de Drupal y Greenstone en el Archivo va a proporcionar y propagar numerosa información sobre la institución y sus documentos a cualquier usuario interesado, de una manera atractiva y sencilla.

Para unir Drupal con Greenstone se puede realizar de dos formas:

– Mediante la incorporación de un iframe a la web desarrollada con Drupal. De esta manera se acopla Greenstone en el gestor de contenidos, y aparenta ser el mismo portal, pero funcionan de manera independiente. El repositorio debe seguir la misma línea de estilo y apariencia utilizada por Drupal.

El código del iframe que se puede insertar en cualquier página de Drupal es:


– Otra forma más compleja consiste en crear un formulario en Drupal donde se describan los documentos, e importarlos a Greenstone de manera automática, usando XML o SOAP soportado por perl (Greentsone) y php (Drupal). De esta manera tanto la gestión del repositorio, como su consulta se desarrolla íntegramente en Drupal. Además se deben de utilizar módulos que mejoren la presentación y uso de la información. Por otro lado Drupal y Greenstone se pueden unir con las posibilidades que permiten algunos módulos (nodewords, biblio, marc, OAI-PMH…), esta idea parte del consultor documentalista Oskar Calvo (http://www.documentados.com) desgraciadamente todavía no se ha implementado de una manera sólida.

3 Ejemplos.

En este portal: Drupal se encarga de recoger la información institucional (“Presentación”, ¿Ayuda?, “Sobre el recurso”…), y de promocionar sus fondos (“Destacamos…”), y Greenstone mediante un iframe ofrece el repositorio para poder consultar el Archivo. Archivo de la Fundación Bernardo Aladrén. http://www.manuelalbar.org

En la imagen Drupal se encarga de interactuar con los usuarios mediante encuestas (“Participa y decide”) y ofrecer servicio de alertas con un agregador de noticias RSS (Apartado anaranjado). Greenstone ofrece el repositorio, en este caso de una biblioteca especializada, mediante otro iframe. Biblioteca Virtual de Mi Espacio Natural http://miespacionatural.es/content/biblioteca-virtual

4 Algunas Fuentes y recursos

ALÓS-MONER, Adela. Repositorios digitales: un concepto, múltiples visiones. [en linea]. [s.l: Thinkepi], 2009. [consulta 2-2010] <http://www.thinkepi.net/repositorios-digitales-un-concepto-multiples-visiones>

CONSULTATIVE Committee for Space Data Systems. Reference model for an Open Archival Information System. [en linea]. Washington: CCSDS Secretariat, 2002. [consulta 01-2010] <http://public.ccsds.org/publications/archive/650x0b1.pdf>

[GRUPO de expertos de IFLA e ICA]. Directrices para Proyectos de Digitalización de colecciones y fondos de dominio público, en particular para aquellos custodiados en bibliotecas y archivos. Traducción española. Madrid: Ministerio de Cultura, 2002. [consulta 01-2010] <http://www.mcu.es/archivos/docs/pautas_digitalizacion.pdf>

HEREDIA HERRERA, Antonia. ¿Qué es un archivo?. Gijón: Trea, 2007. 135 pp. ISBN: 978-84-9704-306-9.

TRAMULLAS, JESÚS. Bibliotecas digitales Greenstone. Publicado en: Tramullas, J. Y Garrido, P. (coords). Software libre para servicios de información digital. Madrid: Pearson Prentice Hall, 2006. ISBN 978-84-8322-299-7

Drupal

Web oficial: www.drupal.org

Descargas: http://drupal.org/project/drupal

Drupal Comunidad Hispana: http://drupal.org.es/

Instalación Drupal http://drupal.org.es/node/4530

Greenstone

Web oficial: www.greenstone.org (Disponible en Español)

Descargas: http://www.greenstone.org/download_es

Todo sobre Greenstone: http://wiki.greenstone.org/

Desarrolladores Greenstone: http://trac.greenstone.org/

Comunidad Greenstone en Español: http://gsdl-esdoc.berlios.de/

Lista de distribución de correo plenamente activas (dudas, sugerencias, soluciones…):

https://list.scms.waikato.ac.nz/mailman/listinfo/greenstone-users (Todos los usuarios) http://www.freelists.org/list/greenstone_es (Usuarios hispanos)

————————

Este esbozo de comunicación, iba a ser presentada en las jornadas OS Repositorios de Barcelona (http://osrepositorios.uoc.edu/programa.html). Por falta de tiempo no pudo mejorarse, pero al menos ha quedado para un post : ).

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.