7 Jun 2015

Descripción de documentos y alquimia de datos, contexto y web semántica

Por Julian Moyano

Burroughs_adding_machine Imagen del Blog de http://radar.oreilly.com/2015/06/filing-cabinets-gaap-and-the-accountants-dilemma.html RADARLas cajas archivadoras son un modelo mental malo citaba esta semana uno de los blogs tecnológicos más influyentes al explicar las limitaciones de extrapolar la gestión tradicional de documentos en papel a la gestión de documentos y activos digitales. Nadie pone en duda esas limitaciones y sabemos que el cambio tecnológico está obligando a entender y experimentar con nuevas posibilidades que permitan ir más allá de identificar recursos, describirlos o automatizar ciertas tareas. Ahora, se debe continuar con la explotación de la información digital con un enfoque más completo y útil para sus responsables y usuarios. 

La información digital incluye descripciones en forma de metadatos que posibilitan conocer y administrar sus procesos, responsables, seguridad, acceso, historial... etc. Todos esos metadatos se ofrecen bajo sistemas de gestión documental o los más avanzados sistemas de gestión empresarial utilizando normas, estándares y esquemas concretos, lo que demuestran que nada tiene que ver el trabajo diario de estos sistemas con el modelo empleado para la gestión de "file cabinets". Pero en la actualidad se empieza a vislumbrar otras formas de obtener y gestionar metadatos. 

El tratamiento de la información está produciendo un nuevo contexto de los recursos muy diferente a los metadatos tradicionales que conocemos, se trata de obtener el "contexto del contexto". Redundancia que puede servir para explicar el potencial de la web semántica, que aunque está costando desplegarse, cada vez está más disponible para aplicaciones y usuarios.

Obtener ese "contexto del contexto" es la meta de AlchemyAPI una aplicación con varios años de experiencia que sigue creciendo con el análisis de datos, imágenes y recursos bajo el entorno, entre otros, de la tecnología semántica, big data y deep learning. Un proyecto en plena expansión (recientemente comprado por IBM) que como su nombre indica hace alquimia con la información destacando como resultados:

  • El análisis e indexación automático del contenido (nada nuevo...).
  • La identificación de entidades, entendiendo por entidad: personas, ciudades, países, compañías, organizaciones, profesiones, marcas... y así hasta 42 tipos diferentes.
  • Ofrece el grado de relevancia de la entidad en el contenido.
  • El "sentimiento" de la entidad en el recurso, si transmite positividad, negatividad, neutralidad o una mezcla de todos ellos.
  • Enlaza datos (LOD) relacionados con la entidad identificada, utilizando la dbpedia, freebase, yago o la web de la propia entidad. 
  • Document Sentiment, al igual que ocurre con las entidades se analiza y clasifica las emociones que puede transmitir el conjunto de la información al usuario. 
  • Y otro de sus potenciales es el análisis de frases y sentencias que identifican acciones e invitan a comprender resultados (compras, trámites administrativos, actividades...).

AlchemyAPI Archives

Web de los Archivos Nacionales (UK) analizada con AlchemyAPI.

De momento AlchemyAPI está orientada a la lengua inglesa y ofrece unos resultados en castellano limitados. También se centra en el contenido web y no analiza por defecto ficheros con formatos pdf, doc, odt... tan relacionados con los documentos, aunque se puede programar esa acción. Aun así, es una herramienta con un gran potencial al ofrecer un análisis exhaustivo del contenido de un recurso y si se piensa en el trabajo diario que se realiza en los archivos y servicios de información podría ser de gran ayuda al facilitar:

  • La identificación, categorización y clasificación de activos digitales, mejorando su control.
  • La extracción de palabras clave, puntos de acceso o autoridades podría realizarse de manera automática, homogénea y bajo los mismos criterios o partir de ese análisis para seleccionar los elementos descriptivos.
  • El análisis y la relevancia de las entidades y sus "sentimientos" servirán para ofrecer los resultados de búsqueda, la recuperación, tratamiento, valoración y posicionamiento del contenido. 
  • La navegación por entidades ayudará a los responsables y usuarios a descubrir nuevas relaciones y conexiones del contenido gestionado.
  • Los responsables y gestores de la información podrán valorar más objetivamente el contenido tras el análisis realizado por aplicaciones de este tipo.
  • Sin olvidar que el "sentimiento" de los documentos puede servir para realizar estudios de mercado, reputación online y análisis de expectativas de ciudadanos, clientes y usuarios.

AlchemyAPI seguro que va a ir precisando y mejorando con el tiempo sus resultados, al igual que están haciendo otras aplicaciones similares como Monkeylearn que siguen explotando todos esos datos escondidos entre grandes cantidades de información digital para ofrecerlos de una manera más útil, fácil e inteligente.

 

AlchemyAPI Drupal

 Contenido de la web de los Archivos Nacionales (UK) analizada con AlchemyAPI bajo Drupal 7. Para probar las posibilidades de AlchemyAPI en un entorno real se puede usar desde hace unos años en Drupal. 

Y para más información: