Sistemas de extracción de información.
Un SEI (Sistema de Extracción de Información), típicamente extrae informaciones sobre entidades, relaciones y eventos a partir de los documentos existentes en undominio restringido.
La filosofía de trabajo de los SEI se basa en la aplicación de un conjunto de reglas construidas, tanto manual como automáticamente, para identificar las referencias a la información que nos interesa dentro de una serie de textos y proporcionar una representación simbólica de la misma. Estas reglas están basadas en aspectos del vocabulario, de la semántica y del estilo de escritura propios de cada dominio [Soderland, 1997]. Por esto la utilización de técnicas para el procesamiento del lenguaje natural y el uso de conocimiento relacionado con el dominio en que se está trabajando son de vital importancia para la construcción de un SEI.
Pongamos un ejemplo. A partir de un conjunto de noticias sobre cambios de puestos de direcivos en empresas, podría interesar rellenar una fichas incluyendo datos de cada evento de un cambio de una persona en un puesto dado. De modo que a partir del siguiente texto:
"Luis López deja el puesto de vicepresidente de Empresa S.A. el 4 de marzo de 2005. Él será sustituido por Marta Pérez."
Un buen sistema de extracción de información debe ser capaz de deducir que Luis López y Marta Pérez son personas, 4 de marzo de 2005 es una fecha y que Empresa S.A es una organización. Esta primera tarea, que consiste en identificar entidades de diferentes tipos en el texto, se denomina Named Entity Recognition.
Además debe ser capaz de solucionar anáforas. En el ejemplo, existen dos eventos: dejar un puesto y tomar otra persona el mismo puesto.Nótese que, para saber que se refieren al mismo evento, puede ser necesario realizar la resolución de anáfora, descubriendo que el pronombre Él en la segunda frase se refiere a Luis López.
Hoy en día existen unas conferencias llevadas a nivel global conocidas como MUC(Message Understanding Conferences) que tratan de evaluar el estado del arte de los SEI. Los organizadores de dichas conferencias proveen un dominio de aplicación para los sistestemas de extracción de información además de definir las reglas de las tareas de la extracción. De hecho, han creado un dominio de aplicación con un corpus de textos etiquetados con la información a extraer y un conjunto de textos para evaluar las aplicaciones de extracción de información de las organizaciones que quieran participar en dichas conferencias.
En el MUC se ha optado por la utilización de plantillas atributo-valor para la evaluación de los SEI. De esta manera, se puede comprobar la exactitud del sistemas comparando las salidas del sistema de extracción de información con unas plantillas que han sido rellenadas manualmente.
En cada conferencia se presenta un dominio sobre el cual los sistemas compiten para ver cuál logra los mejores resultados, según las especificaciones impuestas en la tarea de extracción de información. Los dominios presentados en los MUCs hasta 1997 han sido: textos sobre operaciones navales [MUC-1, 1987 y MUC-2, 1989], noticias sobre actividades terroristas [MUC-3, 1991 y MUC-4, 1992], noticias sobre microelectrónica y fusión de corporaciones [MUC-5, 1993], artículos sobre sucesión de puestos en compañías importantes [MUC-6, 1995], artículos sobre vehículos espaciales y lanzamiento de misiles [MUC-7, 1997]. [Appelt and Israel, 1999]
Introducción a la extracción de información
Hoy en día existe un gran volumen de textos en formato electrónico dispersos por internet. De hecho, el volumen es tan grande que sobrepasa la capacidad de una persona para obtener información útil. Este hecho hace imperativo poner algo de orden en este caos de textos. Para poder hacerlo encontramos dos estrategias: La primera sería la recuperación de la información y la segunda sería la extracción de la información. Debemos tener en cuenta que estas dos estrategias son diferentes.
La recuperación de la información se refiere al hecho de obtener documentos ante una solicitud de búsqueda.
La extracción de la información, por el contrario se basa en la extracción de hechos de distintos documentos ante una solicitud de búsqueda.
Para poder crear un sistema de extracción de información, primero un sistema de recuperación de la información obtiene documentos con información significativa respecto a la solicitud de búsqueda y a continuación el sistema de extracción de información extrae y organiza la información que sea de interés.
El objetivo de los sistemas de extracción de información es obtener la información relevante e ignorar la irrelevante.
La extracción de información tiene muchas aplicaciones potenciales, desde traslación de información no estructurada a bases de datos tradicionales, detección de tendencias hasta la mejora en la construcción de índices para la recuperación de la información.
A largo plazo se contempla un objetivo básico: conseguir sistemas de extracción de información precisos, teniendo en cuenta que en la actualidad, los sistemas de extracción de información sólo trabajan con algunos tipos de textos y no son muy precisos.
Aplicaciones de los sistemas de extracción de información.
Las aplicaciones de los sistemas de extracción de información es un campo muy amplio dado que en toda área profesional donde se maneje información (industrias, empresas, organismos públicos, etc.) pueden resultar muy útiles.
Los sistemas de extracción de información pueden dotar de contenido semántico toda aquella información que existe hoy en día en ficheros en formato digital. Esto significa una verdadera revolución para todas las tecnologías de la información tal y como los conocemos. Hoy por hoy la información publicada está totalmente vacía de un segundo sentido. Es decir, es el mismo usuario que utiliza la información el que la dota de sentido. Con los SEI, podemos hacer que la información cobre sentido y pueda ser extraida aquella parte de la información que nos interesa.
Por ejemplo, encontramos una aplicación de un SEI para el envío de asistencia médica. El sistema de extracción de información fue diseñado para resumir el historial médico de cada paciente, extrayendo los diagnósticos, síntomas, análisis realizados y tratamientos recibidos. Este tipo de sistemas se pueden utilizar para asistir a los médicos, o bien para las compañías de seguros, para el cálculo de reembolsos que debe dar a cada paciente asegurado.
Otro ejemplo de la utilización de sistemas de extracción de información se aplica al campo de la inspección literaria científica o técnica. Existen sistemas de EI para capturar información relevante de artículos técnicos o científicos, por ejemplo la captura de las propiedades de un producto farmacéutico.
Por último, encontramos una aplicación de extracción de información que sirve para recabar información publicada en periódicos digitales e incluso en noticias radiofónicas.
No hay comentarios:
Publicar un comentario