Técnicas como la minería de datos, el procesamiento del lenguaje natural (PLN) y el análisis de textos proporcionan diferentes métodos para encontrar patrones en esta información o interpretarla de otro modo. Las técnicas habituales para estructurar el texto suelen implicar el etiquetado manual con metadatos o el etiquetado de parte del lenguaje para una posterior estructuración basada en la minería de textos. El estándar UIMA (Unstructured Information Management Architecture) proporciona un marco común para el procesamiento de esta información con el fin de extraer el significado y crear datos estructurados sobre la información.
El software que crea una estructura procesable por la máquina puede utilizar la estructura lingüística, auditiva y visual que existe en todas las formas de comunicación humana. Los algoritmos pueden inferir esta estructura inherente al texto, por ejemplo, examinando la morfología de las palabras, la sintaxis de las frases y otros patrones a pequeña y gran escala. La información no estructurada puede entonces enriquecerse y etiquetarse para resolver las ambigüedades, y las técnicas basadas en la relevancia pueden utilizarse para facilitar la búsqueda y el descubrimiento. Algunos ejemplos de «datos no estructurados» pueden ser libros, revistas, documentos, metadatos, registros sanitarios, audio, vídeo, datos analógicos, imágenes, archivos y texto no estructurado, como el cuerpo de un mensaje de correo electrónico, una página web o un documento de procesador de textos. Aunque el contenido principal que se transmite no tiene una estructura definida, suele venir empaquetado en objetos (por ejemplo, en archivos o documentos, …) que a su vez tienen estructura y son, por tanto, una mezcla de datos estructurados y no estructurados, pero en conjunto se siguen denominando «datos no estructurados». Por ejemplo, una página web HTML está etiquetada, pero el marcado HTML suele servir únicamente para la representación. No capta el significado o la función de los elementos etiquetados de forma que permita el procesamiento automático del contenido informativo de la página. El etiquetado XHTML sí permite el procesamiento automático de los elementos, aunque normalmente no capta ni transmite el significado semántico de los términos etiquetados.
Dado que los datos no estructurados suelen aparecer en los documentos electrónicos, a menudo se prefiere el uso de un sistema de gestión de contenidos o de documentos que pueda categorizar documentos enteros en lugar de la transferencia y manipulación de datos desde los propios documentos. La gestión de documentos, por tanto, proporciona los medios para transmitir la estructura a las colecciones de documentos.
Los motores de búsqueda se han convertido en herramientas populares para la indexación y la búsqueda a través de tales datos, especialmente de texto.
Enfoques en el procesamiento del lenguaje naturalEditar
Se han desarrollado flujos de trabajo computacionales específicos para imponer la estructura a los datos no estructurados contenidos en los documentos de texto. Estos flujos de trabajo suelen estar diseñados para manejar conjuntos de miles o incluso millones de documentos, o mucho más de lo que permiten los enfoques manuales de anotación. Varios de estos enfoques se basan en el concepto de procesamiento analítico en línea, o OLAP, y pueden apoyarse en modelos de datos como los cubos de texto. Una vez que los metadatos de los documentos están disponibles a través de un modelo de datos, la generación de resúmenes de subconjuntos de documentos (es decir, celdas dentro de un cubo de texto) puede realizarse con enfoques basados en frases.
Enfoques en medicina e investigación biomédicaEditar
La investigación biomédica genera una importante fuente de datos no estructurados, ya que los investigadores suelen publicar sus hallazgos en revistas académicas. Aunque el lenguaje de estos documentos es difícil de derivar elementos estructurales (por ejemplo, debido al complicado vocabulario técnico que contienen y al conocimiento del dominio que se requiere para contextualizar completamente las observaciones), los resultados de estas actividades pueden aportar vínculos entre estudios técnicos y médicos y pistas sobre nuevas terapias de enfermedades. Los esfuerzos recientes para reforzar la estructura de los documentos biomédicos incluyen enfoques de mapas autoorganizados para identificar temas entre los documentos, algoritmos no supervisados de propósito general y una aplicación del flujo de trabajo CaseOLAP para determinar las asociaciones entre los nombres de las proteínas y los temas de las enfermedades cardiovasculares en la literatura. CaseOLAP define las relaciones frase-categoría de forma precisa (identifica las relaciones), consistente (altamente reproducible) y eficiente. Esta plataforma ofrece una mayor accesibilidad y permite a la comunidad biomédica disponer de herramientas de minería de frases para aplicaciones de investigación biomédica generalizadas.