Técnicas tais como mineração de dados, processamento de linguagem natural (PNL), e análise de texto fornecem diferentes métodos para encontrar padrões nesta informação, ou interpretá-la de outra forma. As técnicas comuns de estruturação de texto envolvem geralmente a etiquetagem manual com metadados ou a etiquetagem de parte da fala para uma estruturação adicional baseada em mineração de texto. A norma UIMA (Unstructured Information Management Architecture) forneceu uma estrutura comum para o processamento desta informação para extrair significado e criar dados estruturados sobre a informação.
Software que cria estrutura processável por máquina pode utilizar a estrutura linguística, auditiva, e visual que existe em todas as formas de comunicação humana. Os algoritmos podem inferir esta estrutura inerente do texto, por exemplo, examinando a morfologia das palavras, a sintaxe das frases, e outros padrões pequenos e em grande escala. A informação não estruturada pode então ser enriquecida e etiquetada para resolver ambiguidades e técnicas baseadas na relevância, depois utilizadas para facilitar a pesquisa e descoberta. Exemplos de “dados não estruturados” podem incluir livros, revistas, documentos, metadados, registos de saúde, áudio, vídeo, dados analógicos, imagens, ficheiros e texto não estruturado, tais como o corpo de uma mensagem de correio electrónico, página Web, ou documento do processador de texto. Embora o conteúdo principal a ser transmitido não tenha uma estrutura definida, geralmente vem embalado em objectos (por exemplo, em ficheiros ou documentos, …) que têm eles próprios estrutura e são, portanto, uma mistura de dados estruturados e não estruturados, mas colectivamente ainda são referidos como “dados não estruturados”. Por exemplo, uma página web HTML é etiquetada, mas a marcação HTML serve normalmente apenas para renderização. Não captura o significado ou função dos elementos etiquetados de forma a suportar o processamento automatizado do conteúdo da informação da página. A marcação XHTML permite o processamento automático de elementos, embora tipicamente não capture ou transmita o significado semântico dos termos marcados.
Desde que dados não estruturados ocorrem normalmente em documentos electrónicos, a utilização de um sistema de gestão de conteúdos ou de documentos que pode categorizar documentos inteiros é muitas vezes preferível à transferência e manipulação de dados de dentro dos documentos. A gestão de documentos fornece assim os meios para transmitir estrutura às colecções de documentos.
Os motores de pesquisa tornaram-se ferramentas populares para indexação e pesquisa através de tais dados, especialmente texto.
Abordagens no processamento de linguagem naturalEditar
Fluxos de trabalho computacionais específicos foram desenvolvidos para impor estrutura aos dados não estruturados contidos nos documentos de texto. Estes fluxos de trabalho são geralmente concebidos para tratar conjuntos de milhares ou mesmo milhões de documentos, ou muito mais do que as abordagens manuais à anotação podem permitir. Várias destas abordagens baseiam-se no conceito de processamento analítico online, ou OLAP, e podem ser suportadas por modelos de dados tais como cubos de texto. Uma vez que os metadados de documentos estejam disponíveis através de um modelo de dados, a geração de resumos de subconjuntos de documentos (ou seja, células dentro de um cubo de texto) pode ser realizada com abordagens baseadas em frases.
Abordagens em medicina e investigação biomédicaEditar
Investigação biomédica gera uma fonte importante de dados não estruturados, uma vez que os investigadores publicam frequentemente os seus resultados em revistas académicas. Embora a linguagem nestes documentos seja um desafio para derivar elementos estruturais (por exemplo, devido ao vocabulário técnico complicado contido e ao conhecimento do domínio necessário para contextualizar completamente as observações), os resultados destas actividades podem produzir ligações entre estudos técnicos e médicos e pistas sobre novas terapias de doenças. Esforços recentes para impor estrutura sobre documentos biomédicos incluem abordagens cartográficas auto-organizadas para identificar tópicos entre documentos, algoritmos não supervisionados de propósito geral, e uma aplicação do fluxo de trabalho CaseOLAP para determinar associações entre nomes de proteínas e tópicos de doenças cardiovasculares na literatura. CaseOLAP define relações frases-categoria de uma forma precisa (identifica relações), consistente (altamente reprodutível), e eficiente. Esta plataforma oferece uma acessibilidade melhorada e capacita a comunidade biomédica com ferramentas de fraseologia para aplicações generalizadas de investigação biomédica.