Des techniques telles que l’exploration de données, le traitement du langage naturel (NLP) et l’analyse de texte fournissent différentes méthodes pour trouver des modèles dans ces informations, ou les interpréter d’une autre manière. Les techniques courantes de structuration du texte impliquent généralement un étiquetage manuel avec des métadonnées ou un étiquetage en partie de parole pour une structuration ultérieure basée sur l’exploration de texte. La norme UIMA (Unstructured Information Management Architecture) a fourni un cadre commun pour le traitement de ces informations afin d’en extraire le sens et de créer des données structurées sur ces informations.
Les logiciels qui créent une structure traitable par la machine peuvent utiliser la structure linguistique, auditive et visuelle qui existe dans toutes les formes de communication humaine. Les algorithmes peuvent déduire cette structure inhérente du texte, par exemple, en examinant la morphologie des mots, la syntaxe des phrases et d’autres modèles à petite et grande échelle. Les informations non structurées peuvent ensuite être enrichies et étiquetées pour lever les ambiguïtés et les techniques basées sur la pertinence peuvent être utilisées pour faciliter la recherche et la découverte. Parmi les exemples de « données non structurées », on peut citer les livres, les revues, les documents, les métadonnées, les dossiers médicaux, les données audio, vidéo et analogiques, les images, les fichiers et le texte non structuré tel que le corps d’un message électronique, d’une page Web ou d’un document de traitement de texte. Si le contenu principal véhiculé n’a pas de structure définie, il est généralement présenté sous forme d’objets (par exemple, dans des fichiers ou des documents, etc.) qui ont eux-mêmes une structure et sont donc un mélange de données structurées et non structurées, mais collectivement, on parle toujours de « données non structurées ». Par exemple, une page web HTML est balisée, mais le balisage HTML ne sert généralement qu’au rendu. Il ne saisit pas la signification ou la fonction des éléments balisés de manière à permettre un traitement automatisé du contenu informatif de la page. Le balisage XHTML permet effectivement le traitement automatique des éléments, bien qu’il ne saisisse ou ne transmette généralement pas la signification sémantique des termes balisés.
Puisque les données non structurées se trouvent couramment dans les documents électroniques, l’utilisation d’un système de gestion de contenu ou de documents qui peut catégoriser des documents entiers est souvent préférée au transfert et à la manipulation des données à partir des documents. La gestion documentaire fournit donc les moyens de transmettre une structure sur des collections de documents.
Les moteurs de recherche sont devenus des outils populaires pour l’indexation et la recherche dans ces données, en particulier dans le texte.
Approches du traitement du langage naturelEdit
Des flux de travail informatiques spécifiques ont été développés pour imposer une structure aux données non structurées contenues dans les documents textuels. Ces flux de travail sont généralement conçus pour traiter des ensembles de milliers, voire de millions de documents, soit beaucoup plus que ce que les approches manuelles d’annotation peuvent permettre. Plusieurs de ces approches sont basées sur le concept de traitement analytique en ligne, ou OLAP, et peuvent être soutenues par des modèles de données tels que les cubes de texte. Une fois que les métadonnées des documents sont disponibles par le biais d’un modèle de données, la génération de résumés de sous-ensembles de documents (c’est-à-dire les cellules d’un cube de texte) peut être effectuée avec des approches basées sur les phrases.
Approches en médecine et en recherche biomédicaleModifier
La recherche biomédicale génère une source majeure de données non structurées, car les chercheurs publient souvent leurs résultats dans des revues savantes. Bien que le langage de ces documents soit difficile à dériver des éléments structurels (par exemple, en raison du vocabulaire technique compliqué qu’ils contiennent et de la connaissance du domaine nécessaire pour contextualiser pleinement les observations), les résultats de ces activités peuvent donner des liens entre les études techniques et médicales et des indices concernant les nouvelles thérapies des maladies. Les efforts récents pour structurer les documents biomédicaux comprennent des approches de cartes auto-organisatrices pour identifier les sujets parmi les documents, des algorithmes non supervisés d’usage général et une application du flux de travail CaseOLAP pour déterminer les associations entre les noms de protéines et les sujets relatifs aux maladies cardiovasculaires dans la littérature. CaseOLAP définit les relations entre les phrases et les catégories d’une manière précise (identifie les relations), cohérente (hautement reproductible) et efficace. Cette plateforme offre une meilleure accessibilité et permet à la communauté biomédicale de disposer d’outils d’exploration de phrases pour des applications de recherche biomédicale très répandues.