Techniken wie Data Mining, Natural Language Processing (NLP) und Textanalyse bieten verschiedene Methoden, um Muster in diesen Informationen zu finden oder sie anderweitig zu interpretieren. Gängige Techniken zur Strukturierung von Text beinhalten in der Regel die manuelle Verschlagwortung mit Metadaten oder Part-of-Speech-Tagging für eine weitere Text-Mining-basierte Strukturierung. Der UIMA-Standard (Unstructured Information Management Architecture) bietet einen gemeinsamen Rahmen für die Verarbeitung dieser Informationen, um die Bedeutung zu extrahieren und strukturierte Daten über die Informationen zu erstellen.
Software, die maschinenverarbeitbare Strukturen erzeugt, kann die sprachlichen, auditiven und visuellen Strukturen nutzen, die in allen Formen der menschlichen Kommunikation vorhanden sind. Algorithmen können diese inhärente Struktur zum Beispiel aus Texten ableiten, indem sie die Wortmorphologie, die Satzsyntax und andere klein- und großräumige Muster untersuchen. Unstrukturierte Informationen können dann angereichert und getaggt werden, um Mehrdeutigkeiten zu beseitigen, und relevanzbasierte Techniken können dann verwendet werden, um die Suche und das Auffinden zu erleichtern. Beispiele für „unstrukturierte Daten“ sind Bücher, Zeitschriften, Dokumente, Metadaten, Krankenakten, Audio, Video, analoge Daten, Bilder, Dateien und unstrukturierter Text, wie z. B. der Textkörper einer E-Mail-Nachricht, einer Webseite oder eines Textverarbeitungsdokuments. Während der Hauptinhalt, der übermittelt wird, keine definierte Struktur hat, kommt er in der Regel verpackt in Objekten (z. B. in Dateien oder Dokumenten, …), die selbst eine Struktur haben und somit eine Mischung aus strukturierten und unstrukturierten Daten sind, was aber insgesamt immer noch als „unstrukturierte Daten“ bezeichnet wird. Zum Beispiel ist eine HTML-Webseite mit Tags versehen, aber das HTML-Markup dient typischerweise nur zur Darstellung. Es erfasst nicht die Bedeutung oder Funktion der getaggten Elemente in einer Weise, die eine automatisierte Verarbeitung des Informationsgehalts der Seite unterstützt. XHTML-Tagging ermöglicht zwar die maschinelle Verarbeitung von Elementen, erfasst oder vermittelt aber typischerweise nicht die semantische Bedeutung der getaggten Begriffe.
Da unstrukturierte Daten häufig in elektronischen Dokumenten vorkommen, wird der Einsatz eines Content- oder Dokumentenmanagementsystems, das ganze Dokumente kategorisieren kann, oft dem Datentransfer und der Manipulation innerhalb der Dokumente vorgezogen. Dokumentenmanagement bietet somit die Möglichkeit, Dokumentensammlungen Struktur zu verleihen.
Suchmaschinen sind zu beliebten Werkzeugen für die Indizierung und Suche in solchen Daten, insbesondere in Texten, geworden.
Ansätze in der Verarbeitung natürlicher Sprache
Es wurden spezielle Computer-Workflows entwickelt, um den in Textdokumenten enthaltenen unstrukturierten Daten Struktur zu verleihen. Diese Workflows sind in der Regel darauf ausgelegt, Mengen von Tausenden oder sogar Millionen von Dokumenten zu verarbeiten, also weit mehr, als es manuelle Annotationsansätze erlauben würden. Einige dieser Ansätze basieren auf dem Konzept des Online Analytical Processing (OLAP) und können durch Datenmodelle wie Text Cubes unterstützt werden. Sobald die Metadaten eines Dokuments über ein Datenmodell verfügbar sind, können mit phrasenbasierten Ansätzen Zusammenfassungen von Teilmengen von Dokumenten (d. h. Zellen innerhalb eines Textwürfels) erstellt werden.
Ansätze in der Medizin und biomedizinischen ForschungBearbeiten
Die biomedizinische Forschung generiert eine große Quelle unstrukturierter Daten, da Forscher ihre Ergebnisse häufig in wissenschaftlichen Zeitschriften veröffentlichen. Obwohl es schwierig ist, aus der Sprache dieser Dokumente Strukturelemente abzuleiten (z. B. aufgrund des darin enthaltenen komplizierten Fachvokabulars und des Domänenwissens, das erforderlich ist, um Beobachtungen vollständig zu kontextualisieren), können die Ergebnisse dieser Aktivitäten Verbindungen zwischen technischen und medizinischen Studien und Hinweise auf neue Krankheitstherapien liefern. Zu den jüngsten Bemühungen, biomedizinischen Dokumenten eine Struktur zu verleihen, gehören selbstorganisierende Kartenansätze zur Identifizierung von Themen in Dokumenten, allgemeine unüberwachte Algorithmen und eine Anwendung des CaseOLAP-Workflows zur Bestimmung von Assoziationen zwischen Proteinnamen und Themen zu Herz-Kreislauf-Erkrankungen in der Literatur. CaseOLAP definiert Phrasen-Kategorie-Beziehungen in einer genauen (identifiziert Beziehungen), konsistenten (hoch reproduzierbar) und effizienten Weise. Diese Plattform bietet eine verbesserte Zugänglichkeit und befähigt die biomedizinische Gemeinschaft mit Phrase-Mining-Tools für weit verbreitete biomedizinische Forschungsanwendungen.