Technieken zoals datamining, natuurlijke taalverwerking (NLP) en tekstanalyse bieden verschillende methoden om patronen te vinden in deze informatie of deze anderszins te interpreteren. Gangbare technieken voor het structureren van tekst omvatten meestal handmatige tagging met metadata of part-of-speech tagging voor verdere text mining-gebaseerde structurering. De Unstructured Information Management Architecture (UIMA) standaard biedt een gemeenschappelijk kader voor het verwerken van deze informatie om er betekenis aan te ontlenen en gestructureerde gegevens over de informatie te creëren.
Software die machinaal verwerkbare structuur creëert, kan gebruik maken van de linguïstische, auditieve en visuele structuur die in alle vormen van menselijke communicatie bestaat. Algoritmen kunnen deze inherente structuur uit tekst afleiden, bijvoorbeeld door de woordmorfologie, zinsbouw en andere klein- en grootschalige patronen te onderzoeken. Ongestructureerde informatie kan vervolgens worden verrijkt en getagd om dubbelzinnigheden aan te pakken en op relevantie gebaseerde technieken kunnen vervolgens worden gebruikt om zoeken en ontdekken te vergemakkelijken. Voorbeelden van “ongestructureerde gegevens” zijn boeken, tijdschriften, documenten, metagegevens, gezondheidsdossiers, audio, video, analoge gegevens, afbeeldingen, bestanden, en ongestructureerde tekst zoals de inhoud van een e-mailbericht, webpagina of tekstverwerkingsdocument. Hoewel de belangrijkste inhoud die wordt overgebracht geen welomschreven structuur heeft, wordt deze meestal verpakt in objecten (bv. in bestanden of documenten, …) die zelf structuur hebben en dus een mengeling zijn van gestructureerde en ongestructureerde gegevens, maar als geheel wordt dit nog steeds “ongestructureerde gegevens” genoemd. Bijvoorbeeld, een HTML-webpagina is getagd, maar de HTML-mark-up dient meestal alleen voor de weergave. De betekenis of functie van getagde elementen wordt niet vastgelegd op manieren die een geautomatiseerde verwerking van de informatie-inhoud van de pagina ondersteunen. XHTML-markering maakt een automatische verwerking van elementen mogelijk, maar de semantische betekenis van getagde termen wordt meestal niet vastgelegd of overgebracht.
Omdat ongestructureerde gegevens vaak in elektronische documenten voorkomen, wordt vaak de voorkeur gegeven aan een inhoud- of documentbeheersysteem dat volledige documenten kan categoriseren, boven gegevensoverdracht en -manipulatie vanuit de documenten zelf. Documentbeheer biedt dus de mogelijkheid om structuur aan te brengen in documentverzamelingen.
Zoekmachines zijn populaire hulpmiddelen geworden voor het indexeren van en zoeken in dergelijke gegevens, met name tekst.
benaderingen in natuurlijke taalverwerkingEdit
Er zijn specifieke computationele workflows ontwikkeld om structuur aan te brengen in de ongestructureerde gegevens die tekstdocumenten bevatten. Deze workflows zijn in het algemeen ontworpen om sets van duizenden of zelfs miljoenen documenten te verwerken, of veel meer dan manuele annotatiebenaderingen mogelijk maken. Verscheidene van deze benaderingen zijn gebaseerd op het concept van online analytische verwerking, of OLAP, en kunnen worden ondersteund door gegevensmodellen zoals tekstkubussen. Zodra documentmetadata beschikbaar is via een datamodel, kan het genereren van samenvattingen van subsets van documenten (d.w.z. cellen binnen een tekstkubus) worden uitgevoerd met op zinsdelen gebaseerde benaderingen.
Benaderingen in de geneeskunde en biomedisch onderzoekEdit
Biomedisch onderzoek genereert een belangrijke bron van ongestructureerde gegevens, aangezien onderzoekers hun bevindingen vaak publiceren in wetenschappelijke tijdschriften. Hoewel de taal in deze documenten een uitdaging vormt om structurele elementen uit af te leiden (bijvoorbeeld vanwege de ingewikkelde technische woordenschat en de domeinkennis die nodig is om waarnemingen volledig te contextualiseren), kunnen de resultaten van deze activiteiten verbanden leggen tussen technische en medische studies en aanwijzingen geven over nieuwe ziektetherapieën. Recente pogingen om structuur aan te brengen in biomedische documenten omvatten zelforganiserende kaartbenaderingen voor het identificeren van onderwerpen tussen documenten, algemene algoritmen zonder toezicht, en een toepassing van de CaseOLAP-workflow voor het bepalen van associaties tussen eiwitnamen en onderwerpen over hart- en vaatziekten in de literatuur. CaseOLAP definieert zins-categorierelaties op een nauwkeurige (identificeert relaties), consistente (zeer reproduceerbare) en efficiënte manier. Dit platform biedt een verbeterde toegankelijkheid en geeft de biomedische gemeenschap de beschikking over phrase-mining tools voor wijdverspreide biomedische onderzoekstoepassingen.