Techniki takie jak eksploracja danych, przetwarzanie języka naturalnego (NLP) i analiza tekstu dostarczają różnych metod znajdowania wzorców w tych informacjach lub interpretowania ich w inny sposób. Wspólne techniki strukturyzacji tekstu zazwyczaj obejmują ręczne oznaczanie metadanymi lub oznaczanie części mowy w celu dalszej strukturyzacji opartej na eksploracji tekstu. Standard Unstructured Information Management Architecture (UIMA) zapewnia wspólne ramy dla przetwarzania tych informacji w celu wydobycia znaczenia i stworzenia ustrukturyzowanych danych o informacjach.
Oprogramowanie, które tworzy strukturę przetwarzalną maszynowo, może wykorzystywać strukturę językową, słuchową i wizualną, która istnieje we wszystkich formach ludzkiej komunikacji. Algorytmy mogą wywnioskować tę nieodłączną strukturę z tekstu, na przykład poprzez zbadanie morfologii słów, składni zdań i innych małych i dużych wzorców. Informacje nieustrukturyzowane można następnie wzbogacić i oznaczyć w celu usunięcia niejednoznaczności, a następnie wykorzystać techniki oparte na trafności w celu ułatwienia wyszukiwania i odkrywania. Przykłady „danych nieustrukturyzowanych” mogą obejmować książki, czasopisma, dokumenty, metadane, dokumentację zdrowotną, nagrania audio, wideo, dane analogowe, obrazy, pliki i nieustrukturyzowany tekst, taki jak treść wiadomości e-mail, strona internetowa lub dokument edytora tekstu. Podczas gdy główna przekazywana treść nie ma określonej struktury, jest ona zazwyczaj dostarczana w postaci obiektów (np. w plikach lub dokumentach, …), które same w sobie mają strukturę, a zatem stanowią połączenie danych ustrukturyzowanych i nieustrukturyzowanych, ale łącznie są nadal określane jako „dane nieustrukturyzowane”. Na przykład, strona internetowa HTML jest oznaczona, ale znaczniki HTML zazwyczaj służą wyłącznie do renderowania. Nie wychwytuje on znaczenia lub funkcji oznaczonych elementów w sposób, który wspierałby automatyczne przetwarzanie zawartości informacyjnej strony. Tagowanie XHTML pozwala na maszynowe przetwarzanie elementów, choć zwykle nie wychwytuje ani nie przekazuje semantycznego znaczenia oznaczonych terminów.
Ponieważ dane nieustrukturyzowane powszechnie występują w dokumentach elektronicznych, często preferuje się stosowanie systemu zarządzania treścią lub dokumentami, który może kategoryzować całe dokumenty, zamiast przesyłania danych i manipulowania nimi z poziomu dokumentów. Zarządzanie dokumentami dostarcza zatem środków do przenoszenia struktury na kolekcje dokumentów.
Szukiwarki stały się popularnymi narzędziami do indeksowania i przeszukiwania takich danych, zwłaszcza tekstowych.
Podejścia w przetwarzaniu języka naturalnegoEdit
Opracowano specyficzne przepływy obliczeniowe w celu nałożenia struktury na nieustrukturyzowane dane zawarte w dokumentach tekstowych. Przepływy te są zazwyczaj zaprojektowane do obsługi zestawów tysięcy, a nawet milionów dokumentów, czyli znacznie więcej niż pozwala na to ręczne podejście do anotacji. Kilka z tych podejść opiera się na koncepcji przetwarzania analitycznego online (OLAP) i może być wspieranych przez modele danych, takie jak kostki tekstowe. Gdy metadane dokumentu są dostępne poprzez model danych, generowanie podsumowań podzbiorów dokumentów (tj. komórek w kostce tekstowej) może być wykonane przy użyciu podejść opartych na frazach.
Podejścia w medycynie i badaniach biomedycznychEdit
Badania biomedyczne generują jedno z głównych źródeł nieustrukturyzowanych danych, ponieważ naukowcy często publikują swoje wyniki w czasopismach naukowych. Chociaż język tych dokumentów jest trudny do wyprowadzenia z nich elementów strukturalnych (np. ze względu na skomplikowane słownictwo techniczne zawarte w tych dokumentach i wiedzę dziedzinową wymaganą do pełnego kontekstu obserwacji), wyniki tych działań mogą dostarczyć powiązań między badaniami technicznymi i medycznymi oraz wskazówek dotyczących nowych terapii chorób. Ostatnie wysiłki mające na celu nadanie struktury dokumentom biomedycznym obejmują metody map samoorganizujących do identyfikacji tematów w dokumentach, algorytmy nienadzorowane ogólnego przeznaczenia oraz zastosowanie przepływu pracy CaseOLAP do określenia powiązań pomiędzy nazwami białek a tematami chorób układu krążenia w literaturze. CaseOLAP definiuje związki fraza-kategoria w sposób dokładny (identyfikuje związki), spójny (wysoce powtarzalny) i wydajny. Platforma ta oferuje zwiększoną dostępność i umożliwia społeczności biomedycznej korzystanie z narzędzi phrase-mining do szerokich zastosowań w badaniach biomedycznych.