Tecniche come il data mining, l’elaborazione del linguaggio naturale (NLP) e l’analisi del testo forniscono diversi metodi per trovare modelli in queste informazioni o interpretarle in altro modo. Le tecniche comuni per la strutturazione del testo di solito coinvolgono il tagging manuale con metadati o il tagging part-of-speech per un’ulteriore strutturazione basata sul text mining. Lo standard Unstructured Information Management Architecture (UIMA) ha fornito una struttura comune per l’elaborazione di queste informazioni per estrarre il significato e creare dati strutturati sulle informazioni.
Il software che crea una struttura processabile dalla macchina può utilizzare la struttura linguistica, uditiva e visiva che esiste in tutte le forme di comunicazione umana. Gli algoritmi possono dedurre questa struttura intrinseca dal testo, per esempio, esaminando la morfologia delle parole, la sintassi delle frasi e altri modelli su piccola e grande scala. Le informazioni non strutturate possono poi essere arricchite ed etichettate per risolvere le ambiguità e le tecniche basate sulla rilevanza possono essere usate per facilitare la ricerca e la scoperta. Esempi di “dati non strutturati” possono includere libri, riviste, documenti, metadati, cartelle cliniche, audio, video, dati analogici, immagini, file e testo non strutturato come il corpo di un messaggio di posta elettronica, una pagina web o un documento di un word-processor. Mentre il contenuto principale che viene trasmesso non ha una struttura definita, generalmente viene confezionato in oggetti (ad esempio in file o documenti, …) che hanno essi stessi una struttura e sono quindi un mix di dati strutturati e non strutturati, ma collettivamente si parla ancora di “dati non strutturati”. Per esempio, una pagina web HTML è etichettata, ma il mark-up HTML in genere serve solo per il rendering. Non cattura il significato o la funzione degli elementi etichettati in modo da supportare l’elaborazione automatica del contenuto informativo della pagina. Il tagging XHTML permette l’elaborazione automatica degli elementi, anche se tipicamente non cattura o trasmette il significato semantico dei termini taggati.
Siccome i dati non strutturati si presentano comunemente nei documenti elettronici, l’uso di un sistema di gestione dei contenuti o dei documenti che può categorizzare interi documenti è spesso preferito al trasferimento e alla manipolazione dei dati dall’interno dei documenti. La gestione dei documenti fornisce quindi i mezzi per trasmettere la struttura alle collezioni di documenti.
I motori di ricerca sono diventati strumenti popolari per l’indicizzazione e la ricerca attraverso tali dati, specialmente il testo.
Approcci nell’elaborazione del linguaggio naturaleModifica
Sono stati sviluppati flussi di lavoro computazionali specifici per imporre la struttura ai dati non strutturati contenuti nei documenti di testo. Questi flussi di lavoro sono generalmente progettati per gestire insiemi di migliaia o anche milioni di documenti, o molto più di quanto gli approcci manuali all’annotazione possano permettere. Molti di questi approcci sono basati sul concetto di elaborazione analitica online, o OLAP, e possono essere supportati da modelli di dati come i cubi di testo. Una volta che i metadati dei documenti sono disponibili attraverso un modello di dati, la generazione di riassunti di sottoinsiemi di documenti (cioè, celle all’interno di un cubo di testo) può essere eseguita con approcci basati sulla frase.
Approcci nella medicina e nella ricerca biomedicaModifica
La ricerca biomedica genera una fonte importante di dati non strutturati poiché i ricercatori spesso pubblicano i loro risultati in riviste accademiche. Sebbene il linguaggio di questi documenti sia impegnativo da cui derivare elementi strutturali (ad esempio, a causa del complicato vocabolario tecnico contenuto all’interno e della conoscenza del dominio richiesta per contestualizzare completamente le osservazioni), i risultati di queste attività possono produrre collegamenti tra studi tecnici e medici e indizi riguardanti nuove terapie di malattie. Sforzi recenti per imporre una struttura ai documenti biomedici includono approcci di mappe auto-organizzanti per identificare gli argomenti tra i documenti, algoritmi generali non supervisionati e un’applicazione del flusso di lavoro CaseOLAP per determinare le associazioni tra i nomi delle proteine e gli argomenti delle malattie cardiovascolari nella letteratura. CaseOLAP definisce le relazioni frase-categoria in modo accurato (identifica le relazioni), coerente (altamente riproducibile) ed efficiente. Questa piattaforma offre una maggiore accessibilità e consente alla comunità biomedica di disporre di strumenti di phrase-mining per applicazioni di ricerca biomedica diffuse.