Descrivere parole

Descrivere parole

L’idea per il motore Descrivere parole è venuta quando stavo costruendo il motore per Parole correlate (è come un thesaurus, ma ti dà un insieme molto più ampio di parole correlate, piuttosto che solo sinonimi). Mentre giocavo con i vettori di parole e l’API “HasProperty” di conceptnet, mi sono divertito un po’ a cercare di ottenere gli aggettivi che comunemente descrivono una parola. Alla fine mi sono reso conto che c’è un modo molto migliore per farlo: analizzare i libri!

Il progetto Gutenberg era il corpus iniziale, ma il parser è diventato sempre più avido e ho finito per fornirgli circa 100 gigabyte di file di testo – per lo più narrativa, comprese molte opere contemporanee. Il parser semplicemente guarda attraverso ogni libro e tira fuori le varie descrizioni dei sostantivi.

Spero che sia più di una novità e che alcune persone lo trovino effettivamente utile per la loro scrittura e il brainstorming, ma una piccola cosa pulita da provare è confrontare due sostantivi che sono simili, ma diversi in qualche modo significativo – per esempio, il genere è interessante: “donna” contro “uomo” e “ragazzo” contro “ragazza”. Da una rapida analisi iniziale sembra che gli autori di fiction siano almeno 4 volte più propensi a descrivere le donne (rispetto agli uomini) con termini legati alla bellezza (riguardo al loro peso, alle caratteristiche e all’attrattiva generale). In effetti, “bello” è forse l’aggettivo più usato per le donne in tutta la letteratura mondiale, il che è abbastanza in linea con la generale rappresentazione unidimensionale delle donne in molte altre forme mediatiche. Se qualcuno vuole fare ulteriori ricerche su questo, fatemelo sapere e posso darvi molti più dati (per esempio, ci sono circa 25000 voci diverse per “donna” – troppe per mostrarle qui).

Il blu dei risultati rappresenta la loro frequenza relativa. Puoi passare il mouse su una voce per un secondo e il punteggio di frequenza dovrebbe apparire. L’ordinamento “unicità” è predefinito, e grazie al mio Complicated Algorithm™, li ordina in base all’unicità degli aggettivi per quel particolare sostantivo rispetto ad altri sostantivi (in realtà è piuttosto semplice). Come ti aspetteresti, puoi cliccare sul pulsante “Ordina per frequenza d’uso” per ordinare gli aggettivi in base alla loro frequenza d’uso per quel sostantivo.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *