Woorden beschrijven
Het idee voor de engine voor woorden beschrijven ontstond toen ik bezig was met het bouwen van de engine voor verwante woorden (het is een soort thesaurus, maar dan met een veel bredere verzameling verwante woorden, in plaats van alleen synoniemen). Terwijl ik aan het spelen was met woordvectoren en de “HasProperty” API van conceptnet, had ik een beetje plezier in het proberen te achterhalen van de bijvoeglijke naamwoorden die gewoonlijk een woord beschrijven. Uiteindelijk realiseerde ik me dat er een veel betere manier is om dit te doen: boeken parseren!
Project Gutenberg was het aanvankelijke corpus, maar de parser werd gulziger en gulziger en uiteindelijk voedde ik het met zo’n 100 gigabyte aan tekstbestanden – voornamelijk fictie, waaronder veel hedendaagse werken.
Hooplijk is het meer dan een nieuwigheid en zullen sommige mensen het daadwerkelijk nuttig vinden voor hun schrijf- en brainstormwerk, maar een leuk klein dingetje om te proberen is om twee zelfstandige naamwoorden te vergelijken die op elkaar lijken, maar op een belangrijke manier verschillen – bijvoorbeeld geslacht is interessant: “vrouw” versus “man” en “jongen” versus “meisje”. Bij een eerste snelle analyse blijkt dat auteurs van fictie vrouwen (in tegenstelling tot mannen) minstens 4x zo vaak beschrijven met termen die met schoonheid te maken hebben (betreffende hun gewicht, gelaatstrekken en algemene aantrekkelijkheid). In feite is “mooi” waarschijnlijk het meest gebruikte bijvoeglijk naamwoord voor vrouwen in alle literatuur ter wereld, wat in overeenstemming is met de algemene eendimensionale voorstelling van vrouwen in veel andere mediavormen. Als iemand hier verder onderzoek naar wil doen, laat het me weten en ik kan je veel meer gegevens geven (er zijn bijvoorbeeld ongeveer 25000 verschillende vermeldingen voor “vrouw” – te veel om hier te laten zien).
Het blauw van de resultaten staat voor hun relatieve frequentie. Je kunt een seconde met je muis over een item gaan en de frequentiescore verschijnt. De “uniciteit” sortering is standaard, en dankzij mijn Ingewikkelde Algoritme™, worden ze gesorteerd op de uniciteit van de bijvoeglijke naamwoorden voor dat specifieke zelfstandig naamwoord ten opzichte van andere zelfstandige naamwoorden (het is eigenlijk vrij eenvoudig). Zoals je zou verwachten, kun je op de knop “Sorteer op gebruiksfrequentie” klikken om bijvoeglijke naamwoorden te sorteren op hun gebruiksfrequentie voor dat zelfstandig naamwoord.