Beschreibende Wörter
Die Idee für die „Beschreibende Wörter“-Engine kam mir, als ich die Engine für „Verwandte Wörter“ baute (sie ist wie ein Thesaurus, aber gibt Ihnen eine viel breitere Menge von verwandten Wörtern, anstatt nur Synonyme). Während ich mit Wortvektoren und der „HasProperty“-API von conceptnet herumspielte, machte ich mir einen Spaß daraus, die Adjektive herauszufinden, die ein Wort üblicherweise beschreiben. Schließlich wurde mir klar, dass es einen viel besseren Weg gibt, dies zu tun: Bücher parsen!
Projekt Gutenberg war der anfängliche Korpus, aber der Parser wurde gieriger und gieriger und ich fütterte ihn schließlich mit etwa 100 Gigabyte Textdateien – hauptsächlich Belletristik, darunter viele zeitgenössische Werke. Der Parser schaut einfach durch jedes Buch und zieht die verschiedenen Beschreibungen von Substantiven heraus.
Hoffentlich ist es mehr als nur eine Neuheit und einige Leute finden es tatsächlich nützlich für ihr Schreiben und Brainstorming, aber eine nette kleine Sache, die man ausprobieren kann, ist, zwei Substantive zu vergleichen, die ähnlich sind, sich aber in irgendeiner signifikanten Weise unterscheiden – zum Beispiel ist das Geschlecht interessant: „Frau“ versus „Mann“ und „Junge“ versus „Mädchen“. Nach einer ersten schnellen Analyse scheint es, dass Autoren von Belletristik Frauen (im Gegensatz zu Männern) mindestens 4x häufiger mit Begriffen beschreiben, die sich auf die Schönheit beziehen (in Bezug auf ihr Gewicht, ihre Merkmale und ihre allgemeine Attraktivität). Tatsächlich ist „schön“ möglicherweise das am häufigsten verwendete Adjektiv für Frauen in der gesamten Weltliteratur, was durchaus mit der allgemeinen eindimensionalen Darstellung von Frauen in vielen anderen Medienformen übereinstimmt. Wenn jemand dies weiter erforschen möchte, lassen Sie es mich wissen, und ich kann Ihnen eine Menge mehr Daten geben (zum Beispiel gibt es etwa 25000 verschiedene Einträge für „Frau“ – zu viele, um sie hier zu zeigen).
Die Blaufärbung der Ergebnisse stellt ihre relative Häufigkeit dar. Sie können mit dem Mauszeiger kurz über einen Eintrag fahren und der Häufigkeitswert sollte eingeblendet werden. Die Sortierung „Einzigartigkeit“ ist standardmäßig eingestellt, und dank meines komplizierten Algorithmus™ werden sie nach der Einzigartigkeit der Adjektive in Bezug auf dieses bestimmte Substantiv im Vergleich zu anderen Substantiven geordnet (das ist eigentlich ziemlich einfach). Wie zu erwarten, können Sie auf die Schaltfläche „Nach Verwendungshäufigkeit sortieren“ klicken, um die Adjektive nach ihrer Verwendungshäufigkeit für dieses Substantiv zu sortieren.