Opisywanie Słów
Pomysł na silnik Opisywania Słów pojawił się, gdy budowałem silnik Słów Pokrewnych (jest to coś jak tezaurus, ale daje dużo szerszy zestaw pokrewnych słów, a nie tylko synonimy). Podczas zabawy z wektorami słów i API „HasProperty” w conceptnecie, miałem trochę zabawy próbując uzyskać przymiotniki, które powszechnie opisują dane słowo. W końcu zdałem sobie sprawę, że jest na to o wiele lepszy sposób: parsowanie książek!
Projekt Gutenberg był początkowym korpusem, ale parser stawał się coraz bardziej chciwy i w końcu dostarczyłem mu około 100 gigabajtów plików tekstowych – głównie beletrystyki, w tym wiele współczesnych dzieł. Parser po prostu przegląda każdą książkę i wyciąga różne opisy rzeczowników.
Mam nadzieję, że jest to coś więcej niż tylko nowość i niektórzy ludzie faktycznie znajdą to przydatne dla ich pisania i burzy mózgów, ale jedną zgrabną małą rzeczą do wypróbowania jest porównanie dwóch rzeczowników, które są podobne, ale różnią się w jakiś znaczący sposób – na przykład płeć jest interesująca: „kobieta” kontra „mężczyzna” i „chłopiec” kontra „dziewczynka”. Z wstępnej, szybkiej analizy wynika, że autorzy beletrystyki przynajmniej 4x częściej opisują kobiety (w porównaniu z mężczyznami) za pomocą określeń związanych z urodą (dotyczących wagi, rysów i ogólnej atrakcyjności). W rzeczywistości, „piękna” jest prawdopodobnie najczęściej używanym przymiotnikiem w odniesieniu do kobiet w całej literaturze światowej, co jest całkiem zgodne z ogólną jednowymiarową reprezentacją kobiet w wielu innych formach medialnych. Jeśli ktoś chciałby przeprowadzić dalsze badania w tym zakresie, proszę dać mi znać, a będę mógł podać o wiele więcej danych (na przykład, istnieje około 25000 różnych wpisów dla „kobiety” – zbyt wiele, by pokazać je tutaj).
Niebieski kolor wyników reprezentuje ich względną częstotliwość. Możesz najechać na element na sekundę i powinien pojawić się wynik częstotliwości. Sortowanie „unikalność” jest domyślne, a dzięki mojemu Skomplikowanemu Algorytmowi™, porządkuje je według unikalności przymiotników w stosunku do danego rzeczownika w stosunku do innych rzeczowników (jest to całkiem proste). Jak można się spodziewać, możesz kliknąć przycisk „Sortuj według częstotliwości użycia”, aby uporządkować przymiotniki według ich częstotliwości użycia dla danego rzeczownika.