Opisywanie Słów

Opisywanie Słów

Pomysł na silnik Opisywania Słów pojawił się, gdy budowałem silnik Słów Pokrewnych (jest to coś jak tezaurus, ale daje dużo szerszy zestaw pokrewnych słów, a nie tylko synonimy). Podczas zabawy z wektorami słów i API „HasProperty” w conceptnecie, miałem trochę zabawy próbując uzyskać przymiotniki, które powszechnie opisują dane słowo. W końcu zdałem sobie sprawę, że jest na to o wiele lepszy sposób: parsowanie książek!

Projekt Gutenberg był początkowym korpusem, ale parser stawał się coraz bardziej chciwy i w końcu dostarczyłem mu około 100 gigabajtów plików tekstowych – głównie beletrystyki, w tym wiele współczesnych dzieł. Parser po prostu przegląda każdą książkę i wyciąga różne opisy rzeczowników.

Mam nadzieję, że jest to coś więcej niż tylko nowość i niektórzy ludzie faktycznie znajdą to przydatne dla ich pisania i burzy mózgów, ale jedną zgrabną małą rzeczą do wypróbowania jest porównanie dwóch rzeczowników, które są podobne, ale różnią się w jakiś znaczący sposób – na przykład płeć jest interesująca: „kobieta” kontra „mężczyzna” i „chłopiec” kontra „dziewczynka”. Z wstępnej, szybkiej analizy wynika, że autorzy beletrystyki przynajmniej 4x częściej opisują kobiety (w porównaniu z mężczyznami) za pomocą określeń związanych z urodą (dotyczących wagi, rysów i ogólnej atrakcyjności). W rzeczywistości, „piękna” jest prawdopodobnie najczęściej używanym przymiotnikiem w odniesieniu do kobiet w całej literaturze światowej, co jest całkiem zgodne z ogólną jednowymiarową reprezentacją kobiet w wielu innych formach medialnych. Jeśli ktoś chciałby przeprowadzić dalsze badania w tym zakresie, proszę dać mi znać, a będę mógł podać o wiele więcej danych (na przykład, istnieje około 25000 różnych wpisów dla „kobiety” – zbyt wiele, by pokazać je tutaj).

Niebieski kolor wyników reprezentuje ich względną częstotliwość. Możesz najechać na element na sekundę i powinien pojawić się wynik częstotliwości. Sortowanie „unikalność” jest domyślne, a dzięki mojemu Skomplikowanemu Algorytmowi™, porządkuje je według unikalności przymiotników w stosunku do danego rzeczownika w stosunku do innych rzeczowników (jest to całkiem proste). Jak można się spodziewać, możesz kliknąć przycisk „Sortuj według częstotliwości użycia”, aby uporządkować przymiotniki według ich częstotliwości użycia dla danego rzeczownika.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *