12.06.2020

Albert Leśniak i Małgorzata Czachor (IJP PAN)

Jak mały może być korpus? Skuteczność ekstrakcji słów kluczowych metodą TF-IDF a rozmiar korpusu

Metoda znana jako TF-IDF (ang. term frequency – inverse document frequency) to powszechnie stosowany algorytm do ekstrakcji słów kluczowych. Uzyskany za jej pomocą wynik jest zależny od dwóch wielkości: frekwencji danego słowa w tekście (frekwencja terminu, czyli TF) oraz liczby dokumentów zawierających to słowo (odwrotna frekwencja dokumentów, czyli IDF). Podczas gdy TF opiera się na wewnętrznych zależnościach w obrębie pojedynczego tekstu, IDF bazuje na całym korpusie (lub precyzyjniej, na liczbie dokumentów zawierających dane słowo w stosunku do liczby wszystkich dokumentów w korpusie). Wynika stąd, że im większej liczby dokumentów użyjemy do obliczenia IDF, tym wiarygodniejszy osiągniemy rezultat. Celem wystąpienia jest odpowiedź na pytanie o minimalny rozmiar korpusu dla TF-IDF, czyli na pytanie do jakiego stopnia zmniejszenie rozmiaru korpusu wpływa na skuteczność TF-IDF. Badanie oparto na czterech korpusach: Interia.pl (220 000 tekstów), tygodnikach (220 000 tekstów), Bibliotece Gutenberga (29 750 tekstów) i krótkich wycinkach z Biblioteki Gutenberga (29 750 tekstów). IDF został wpierw obliczony dla wszystkich dokumentów w korpusie, potem – iteracyjnie – dla zmniejszającej się ich liczby; dlatego w przypadku każdej następnej iteracji IDF opierał się na innej, mniejszej liczbie tekstów. Ponieważ dla każdej iteracji IDF jest inny, różni się także kluczowość słów (wynik TF-IDF). Niemniej rezultaty okazały się zaskakująco stabilne. Wyniki uzyskane na bazie stosunkowo małego korpusu nie różnią się znacznie od tych opartych na całości zbioru dokumentów.

Rezultaty pokazują, że małe korpusy stanowią wiarygodną bazę pod algorytm. Wniosek jest ciekawy sam w sobie, ale także istotny z punktu widzenia praktycznych rozwiązań. Przetwarzanie dużych korpusów wciąż jest kosztowne i pracochłonne, dlatego uzasadnione wydaje się trenowanie IDF na mniejszym korpusie, skoro nie wiąże się to z dramatycznym spadkiem skuteczności metody. 

Link do dyskusji na Zoomie: https://zoom.us/j/92355384866?pwd=ckl2bmRZYWxmVEs3RFVVVDRuNlQ4dz09