09.03.2018

Ustępy i wyimki, czyli o mikrokorpusie 1830-1918

Magdalena Derwojedowa (UW)

W wystąpieniu przedstawię milionowy korpus gronowy polszczyzny 1830-1918. Został on zgromadzony i opracowany na potrzeby projektu „Automatyczna analiza fleksyjna tekstów polskich z lat 1830-1918 z uwzględnieniem zmian w odmianie i pisowni” (DEC-2012/07/B/HS2/00570).

W pierwszej części przedstawię mikrostrukturę korpusu: próbkę, metadane i pliki źródłowe oraz krótko omówię problemy, jakie napotkaliśmy, opracowując próbki. W drugiej części przedstawię makrostrukturę korpusu, jego podział na podkorpusy oraz zróżnicowanie próbek, jakie udało się osiągnąć. Na koniec przedstawię wybrane badania zjawisk językowych, które korpus umożliwia.

Korpus z wyszukiwarką poliqarp on-line jest dostępny w serwisie Szukaj w słownikach (https://szukajwslownikach.uw.edu.pl/f19/).

Nagrane wystąpienie można zobaczyć poniżej oraz na naszym kanale na YouTube.