Co robimy, gdy chcemy sprawdzić, czy jakieś kolokacja występuje w języku polskim? Zapewne sięgamy do słownika. Ale słowniki, nawet te, które podają łączliwość (jak Praktyczny Słownik Współczesnej Polszczyzny), nie notują wszystkich prawidłowych połączeń wyrazów. Co zatem, jeśli naszej poszukiwanej frazy nie ma w słowniku? Możemy zapytać wujka Google. Z nim jednak też jest problem - wujek powie nam, jakim językiem posługują się dziennikarze (a często "dziennikarze") z portali internetowych i niektórzy forumowicze, kilku blogerów itd. ale nie uwzględni współczesnych literatów i raczej nie wspomni, że szukanej frazy nie używa się obecnie, ale była bardzo popularna pokolenie temu.
Jakie narzędzie oferuje taką wiedzę? Korpus.
Na potrzeby korpusu zanalizowane zostały teksty publikowane w różnych źródłach. Tak to przedstawiają sami twórcy Narodowego Korpusu Języka Polskiego:
Lista źródeł korpusu zawiera nie tylko klasykę literatury polskiej, ale też prasę codzienną i specjalistyczną, nagrania rozmów, teksty ulotne i internetowe. Zróżnicowanie tematyczne i gatunkowe tekstów, dbałość o reprezentację rozmówców obu płci, w różnym wieku i z różnych regionów, są dla wiarygodności korpusu równie ważne jak jego wielkość.
Druga przewaga korpusów nad dowolną niespecjalistyczną wyszukiwarką internetową?
Możliwość wyszukiwania ciągów liter. Rozważmy taki problem: chcemy się dowiedzieć, czy jedynie stokrotka ma w swojej polskiej nazwie człon "krotka".
Google traktuje takie zapytanie jak całe słowo i w dodatku uznaje, że najprawdopodobniej mieliśmy na myśli "krótka". Korpus zaś, po wpisaniu zapytania *krotka (*=dowolny ciąg liter) podaje: "stokrotka", "trzykrotka", "Wykrotka", "okrotka". Kilkuwyrazowy kontekst pozwala się zorientować, że nazwą rośliny jest jedynie trzykrotka.
Bardziej zaawansowane przeszukiwanie korpusów wymaga zapoznania się z ich dość skomplikowanymi instrukcjami, myślę jednak, że już po tym prostym przykładzie widać, jak duże możliwości dają one językoznawcy.
Zgadzam się - korpus to świetne i bardzo profesjonalne źródło. Polecam również kolokator - narzędzie wyszukiwarki PELCRA.
OdpowiedzUsuń