niedziela, 8 grudnia 2013

Ciocia Wiki jako tumacz

Tym razem krótko. Słowniki niespecjalistyczne notują terminologię (także filologiczną) bardzo wybiórczo. Kiedy chcemy prześledzić, co można znaleźć w nie-polskim internecie na interesujący nas wąski temat, możemy przypomnieć sobie, że Wikipedia ma wiele wersji językowych i bardzo wygodną nawigację pomiędzy nimi. Więc jeśli np. bab.la nie przetłumaczy nam słowa "hiperpoprawność" możemy udać się do cioci i po wyszukaniu definicji poprosić ją o wersję angielską, francuską czy inną. Nagłówek będzie interesującym nas tłumaczeniem.

Sieci społecznościowe

Nawiązując do poprzedniego posta: korpusy nadają się świetnie do badania polszczyzny ogólnej, nieco mniej do badania języka dużych grup społecznych. Czasem jednak mamy dylemat tego rodzaju: czy to zgrabne wyrażonko, które słyszałam wczoraj na imprezie to element idiolektu X-a, czy też tak się mówi w x-owej miejscowości, na x-owym kierunku studiów albo w jakiejś innej małej społeczności, do której X przypadkiem należy? Korpus nie odpowie.

Ale jeśli mamy konto na portalu społecznościowym...  No dobrze, właściwie w tej chwili w Polsce liczy się tylko Facebook, więc dalej już będę nazywać po imieniu. Więc jeśli pokonaliśmy opór przed upublicznieniem w internecie swojej towarzyskiej sieci powiązań, imienia, nazwiska a opcjonalnie nawet - o zgrozo! - zdjęcia, to możemy zapytać wszystkich facebookowych znajomych na raz: "Obiło Wam się o uszy takie sformułowanie? Tak? To polubcie".

"Lubienie", czy komentarz nie zajmuje wiele czasu, więc ludzie dużo chętniej odpowiadają na takie pojedyncze pytanie, niż wypełniają naukowe ankiety.  I w ten sposób dostajemy czyste mikrodane o uzusie, które możemy czasem uzupełnić o dane geograficzne/ społeczne respondenta.

Oczywiście podstawową wadą tej metody jest ograniczenie grona respondentów do naszych znajomych - a jest spore prawdopodobieństwo, że nie złożą się oni na reprezentatywną grupę. Ale sądzę, że gdyby strony takie jak "Znaszli ten tekst?" znalazły więcej aktywnych użytkowników, można by z dużo większą pewnością odsiewać idiolektalizmy czy elementy familiolektów od mało znanych słów czy frazemów używanych przez szersze grupy. 
 
W chwili obecnej można przyjąć, że jeśli dwie nieznajome sobie osoby potwierdzają, że znają jakieś słowo/powiedzenie nie jest ono wytworem indywidualnym, natomiast jeśli dwie takie osoby się nie znajdą, to znaczy tylko tyle, że... nie ma takich osób w pytanej grupie.

sobota, 7 grudnia 2013

Czym różni się korpus?

Ten post może niektórym wydać się oczywisty, niemniej sądzę, że innym niektórym mogą się do czegoś przydać poniższe spostrzeżenia.

Co robimy, gdy chcemy sprawdzić, czy jakieś kolokacja występuje w języku polskim? Zapewne sięgamy do słownika. Ale słowniki, nawet te, które podają łączliwość (jak Praktyczny Słownik Współczesnej Polszczyzny), nie notują wszystkich prawidłowych połączeń wyrazów. Co zatem, jeśli naszej poszukiwanej frazy nie ma w słowniku? Możemy zapytać wujka Google. Z nim jednak też jest problem - wujek powie nam, jakim językiem posługują się dziennikarze (a często "dziennikarze") z portali internetowych i niektórzy forumowicze, kilku blogerów itd. ale nie uwzględni współczesnych literatów i raczej nie wspomni, że szukanej frazy nie używa się obecnie, ale była bardzo popularna pokolenie temu.

Jakie narzędzie oferuje taką wiedzę? Korpus.

Na potrzeby korpusu zanalizowane zostały teksty publikowane w różnych źródłach. Tak to przedstawiają sami twórcy Narodowego Korpusu Języka Polskiego:

Lista źródeł korpusu zawiera nie tylko klasykę literatury polskiej, ale też prasę codzienną i specjalistyczną, nagrania rozmów, teksty ulotne i internetowe. Zróżnicowanie tematyczne i gatunkowe tekstów, dbałość o reprezentację rozmówców obu płci, w różnym wieku i z różnych regionów, są dla wiarygodności korpusu równie ważne jak jego wielkość.

Druga przewaga korpusów nad dowolną niespecjalistyczną wyszukiwarką internetową?
Możliwość wyszukiwania ciągów liter. Rozważmy taki problem: chcemy się dowiedzieć, czy jedynie stokrotka ma w swojej polskiej nazwie człon "krotka".

Google traktuje takie zapytanie jak całe słowo i w dodatku uznaje, że najprawdopodobniej mieliśmy na myśli "krótka". Korpus zaś, po wpisaniu zapytania *krotka (*=dowolny ciąg liter) podaje: "stokrotka", "trzykrotka", "Wykrotka", "okrotka". Kilkuwyrazowy kontekst pozwala się zorientować, że nazwą rośliny jest jedynie trzykrotka.

Bardziej zaawansowane przeszukiwanie korpusów wymaga zapoznania się z ich dość skomplikowanymi instrukcjami, myślę jednak, że już po tym prostym przykładzie widać, jak duże możliwości dają one językoznawcy.

piątek, 6 grudnia 2013

Google Dysk - Formularz

Dysku Google miałam okazję używać w 2011 roku, pracując nad projektem badawczym w KNS MISH KUL. Okazał się on świetną alternatywą dla przesyłania kolejnych wersji tekstu pomiędzy członkami grupy za pomocą maili. Wydawało mi się wówczas, że można z niego korzystać tylko w gronie współpracowników i nie ma żadnego zastosowania opcja "uwolnienia" tekstu do sieci za pomocą niezabezpieczonego hasłem linka.

Tymczasem Google Dysk, oprócz uproszczonych ekwiwalentów znanych narzędzi biurowych jak "dokument", "prezentacja" czy "arkusz" oferuje też coś, co pozwala jeszcze pełniej wykorzystać fakt, że w przeciwieństwie do pakietu Office - GD funkcjonuje w sieci, mianowicie: opcję formularza.

Pozwala ona tworzyć i udostępniać potencjalnym respondentom wiele rodzajów ankiet - zawierających zarówno pytania otwarte jak i wymagające oznaczania na skali czy wyboru jednej lub wielu z opcji. Można też umieszczać w ankietach elementy graficzne czyli de facto pytać o kwestie percepcji obrazu (np. Czy jest pan(i) w stanie rozczytać ten tekst pisany szwabachą? - i tu skan fragmentu XIX wiecznego druku). 

Co więcej Google Dysk oferuje narzędzia analizy zebranych odpowiedzi, oszczędzając czas, którego wymagałoby ręczne ich wprowadzanie do tabel - plik formularza połączony jest z arkuszem kalkulacyjnym, w którym wyniki ankiety sortują się automatycznie już w momencie zatwierdzenia ich przez respondenta.

Wydawać by się mogło, że badania ankietowe przydatne być mogą dla badaczy nauk społecznych, językoznawca zaś pracuje raczej z tekstem niż wychodzi do jego twórców. Jeśli jednak przypomnimy sobie o istnieniu dziedziny zwanej socjologią języka...

Jak zwykle w wykorzystaniu technologii przeszkadza czynnik ludzki - problemem pozostaje skłonienie obcych ludzi, aby odpowiedzieli na anonimową ankietę - wciąż jeszcze trudniej odmówić ankieterowi na żywo, niż zignorować link, nawet jeśli ankieter nie umie zrobić tak:







czwartek, 5 grudnia 2013

iSybislaw

Na dobry początek chciałabym w zarysie przedstawić Bibliograficzną bazę danych światowego językoznawstwa slawistycznego iSybislaw.

Nie znalazła się ona na liście baz bibliograficznych w przewodniku netograficznym pt. INTERNETOWY WARSZTAT BADAWCZY FILOLOGA (być może jego twórcy - bardziej lub mniej świadomie - przez "filologa" rozumieją raczej literaturo- niż językoznawcę). Nie pojawiła się ona również na pierwszych trzech stronach, kiedy wpisałam w wyszukiwarkę Google hasło "bibliografia językoznawstwa"*. Pojawił się wprawdzie artykuł dotyczący tej bazy, ale jest on w formacie pdf - koncentrując się na poszukiwaniu baz danych łatwo w pośpiechu ominąć tę wskazówkę. Trzeba lektury tego posta lub innego szczęśliwego trafu, aby natknąć się na iSybislawa.

A szkoda, ponieważ jest to solidna baza, tworzona przez międzynarodowy zespół pod egidą Instytutu Slawistyki PAN i Towarzystwa Naukowego Warszawskiego. Strona główna wita użytkownika przejrzystym układem graficznym i zwięźle sformułowanymi wskazówkami na temat wyszukiwania (dostępne są dwie metody: prosta i zaawansowana). Bardzo dużą zaletą jest możliwość przeglądania katalogu "na piechotę", nie jesteśmy zdani wyłącznie na wyszukiwarkę. Przeglądać można alfabetyczną listę autorów (w zakładce "osoby"), tytułów ("dokumenty"), serii wydawniczych oraz słów kluczowych. Każdy adres bibliograficzny wpisany jest także w jasną klasyfikację tekstów, której strukturę można również prześledzić, jeśli np. potrzebuje się zorientować, jakie dokładnie hasła szczegółowe kryją się pod bardziej ogólnymi.

Wychodząc od pojedynczego rekordu można nawigować po bazie nie tylko za pomocą słów kluczowych i klas - hasło zawiera także bezpośredni odnośnik do bibliografii autora publikacji oraz - w przypadku czasopism i zbiorówek - do listy innych artykułów, które zawiera ta konkretna pozycja. Niektóre hasła wzbogacone są również o abstrakty.

Bardzo ułatwia życie funkcja "koszyka" umożliwiająca każdemu przeglądającemu bazę tworzenie własnej, tymczasowej bibliografii na podstawie wyszukanych rekordów. Fakt, że można interesujący artykuł dodać do takiej listy jednym kliknięciem (a potem całą skopiować do dowolnego edytora tekstowego) oszczędza wiele czasu i ogranicza rozpraszanie się.

Trudno mi w tej chwili wymienić jakąkolwiek wadę iSybislawa - jeśli jednak ktoś z moich Czytelników zdobędzie się na bardziej krytyczny ogląd tej bazy - okienko "komentarz" stoi otworem.


---

*Pamiętajmy jednak, że ta wyszukiwarka stara się nam przypodobać, dopasowując wyniki do naszej historii poszukiwań, więc każdy, nawet wpisując to samo hasło, może otrzymać linki w innej kolejności.

Witam serdecznie

Na fali debiutów językoznawczych, zalewających ostatnio blogosferę (z zupełnie nieznanych przyczyn ;)) - startuję i ja. Blog poświęcony będzie dostępnym w internecie narzędziom wspomagającym pracę badacza języka, ze szczególnym uwzględnieniem języka polskiego.