Fantastyczny świat Leona Zabookowca: Krótki komunikat do znawców statystki

NIE ZNAM SIĘ, TO SIĘ WYPOWIEM

Uwaga, tak sobie czytam opinie przeciw raportowi, który ostatnio opublikowała Biblioteka Narodowa, co roku pojawiają się właściwie te same: "Olaboga, mała próba, 3000 osób, co to w ogóle jest?! Wioska jakaś! Nawet nie procent populacji!" to robi mi się przykro, że ludzie mają tak małą statystyczną wiedzę...

Moi drodzy czytelnicy, nie idźcie tą drogą, nie znacie się, to się nie wypowiadajcie, a jak chcecie, to poczytajcie o tym w internecie, zróbcie research... Zresztą pisałam już o tym rok temu, no, ale, pozwólcie, że się jednak powtórzę, bo opinii o tym, że badanie Biblioteki Narodowej jest niewiarygodne, pojawiło się całe mnóstwo. To jest statystycznie, jak najbardziej wiarygodne badanie! Już 1000 osób byłoby liczbą dobrą! Nie wnikam, jakie pytania dostali respondenci, nie jest to dla mnie w tej chwili istotne, istotna dla mnie jest liczba, a liczba jest okrągła i piękna statystycznie.

PRÓBA LOSOWA I INNE STATYSTYCZNE CZARY-MARY

"Rodzaj wyboru elementów z populacji, które mają zostać poddane szczegółowym badaniom. Charakteryzuje się losowością w doborze – osoba realizująca badanie nie ma wpływu na to, jakie elementu znajdą się w próbie. Decydują o tym prawdopodobieństwa inkluzji, zdefiniowane dla każdego elementu populacji."

Próba wykorzystana w badaniu Biblioteki Narodowej to PRÓBA LOSOWA i to ona umożliwia nam przeniesienie danych na całą populację, jeśli badacze pojechali, by do małej miejscowości liczącej 3000 osób, to i owszem, można by badania się czepiać, można by na nim wieszać psy, ale tak... No, niestety, ten argument jest zwyczajnie słabiuteńki, wystarczy wpisać w google dobór populacji/dobór próby/badania na populacji Polaków. Wyskoczą nam linki do ukochanej cioci Wikipedii, choćby taka Populacja statystyczna, w której czytamy:

"Przykład: Badaną cechą statystyczną jest wzrost Polaków. Populacją jest, jak już mówiliśmy, cała ludność Polski. Badanie statystyczne całej populacji jest nieuzasadnione z ekonomicznego punktu widzenia, dlatego wybieramy losowo próbę 1000 Polaków i notujemy wartości przyjmowane przez cechę: wzrost. Na podstawie wyników próby możemy obliczyć parametry rozkładu empirycznego cechy: średnią, odchylenie standardowe z próby itd. Dzięki tym wynikom oraz zasadom wnioskowania statystycznego możemy wnioskować o tym, jak wygląda rozkład cechy w całej populacji."

Możemy jeszcze skorzystać z pomocy tekstu dla studentów geologii Uniwersytetu Warszawskiego, który szeroko tłumaczy pojęcie próby losowej:

"Próba losowa – wybrane losowo elementy populacji. Np. my na zajęciach. Nie wszystkie populacje muszą istnieć w rzeczywistości, niektóre z nich mają charakter wyłącznie hipotetyczny. Elementy populacji statystycznej nazywamy jednostkami statystycznymi, zaś badana cecha to cecha statystyczna. Ze względu na liczebność zbioru, populacje można podzielić na: populacje skończone - np. populacja studentów Geologii populacje nieskończone - np. czas Ponieważ często badanie statystyczne całej populacji jest nieuzasadnione lub niemożliwe (przyczyny: patrz badanie statystyczne), dlatego zwykle bada się jedynie wybrane losowo elementy populacji, czyli próbę losową, a następnie wnioskuje na podstawie obserwacji cechy w próbie o możliwych wartościach cechy w populacji. Dlatego właśnie niektóre pojęcia statystyczne mogą odnosić się zarówno do populacji, jak i do próby (są to tzw. wielkości empiryczne)."

Cytat prosto z raportu:

"Badanie zrealizowano na ogólnopolskiej reprezentatywnej próbie 3149 respondentów w wieku co najmniej 15 lat dobranej metodą random route. Wywiady przeprowadzono metodą CAPI (Computer Assisted Personal Interview – wspomaganego komputerowo wywiadu kwestionariuszowego) w domach respondentów. Kwestionariusz wywiadu składał się przede wszystkim z pytań, które wystąpiły w poprzednich edycjach badania, przy czym zachowana została ich kolejność, tak aby wyniki były porównywalne z rezultatami uzyskanymi w ubiegłych latach."

Metoda random route - czyli losowanie.

Przy doborze próby stosowano technikę „random route”, która polegała na wylosowaniu punktów startowych (adresowych) i przeprowadzaniu ankiet z osobami, które zostały zastane w domu i spełniły określone wymagania odnośnie charakterystyk (np. płci, wieku, miejsca (rejonu) zamieszkania). Ta metoda została zastosowana m. in. w badaniach przeprowadzanych w Gdyni. Wadą tej techniki jest jednak fakt, że w domach ankieter ma większą szansę zastania osób, które z dużym prawdopodobieństwem mniej podróżują, a więcej przebywają w domu, co może mieć negatywny wpływ na uzyskane wyniki.

W tekście Szarej Kawiarenki z zeszłego roku, ale dzisiaj udostępnionego, przeczytałam:

"38 mln, co daje nie daje nawet procenta przebadanej populacji. 3000 osób to po prostu wioska. Jedna, dość duża, albo kilka mniejszych. To mogli być też odwiedzający centrum handlowe, a z doświadczenia wiem, że tu ankiety wypełniają zwykle osoby w wieku 50+. "

Spójrzcie teraz wyżej, do cytatu z raportu, czytamy tam: wspomaganego komputerowo wywiadu kwestionariuszowego) w domach respondentów, więc nie byli to ludzie z ulicy, z centrum handlowego... Dalej mamy, że zazwyczaj na ankiety zgadzają się ludzie 50+, nie wiem, nie wnikam, badań nie robiłam, ale wiecie, co? Ten argument nijak nie pasuje do naszego raportu BN, wiecie, dlaczego? Bo mamy tam istotne wyniki w grupach wiekowych... Choćby mamy takie oto słupeczki po prawej stronie... Uwaga: Wasze mniemanie, Wasze uczucia, Wasze doświadczenia czasem nijak mają się do rzeczywistości, czasem w ogóle nie można ich do niej przyłożyć, czy to złe? Nie, oczywiście, że nie, ale to znaczy, że mając takie czy inne doświadczenie, nie możecie tego doświadczenia przenieść na ogół, bo nie jest ono reprezentatywne i wiarygodne.

W tekście Aleksandry czytamy dalej: "Ale na przykład badania Virtualo o rynkach e-book (trochę stare, ale wciąż dobre) mają już inne wyniki. Tu liczby osób kupujących i posiadających książki lub deklarujących czytanie są olbrzymie i mam wrażenie, że rosną, a nie spadają." To nie jest porównanie trafne, bo badanie było prowadzone wśród osób, które w ciągu ostatnich 12 miesięcy przeczytały co najmniej 3 książki w dowolnej formie (drukowanej, ebook, audiobook). Innymi słowy te badanie było wśród czytelników i nijak ma się do badania Biblioteki Narodowej, a więc i ci ludzie czytają książki, i je kupują, i w ogóle z książkami mają cokolwiek do czynienia, a więc... Nie jest to próba porównywalna do próby, na której bazuje raport BN.

Kalkulator wielkości próby - proszę. Badacze wzięli trzy razy większą ilość potrzebnych osób. To, że utarł się slogan, że statystyki kłamią, bo jak weźmiemy mojego psa i mnie, to średnio będziemy mieli po 3 nogi, nie znaczy, że tak własnie jest. Statystyki nie kłamią, jeśli badania, na których bazują są zrobione dobrze, zgodnie z duchem statystyki, a obliczenia zostają wykonane zgodnie ze standardami. Nie jest trudno, mając reprezentatywną grupę osób nacisnąć kilka przycisków w programach do statystki, choćby w SPSSie i policzyć średnią... To nie są liczby brane z kosmosu, nie liczy się ich na piechotę na kartkach, nie liczy się (chociaż czasem się zdarza) w Excelu, wiecie, że są programy specjalnie dla statystyków? Choćby wspomniany przeze mnie SPSS.

Nawet jeśli próba liczyłaby 30 000 osób, to wyniki różniłyby się nieznacznie.

"Standardowa próba omnibusa dla całej populacji Polaków to próba 1,000 osobowa." [źródło]

Komentarze z jednej książkowych grup:

"3000 z hakiem respondentów to mało reprezentatywna grupa. Istotne jest też nie tylko to, jak dobrano badanych, ale też gdzie i kiedy ich "złapano". Jeśli zimą lub obecną mroźną wiosną, to prawdziwi czytacze siedzą sobie w swoich książkoświatkach i nie mają bladego pojęcia o badaniach, podobnie jak badania są kompletnie "nieświadome" istnienia tych readmasterów. I wychodzimy jako naród na ignorantów, analfabetów etc."

O tym, gdzie tych ludzi łapano jest na jednym z pierwszych stron raportu, łapano ich w domach...

"Kogo oni pytali?"i "Niewiele ponad 3 tys. ankietowanych, nie ma podane gdzie: miasto, wieś, dlaczego akurat bibliteka w Legionowie."

Uwaga, pokazuję i objaśniam, klikamy w raport, suwakiem do strony 87 i tam od tej strony, aż po sam dół mamy odpowiedzi, kim są nasi badani, N= druga rubryczka, po pytaniu to liczba respondentów w danej grupie.

Wiek, płeć, stan cywilny, wykształcenie, dochody, miejsce zamieszkania... Wszystko jest.

Dla tych którzy chcą poszerzyć swoją statystyczną wiedzę dotyczącą doboru próby, polecam przeczytać ten artykuł.

MOJA (SKRÓCONA) OPINIA O STANIE CZYTELNICTWA

Niech ludzie czytają lub nie czytają, co im się podoba, czy to słabe, czy dobre książki, nie róbmy z książek świętych Grali i zmieniaczy świata. Może to i smutne, że po lekturach szkolnych ludzie nie sięgają już po żadne inne książki - ja po niektórych z nich też pewnie zrezygnowałabym z czytelnictwa w ogóle, gdybym nie wiedziała, że książki mogą też bawić, nie tylko nudzić. Jeśli nie ma wartościowych powieści w domu, ba! jeśli w ogóle nie ma książek w domu i dodatkowo w środowiskach czytelniczych kreuje się książki jako "poszerzanie horyzontów", "nauka", "intelektualne", a nie jako dobrą rozrywkę... to potem ludzie od czytania odchodzą po szkołach średnich - to jest dla mnie smutne i smutne jest dla mnie też bycie czytelnikiem, który "jestem lepszy od nieczytających, bo czytam książki", cóż... nie widzę korelacji. Myślę, że gdy telewizja/internet zaczną pokazywać książki jako formę zabawy, formę odstresowania, może wówczas wynik czytelnictwa będzie lepszy. Ludzie muszą zmienić podejście do książek z "o, wielkie booki, dają wiedzę i nudzą" na "o, wielkie booki, zrelaksują mnie". Więcej ode mnie na ten temat, tutaj.

Dziękuję za uwagę!

Niech Book będzie z Wami,

Matylda

Źródła:

https://pl.wikipedia.org/wiki/Populacja_statystyczna

http://coffee-kafes.blogspot.com/2016/03/badania-czytelnictwa.html

http://www.statystyka.az.pl/ewaluacje/proba-losowa-a-proba-celowa.php

http://www.geo.uw.edu.pl/tl_files/KOSiZN/podranie/statystyka%20opisowa.pdf
http://www.marketside.pl/?know-how/Czy-proba-1000-jest-lepsza-niz-100?.html
http://stat.gov.pl/files/gfx/portalinformacyjny/pl/defaultstronaopisowa/5851/1/1/raport_zasady_metodologiczne-mobilnosc.pdf

Krótki komunikat do znawców statystki

Cześć, tu Matylda

Czytelnicy

Archiwum

Wydawnictwa

Autorzy

Serie

Napisz do mnie! :)