Statystyka opisowa


Na lekcji nauczysz się obliczać podstawowe wielkości statystyczne: średnią, medianę, wariancję i odchylenie standardowe oraz sporządzać diagramy danych statystycznych.

Przykład 1

Wczytaj za pomocą przycisków trojkaciki.gif (134 bytes) przykład 1.

Otrzymałeś zestaw danych, przedstawiający liczbę punktów uzyskanych przez uczniów pewnej klasy ze sprawdzianu z matematyki. Każda liczba to wynik jednego ucznia. Możesz już obliczać poszczególne wielkości statystyczne, naciskając przyciski od guzik1.gif (189 bytes) do guzik8.gif (925 bytes). Oto objaśnienia do kolejnych obliczeń:

guzik1.gif (189 bytes) - porządkowanie danych

Naciskając ten przycisk, otrzymujemy dane uporządkowane od najmniejszej do największej.

guzik2.gif (167 bytes) - minimum, maksimum, liczność, mediana

Minimum jest równe 1; oznacza ono najmniejszą liczbę punktów, jaką uzyskał któryś z uczniów.
Maksimum jest równe 50; oznacza ono największą liczbę punktów, jaką uzyskał któryś z uczniów.
Liczność (zmienna oznaczona literą "n") wynosi 36; oznacza ona liczbę danych, czyli liczbę uczniów tej klasy.
Mediana wynosi 21. Mediana oznacza środkową daną wśród uporządkowanych danych. Ponieważ jednak dla parzystej liczby danych, a taką mamy w tym przypadku, nie ma środkowej danej, więc za medianę przyjmuje się średnią arytmetyczną dwóch środkowych danych: 20plus22d2.gif (170 bytes) = 21.

guzik3.gif (168 bytes) - grupy

Dane zostały podzielone na grupy. Do grupy 1-5 należą wyniki tych uczniów, którzy uzyskali od jednego do pięciu punktów; do grupy 6-10 należą wyniki tych uczniów, którzy uzyskali od sześciu do dziesięciu punktów; itd. Grupowanie stosuje się wtedy, gdy danych jest dużo i chcemy przedstawić je w zwięzłej formie. Przyjęliśmy, że liczba grup w naszym programie będzie wynosić co najwyżej 10. Bardzo często grupy tworzy się jeszcze przed rozpoczęciem badań, a w czasie zbierania danych od razu przyporządkowuje się je do odpowiednich grup.

guzik4.gif (165 bytes) - liczebność grup

Wielkość ta czasami określana jest słowem "częstość", ale dla uniknięcia pomyłek z częstością zdarzeń, będącą liczbą z przedziału [0, 1], przyjęliśmy tutaj nazwę "liczebność" (zmienna "k"). Oznacza ona liczbę danych mieszczących się w danej grupie, np. w grupie 1-5 mieszczą się wyniki dwóch uczniów, w grupie 6-10 wynik jednego ucznia, w grupie 11-15 wyniki 7 uczniów, itd. Suma wszystkich liczebności jest oczywiście równa liczbie wszystkich uczniów, czyli 36.
Po naciśnięciu guzik4.gif (165 bytes) program sporządza diagram. Pierwszy słupek obrazuje pierwszą grupę uczniów, czyli tych uczniów, którzy uzyskali od 1 do 5 punktów. Ponieważ takich uczniów jest dwóch, więc słupek ma wysokość 2. Czwarty słupek obrazuje grupę 8 uczniów, którzy uzyskali od 16 do 20 punktów. Sprawdź, że suma wysokości wszystkich słupków wynosi 36.

guzik5.gif (169 bytes) - środki grup

Środki grup (zmienna "x") są środkowymi wartościami w każdej grupie. Na przykład, środkowa wartość w grupie 1-5 wynosi 3, środkowa wartość grupy 6-10 wynosi 8, itd. Do dalszych obliczeń będą brane właśnie te środkowe wartości. Oczywiście, spowoduje to uśrednienie wyników, ponieważ zamiast rzeczywistych wyników będą brane ich średnie, np. w grupie 1-5 jeden z uczniów zdobył 1 punkt, a drugi zdobył 5 punktów, natomiast do dalszych obliczeń zostanie wzięta wartość 3, czyli tak, jakby obaj zdobyli po 3 punkty. W rzeczywistych badaniach, gdy danych jest dużo, takie uśrednianie nie powoduje jednak istotnego zniekształcenia końcowych wyników i wnioski płynące z takiego przetwarzania danych są prawdziwe.

guzik6.gif (169 bytes) - średnia arytmetyczna

Średnia arytmetyczna (zmienna "m") obliczana jest ze wzoru podanego w programie. Wskaźnik "i" w ostatnim składniku sumy oznacza liczbę grup. Liczby 6, 8, 91, 144, itd., to kolejne składniki sumy występujące w tym wzorze. Na przykład  k1.x1 = 2.3 = 6, k2.x2 = 1.8 = 8, itd. Sprawdź, że suma tych liczb podzielona przez n = 36 daje rzeczywiście średnią 22,166666 w-przyblizeniu.gif (844 bytes)22,17.

guzik7.gif (169 bytes) - wariancja

Wariancja (zmienna "w") obliczana jest ze wzoru podanego w programie. Liczby 734,7, 200,7, itd. to kolejne składniki sumy występującej w tym wzorze. Na przykład  k1.(x1-m)2 = 2.(3-22,166666)2 = 734,7221711 w-przyblizeniu.gif (844 bytes)734,7. Sprawdź, czy suma liczb: 734,7 + 200,7 + ... + 667,4 podzielona przez n = 36 daje rzeczywiście wariancję 107,64.

 guzik8.gif (925 bytes) - odchylenie standardowe

Odchylenie standardowe (zmienna "s") jest pierwiastkiem kwadratowym z wariancji. Sprawdź, że pier107.gif (160 bytes)= 10,37.
Odchylenie standardowe oznacza średnie odchylenie danych od średniej arytmetycznej. W tym przykładzie odchylenie wynosi 10,37 i oznacza ono tzw. średni rozrzut ocen - liczby zdobytych punktów są średnio oddalone o około 10 od średniej arytmetycznej 22.


Przykład 2

Wczytaj za pomocą przycisków trojkaciki.gif (134 bytes) przykład 2.

Otrzymałeś zestaw danych przedstawiający wagę (w kilogramach) uczniów pewnej klasy.

Uporządkuj dane, naciskając guzik1.gif (189 bytes) i spróbuj sam wyznaczyć wartość minimalną, wartość maksymalną i medianę. Sprawdź swoje obliczenia, naciskając guzik2.gif (167 bytes).

Spróbuj teraz samodzielnie podzielić dane na 10 grup. Wystarczy, że dobrze określisz pierwszą grupę i szerokość grup. Sprawdź swoje obliczenia, naciskając guzik3.gif (168 bytes).

Postępuj analogicznie z punktami od guzik4.gif (165 bytes) do guzik8.gif (925 bytes): najpierw próbuj samodzielnie wyznaczyć odpowiednie wartości, a następnie sprawdzaj swoje wyniki, naciskając odpowiedni przycisk.

Zadanie 1

Sprawdź, czy diagram dla danych z przykładu 2 jest symetryczny, a jeśli tak, to określ jego oś symetrii.

Zadanie 2

Zmień dwie dane w tabeli tak, aby średnia arytmetyczna zmniejszyła się, a diagram nie stracił symetrii. Uwaga techniczna: jeśli po zmianie danych chcesz wrócić do wyjściowych danych, naciśnij przycisk "Odśwież" odswiez.gif (196 bytes), znajdujący się w panelu przeglądarki. Przycisk czysc.gif (271 bytes) w panelu programu czyści wszystkie obliczenia, pozostawiając aktualne dane.

Zadanie 3

Dodaj do zestawu dwie nowe dane tak, aby średnia arytmetyczna zmniejszyła się, a diagram nie stracił symetrii.

Zadanie 4

Zmień dwie dane w tabeli tak, aby odchylenie standardowe zmniejszyło się, a diagram nie stracił symetrii.

Zadanie 5

Dodaj do zestawu dwie nowe dane tak, aby odchylenie standardowe zmniejszyło się, a diagram nie stracił symetrii.


Przykład 3

Wczytaj za pomocą przycisków trojkaciki.gif (134 bytes) przykład 3.

Otrzymałeś zestaw danych, przedstawiający sumę bramek zdobytych w 21 meczach rozegranych w pewnym turnieju piłki nożnej.

Spróbuj samodzielnie wyznaczać kolejne wartości: minimum, maksimum, liczność, medianę, średnią arytmetyczną, wariancję, odchylenie standardowe i sprawdzaj swoje wyniki, naciskając odpowiedni przycisk.

Zadanie 6

Zamień jedną z danych tak, aby otrzymać diagram symetryczny.

Zadanie 7

Dodaj do zestawu jedną daną tak, aby otrzymać diagram symetryczny.

Zadanie 8

Zamień jedną z danych tak, aby otrzymać możliwie najmniejsze odchylenie standardowe.

Zadanie 9

Dodaj do zestawu jedną daną tak, aby otrzymać możliwie najmniejsze odchylenie standardowe.


Własne przykłady danych

W programie "Statystyka" możesz też przetwarzać własne zestawy, zawierające od 2 do 36 danych.

Przykład 4

Wpisz w pierwszych pięciu okienkach dane: 1, 2, 3, 4, 5. Szóste okienko pozostaw puste i naciśnij "Licz i rysuj".
Uwaga: Program pobiera dane tylko do napotkania pierwszego pustego okienka, więc wartości w dalszych okienkach nie trzeba kasować.

Średnia arytmetyczna dla tych danych wynosi 3, zaś odchylenie standardowe pierw2.gif (890 bytes)w-przyblizeniu.gif (844 bytes)1,41.

Zadanie 10

Jak zmieni się średnia arytmetyczna i odchylenie standardowe, gdy do zestawu danych: 1, 2, 3, 4, 5 dodamy kolejne dwie dane: 6 i 7?

Zadanie 11

Jak zmieni się średnia arytmetyczna i odchylenie standardowe, gdy każdą daną z zestawu: 1, 2, 3, 4, 5, 6, 7 zwiększymy o 1?

Zadanie 12

Pewien zestaw danych zawiera: 1 jedynkę, 2 dwójki, 3 trójki, 4 czwórki, 5 piątek, 6 szóstek, 7 siódemek i 8 ósemek. Oszacuj średnią arytmetyczną i odchylenie standardowe tych danych, a następnie sprawdź oszacowania za pomocą programu.

Zadanie 13

Pewien zestaw danych zawiera: 1 dziesiątkę, 2 dwudziestki, 3 trzydziestki, 4 czterdziestki, 5 pięćdziesiątek, 6 sześćdziesiątek, 7 siedemdziesiątek i 8 osiemdziesiątek. Oszacuj średnią arytmetyczną i odchylenie standardowe tych danych, a następnie sprawdź oszacowania za pomocą programu.

Zadanie 14

Zmień możliwie najmniejszą liczbę danych w zestawie z zadania 13 tak, aby otrzymać diagram symetryczny.

Zadanie 15

Dla którego zestawu danych, przedstawionych na diagramach A, B, C, D:
a) średnia arytmetyczna jest najmniejsza, a dla którego największa;
b) odchylenie standardowe jest najmniejsze, a dla którego największe?

  diagram1.gif (2438 bytes)   diagram2.gif (2654 bytes)
                              diagram A                                                    diagram B

  diagram3.gif (2338 bytes)   diagram4.gif (2449 bytes)
                              diagram C                                                    diagram D

Zadanie 16

Wierzchołki słupków wielu diagramów można przybliżać krzywą normalną (więcej o krzywej normalnej możesz dowiedzieć się z lekcji "Rozkład normalny"). krzywa-normalna.gif (2291 bytes)

Podaj przykład zestawu takich 36 danych, aby po narysowaniu diagramu, jego słupki można było przybliżyć krzywą normalną. 

 


Obliczenia statystyczne w arkuszu kalkulacyjnym

Zapoznaj się teraz ze sposobami obliczeń średniej arytmetycznej i odchylenia standardowego za pomocą arkusza kalkulacyjnego. Prezentujemy to dla danych z przykładu 1, oznaczających liczbę punktów uzyskanych przez uczniów pewnej klasy ze sprawdzianu z matematyki.

I sposób - dane niezgrupowane

arkusz-prz-1-niezgrup.gif (12703 bytes)

Wartości średniej i odchylenia standardowego dla danych niezgrupowanych są zawsze obliczone dokładnie. Natomiast diagramy dla danych niezgrupowanych są mało przydatne, np. z powyższego diagramu nie można wyciągnąć żadnych wniosków dotyczących ważnych wyników sprawdzianu.

II sposób - dane zgrupowane

arkusz-prz-1-zgrup.gif (18576 bytes)

Wartości średniej i odchylenia standardowego dla danych zgrupowanych są przybliżone. Jest tak dlatego, że dane w każdej grupie są reprezentowane przez środek grupy, a nie przez rzeczywiste wartości (w naszym arkuszu środki grup znajdują się w kolumnie F). W tym przykładzie różnica pomiędzy dokładną wartością odchylenia standardowego a jego wartością obliczoną z danych zgrupowanych wynosi 0,24. W rzeczywistych badaniach statystycznych, gdy danych są tysiące, błędy są znacznie mniejsze. Natomiast diagramy dla danych zgrupowanych są bardzo przydatne i można z nich odczytać wiele ważnych informacji. W tym przypadku widać, ilu uczniów uzyskało daną liczbę punktów i w jakim zakresie mieści się większość wyników oraz jaki jest rozrzut wyników sprawdzianu.

Zadanie 17

Wykonaj za pomocą arkusza kalkulacyjnego obliczenia statystyczne i wykres dla danych z przykładu 2.


Programowanie obliczeń statystycznych w języku Pascal

Poniżej przedstawiamy programy w języku Pascal, wykonujące obliczenia średniej i odchylenia standardowego oraz sporządzające diagramy dla danych z przykładu 1. Dane te oznaczają liczbę punktów uzyskanych przez uczniów pewnej klasy ze sprawdzianu z matematyki.

I sposób - dane niezgrupowane

Program statystyka_dane_niezgrupowane;
uses graph;
var n,k,suma:integer;
     srednia,wariancja,odch_stand:real;
     const l_d=36;
              t:array[1..l_d] of integer = (12,20,1,31,22,27,35,19,39,25,11,27, 5,33,24,28,17,32,
                                                     8,22,38,16,12,22,29,50,13,19,23,15,18,14,17,18,15,41);
begin
    n:=detect; initGraph(n,k,'');
    write('Dane: ');suma:=0;
    for n:=1 to l_d do write(t[n],' ');
    for n:=1 to l_d do suma:=suma+t[n]; srednia:=suma/l_d;
    writeLn; writeLn('srednia arytmetyczna = ',srednia:1:6);
    wariancja:=0;
    for n:=1 to l_d do wariancja:=wariancja+(t[n]-srednia)*(t[n]-srednia);
    writeLn('odchylenie standardowe = ',exp(1/2*ln(wariancja/l_d)):1:6);
    for n:=1 to l_d do bar(n*12,150,n*12+8,150-t[n]);
    readln;
end.

Po uruchomieniu tego programu otrzymujemy następujące wyniki:

pascal1.gif (3761 bytes)

II sposób - dane zgrupowane

Program statystyka_dane_zgrupowane;
uses graph;
const l_d=36; l_g=10;
           t:array[1..l_d] of integer =(12,20,1,31,22,27,35,19,39,25,11,27,5,33,24,28,17,32,
                                                8,22,38,16,12,22,29,50,13,19,23,15,18,14,17,18,15,41);
var n,k,min,max,czestosc:integer;
       suma,sz_g,srednia,wariancja,odch_stand:real;
       tcz:array[1..l_g] of integer;
       tsg:array[1..l_g] of real;
begin
     n:=detect; initGraph(n,k,'');
     write('Dane: ');
     for n:=1 to l_d do write(t[n],' '); writeLn;
     min:=t[1]; for n:=1 to l_d do if t[n]<min then min:=t[n];
     max:=t[1]; for n:=1 to l_d do if t[n]>max then max:=t[n];
     writeLn('minimum = ',min,' maksimum = ',max);
     sz_g:=(max-min+1)/10; suma:=0;
     write('grupy: ');
     for n:=0 to l_g-1 do write(min+n*sz_g:2:0,'-',min+(n+1)*sz_g-1:2:0,' ');
     writeLn; write('czestosci: ');
     for n:=0 to l_g-1 do
           begin
               czestosc:=0;
               for k:=1 to l_d do if (t[k]>=min+n*sz_g)and(t[k]<=min+(n+1)*sz_g-1)
                                              then czestosc:=czestosc+1;
               tcz[n+1]:=czestosc; write(czestosc:2,' ');
           end;
     for n:=1 to l_g do bar(n*30,350,n*30+25,350-20*tcz[n]);
     writeLn; write('srodki grup:');
     for n:=0 to l_g-1 do tsg[n+1]:=(min+n*sz_g+min+(n+1)*sz_g-1)/2;
     for n:=1 to l_g do write(tsg[n]:4:1,' ');
     suma:=0;
     for n:=1 to l_g do suma:=suma+tcz[n]*tsg[n]; srednia:=suma/l_d;
     writeLn; writeLn('srednia arytmetyczna = ',srednia:1:6);
     wariancja:=0;
     for n:=1 to l_g do wariancja:=wariancja+(tcz[n]*(tsg[n]-srednia)*(tsg[n]-srednia));
     writeLn('wariancja = ',wariancja/l_d:1:6);
     writeLn('odchylenie standardowe = ',exp(1/2*ln(wariancja/l_d)):1:6);
     readln;
end.

Po uruchomieniu tego programu otrzymujemy następujące wyniki:

pascal2.gif (6575 bytes)

Zadanie 18

Zmodyfikuj podany wyżej program tak, aby wykonał obliczenia i wykres dla danych z przykładu 2.

 


Projekt

Zaplanuj badania statystyczne dotyczące wyników nauczania swojej klasy lub szkoły, wyników sportowych klubu sportowego lub wyników z innych interesujących Cię dziedzin życia. Przeprowadź zaplanowane badania na reprezentatywnej grupie i opracuj je statystycznie za pomocą arkusza kalkulacyjnego lub własnego programu komputerowego. Wykonaj prezentację komputerową, zawierającą opis przebiegu badań i ich wyniki wraz z interpretacją i wnioskami.


Odpowiedzi

1. Diagram z przykładu 2 jest symetryczny względem prostej pionowej, przechodzącej pomiędzy środkowymi słupkami.

2. Nie można zmienić dwóch wartości tak, aby diagram pozostał symetryczny, a średnia się zmieniła.

3. Nie można dodać dwóch nowych danych tak, aby diagram pozostał symetryczny, a średnia się zmieniła.

4. Odchylenie standardowe to miara rozrzutu, więc aby rozrzut zmniejszył się, dane muszą być bardziej skupione wokół średniej. Można np. zamiast 45 wpisać 57 i zamiast 73 wpisać 62. Otrzymujemy odchylenie standardowe równe 8,12.

5. Należy podać dane bliskie średniej, np. 59 i 60. Otrzymujemy odchylenie standardowe równe 8,6.

6. Nie można otrzymać diagramu symetrycznego, zmieniając tylko jedną daną.

7. Należy dodać wartość 4.

8. Gdy zmienimy daną 9 lub daną 0 na 4, otrzymamy najmniejsze odchylenie standardowe równe 2,46.

9. Najmniejsze odchylenie standardowe, równe 2,61, otrzymamy, gdy dodamy wartość 4 lub wartość 5.

10. Średnia arytmetyczna zwiększy się o 1, odchylenie standardowe wzrośnie do 2.

11. Średnia arytmetyczna zwiększy się o 1, odchylenie standardowe pozostanie bez zmian.

12. Szacowanie średniej można przeprowadzić następująco: gdyby każda wartość od 1 do 8 występowała tylko raz, średnia wynosiłaby 4,5. Jednak w zestawie jest aż 8 ósemek, 7 siódemek, itd., zatem średnia jest zdecydowanie większa niż 4,5 i może wynosić około 6. Sprawdzając wynik za pomocą programu, otrzymujemy średnią 5,67.
Szacowanie odchylenia standardowego: zdecydowana większość danych jest skupiona wokół średniej 5,67. Są to dane o wartościach 4, 5, 6, 7 i różnią się one od średniej o mniej niż 2, zatem odchylenie standardowe jest mniejsze od 2 i może wynosić około 1,75. Sprawdzając wynik za pomocą programu, otrzymujemy odchylenie standardowe równe 1,97.

13. Ponieważ wszystkie dane z tego zestawu są 10 razy większe od odpowiednich danych z przykładu 5, więc średnia arytmetyczna i odchylenie standardowe będą też 10 razy większe.

14. Można zmienić 8 danych zaznaczonych kolorem zielonym:
10 20 20 30 30 30 40 40 40 40 50 50 50 50 50 60 60 60 60 40 30 70 70 70 70 70 20 20 80 80 80 80 20 10 10 10.

15. a) Na diagramach A, B, C średnia arytmetyczna jest równa 4,5, na diagramie D średnia arytmetyczna wynosi 5,5.
      b) na diagramie A odchylenie standardowe jest najmniejsze i wynosi 1,8, na diagramie C jest największe i wynosi 2,69.

16. Przykładowy zestaw danych:
1  2  3  3  4  4  4  4  4  4  4  4   5  5  5  5  5  5  5  5  5  5  5   5  6  6  6  6  6  6  6  6  7  7   8  9

17. 
     arkusz-prz-2-zgrup.gif (18051 bytes)

18. Należy zmiennej "l_d", oznaczającej liczbę danych, nadać wartość 30 oraz do tablicy "t" wprowadzić dane z przykładu 2: 49,64,57,61,40,73,59,54,50,61,60,70,79,74,65,55,52,45,58,61,51,47,58,71,66,55,62,57,69,65. Po uruchomieniu programu otrzymamy następujące wyniki:
     pascal3.gif (5436 bytes)