Statystyka opisowa
Na lekcji nauczysz się obliczać podstawowe wielkości statystyczne: średnią, medianę, wariancję i odchylenie standardowe oraz sporządzać diagramy danych statystycznych.
Przykład 1
Wczytaj za pomocą przycisków
przykład 1.
Otrzymałeś zestaw danych, przedstawiający liczbę punktów uzyskanych przez uczniów pewnej klasy ze sprawdzianu z matematyki. Każda liczba to wynik jednego ucznia. Możesz już obliczać poszczególne wielkości statystyczne, naciskając przyciski od
do
. Oto objaśnienia do kolejnych obliczeń:
- porządkowanie danych
Naciskając ten przycisk, otrzymujemy dane uporządkowane od najmniejszej do największej.
- minimum, maksimum, liczność, mediana
Minimum jest równe 1; oznacza ono najmniejszą liczbę punktów, jaką uzyskał któryś z uczniów.
Maksimum jest równe 50; oznacza ono największą liczbę punktów, jaką uzyskał któryś z uczniów.
Liczność (zmienna oznaczona literą "n") wynosi 36; oznacza ona liczbę danych, czyli liczbę uczniów tej klasy.
Mediana wynosi 21. Mediana oznacza środkową daną wśród uporządkowanych danych. Ponieważ jednak dla parzystej liczby danych, a taką mamy w tym przypadku, nie ma środkowej danej, więc za medianę przyjmuje się średnią arytmetyczną dwóch środkowych danych:= 21.
- grupy
Dane zostały podzielone na grupy. Do grupy 1-5 należą wyniki tych uczniów, którzy uzyskali od jednego do pięciu punktów; do grupy 6-10 należą wyniki tych uczniów, którzy uzyskali od sześciu do dziesięciu punktów; itd. Grupowanie stosuje się wtedy, gdy danych jest dużo i chcemy przedstawić je w zwięzłej formie. Przyjęliśmy, że liczba grup w naszym programie będzie wynosić co najwyżej 10. Bardzo często grupy tworzy się jeszcze przed rozpoczęciem badań, a w czasie zbierania danych od razu przyporządkowuje się je do odpowiednich grup.
- liczebność grup
Wielkość ta czasami określana jest słowem "częstość", ale dla uniknięcia pomyłek z częstością zdarzeń, będącą liczbą z przedziału [0, 1], przyjęliśmy tutaj nazwę "liczebność" (zmienna "k"). Oznacza ona liczbę danych mieszczących się w danej grupie, np. w grupie 1-5 mieszczą się wyniki dwóch uczniów, w grupie 6-10 wynik jednego ucznia, w grupie 11-15 wyniki 7 uczniów, itd. Suma wszystkich liczebności jest oczywiście równa liczbie wszystkich uczniów, czyli 36.
Po naciśnięciuprogram sporządza diagram. Pierwszy słupek obrazuje pierwszą grupę uczniów, czyli tych uczniów, którzy uzyskali od 1 do 5 punktów. Ponieważ takich uczniów jest dwóch, więc słupek ma wysokość 2. Czwarty słupek obrazuje grupę 8 uczniów, którzy uzyskali od 16 do 20 punktów. Sprawdź, że suma wysokości wszystkich słupków wynosi 36.
- środki grup
Środki grup (zmienna "x") są środkowymi wartościami w każdej grupie. Na przykład, środkowa wartość w grupie 1-5 wynosi 3, środkowa wartość grupy 6-10 wynosi 8, itd. Do dalszych obliczeń będą brane właśnie te środkowe wartości. Oczywiście, spowoduje to uśrednienie wyników, ponieważ zamiast rzeczywistych wyników będą brane ich średnie, np. w grupie 1-5 jeden z uczniów zdobył 1 punkt, a drugi zdobył 5 punktów, natomiast do dalszych obliczeń zostanie wzięta wartość 3, czyli tak, jakby obaj zdobyli po 3 punkty. W rzeczywistych badaniach, gdy danych jest dużo, takie uśrednianie nie powoduje jednak istotnego zniekształcenia końcowych wyników i wnioski płynące z takiego przetwarzania danych są prawdziwe.
- średnia arytmetyczna
Średnia arytmetyczna (zmienna "m") obliczana jest ze wzoru podanego w programie. Wskaźnik "i" w ostatnim składniku sumy oznacza liczbę grup. Liczby 6, 8, 91, 144, itd., to kolejne składniki sumy występujące w tym wzorze. Na przykład k1.x1 = 2.3 = 6, k2.x2 = 1.8 = 8, itd. Sprawdź, że suma tych liczb podzielona przez n = 36 daje rzeczywiście średnią 22,166666
22,17.
- wariancja
Wariancja (zmienna "w") obliczana jest ze wzoru podanego w programie. Liczby 734,7, 200,7, itd. to kolejne składniki sumy występującej w tym wzorze. Na przykład k1.(x1-m)2 = 2.(3-22,166666)2 = 734,7221711
734,7. Sprawdź, czy suma liczb: 734,7 + 200,7 + ... + 667,4 podzielona przez n = 36 daje rzeczywiście wariancję 107,64.
- odchylenie standardowe
Odchylenie standardowe (zmienna "s") jest pierwiastkiem kwadratowym z wariancji. Sprawdź, że
= 10,37.
Odchylenie standardowe oznacza średnie odchylenie danych od średniej arytmetycznej. W tym przykładzie odchylenie wynosi 10,37 i oznacza ono tzw. średni rozrzut ocen - liczby zdobytych punktów są średnio oddalone o około 10 od średniej arytmetycznej 22.
Przykład 2
Wczytaj za pomocą przycisków
przykład 2.
Otrzymałeś zestaw danych przedstawiający wagę (w kilogramach) uczniów pewnej klasy.
Uporządkuj dane, naciskając
i spróbuj sam wyznaczyć wartość minimalną, wartość maksymalną i medianę. Sprawdź swoje obliczenia, naciskając
.
Spróbuj teraz samodzielnie podzielić dane na 10 grup. Wystarczy, że dobrze określisz pierwszą grupę i szerokość grup. Sprawdź swoje obliczenia, naciskając
.
Postępuj analogicznie z punktami od
do
: najpierw próbuj samodzielnie wyznaczyć odpowiednie wartości, a następnie sprawdzaj swoje wyniki, naciskając odpowiedni przycisk.
Zadanie 1
Sprawdź, czy diagram dla danych z przykładu 2 jest symetryczny, a jeśli tak, to określ jego oś symetrii.
Zadanie 2
Zmień dwie dane w tabeli tak, aby średnia arytmetyczna zmniejszyła się, a diagram nie stracił symetrii. Uwaga techniczna: jeśli po zmianie danych chcesz wrócić do wyjściowych danych, naciśnij przycisk "Odśwież"
, znajdujący się w panelu przeglądarki. Przycisk
w panelu programu czyści wszystkie obliczenia, pozostawiając aktualne dane.
Zadanie 3
Dodaj do zestawu dwie nowe dane tak, aby średnia arytmetyczna zmniejszyła się, a diagram nie stracił symetrii.
Zadanie 4
Zmień dwie dane w tabeli tak, aby odchylenie standardowe zmniejszyło się, a diagram nie stracił symetrii.
Zadanie 5
Dodaj do zestawu dwie nowe dane tak, aby odchylenie standardowe zmniejszyło się, a diagram nie stracił symetrii.
Przykład 3
Wczytaj za pomocą przycisków
przykład 3.
Otrzymałeś zestaw danych, przedstawiający sumę bramek zdobytych w 21 meczach rozegranych w pewnym turnieju piłki nożnej.
Spróbuj samodzielnie wyznaczać kolejne wartości: minimum, maksimum, liczność, medianę, średnią arytmetyczną, wariancję, odchylenie standardowe i sprawdzaj swoje wyniki, naciskając odpowiedni przycisk.
Zadanie 6
Zamień jedną z danych tak, aby otrzymać diagram symetryczny.
Zadanie 7
Dodaj do zestawu jedną daną tak, aby otrzymać diagram symetryczny.
Zadanie 8
Zamień jedną z danych tak, aby otrzymać możliwie najmniejsze odchylenie standardowe.
Zadanie 9
Dodaj do zestawu jedną daną tak, aby otrzymać możliwie najmniejsze odchylenie standardowe.
Własne przykłady danych
W programie "Statystyka" możesz też przetwarzać własne zestawy, zawierające od 2 do 36 danych.
Przykład 4
Wpisz w pierwszych pięciu okienkach dane: 1, 2, 3, 4, 5. Szóste okienko pozostaw puste i naciśnij "Licz i rysuj".
Uwaga: Program pobiera dane tylko do napotkania pierwszego pustego okienka, więc wartości w dalszych okienkach nie trzeba kasować.Średnia arytmetyczna dla tych danych wynosi 3, zaś odchylenie standardowe
1,41.
Zadanie 10
Jak zmieni się średnia arytmetyczna i odchylenie standardowe, gdy do zestawu danych: 1, 2, 3, 4, 5 dodamy kolejne dwie dane: 6 i 7?
Zadanie 11
Jak zmieni się średnia arytmetyczna i odchylenie standardowe, gdy każdą daną z zestawu: 1, 2, 3, 4, 5, 6, 7 zwiększymy o 1?
Zadanie 12
Pewien zestaw danych zawiera: 1 jedynkę, 2 dwójki, 3 trójki, 4 czwórki, 5 piątek, 6 szóstek, 7 siódemek i 8 ósemek. Oszacuj średnią arytmetyczną i odchylenie standardowe tych danych, a następnie sprawdź oszacowania za pomocą programu.
Zadanie 13
Pewien zestaw danych zawiera: 1 dziesiątkę, 2 dwudziestki, 3 trzydziestki, 4 czterdziestki, 5 pięćdziesiątek, 6 sześćdziesiątek, 7 siedemdziesiątek i 8 osiemdziesiątek. Oszacuj średnią arytmetyczną i odchylenie standardowe tych danych, a następnie sprawdź oszacowania za pomocą programu.
Zadanie 14
Zmień możliwie najmniejszą liczbę danych w zestawie z zadania 13 tak, aby otrzymać diagram symetryczny.
Zadanie 15
Dla którego zestawu danych, przedstawionych na diagramach A, B, C, D:
a) średnia arytmetyczna jest najmniejsza, a dla którego największa;
b) odchylenie standardowe jest najmniejsze, a dla którego największe?
![]()
diagram A diagram B
![]()
diagram C diagram DZadanie 16
Wierzchołki słupków wielu diagramów można przybliżać krzywą normalną (więcej o krzywej normalnej możesz dowiedzieć się z lekcji "Rozkład normalny"). Podaj przykład zestawu takich 36 danych, aby po narysowaniu diagramu, jego słupki można było przybliżyć krzywą normalną.
Obliczenia statystyczne w arkuszu kalkulacyjnym
Zapoznaj się teraz ze sposobami obliczeń średniej arytmetycznej i odchylenia standardowego za pomocą arkusza kalkulacyjnego. Prezentujemy to dla danych z przykładu 1, oznaczających liczbę punktów uzyskanych przez uczniów pewnej klasy ze sprawdzianu z matematyki.
I sposób - dane niezgrupowane
Wartości średniej i odchylenia standardowego dla danych niezgrupowanych są zawsze obliczone dokładnie. Natomiast diagramy dla danych niezgrupowanych są mało przydatne, np. z powyższego diagramu nie można wyciągnąć żadnych wniosków dotyczących ważnych wyników sprawdzianu.
II sposób - dane zgrupowane
Wartości średniej i odchylenia standardowego dla danych zgrupowanych są przybliżone. Jest tak dlatego, że dane w każdej grupie są reprezentowane przez środek grupy, a nie przez rzeczywiste wartości (w naszym arkuszu środki grup znajdują się w kolumnie F). W tym przykładzie różnica pomiędzy dokładną wartością odchylenia standardowego a jego wartością obliczoną z danych zgrupowanych wynosi 0,24. W rzeczywistych badaniach statystycznych, gdy danych są tysiące, błędy są znacznie mniejsze. Natomiast diagramy dla danych zgrupowanych są bardzo przydatne i można z nich odczytać wiele ważnych informacji. W tym przypadku widać, ilu uczniów uzyskało daną liczbę punktów i w jakim zakresie mieści się większość wyników oraz jaki jest rozrzut wyników sprawdzianu.
Zadanie 17
Wykonaj za pomocą arkusza kalkulacyjnego obliczenia statystyczne i wykres dla danych z przykładu 2.
Programowanie obliczeń statystycznych w języku Pascal
Poniżej przedstawiamy programy w języku Pascal, wykonujące obliczenia średniej i odchylenia standardowego oraz sporządzające diagramy dla danych z przykładu 1. Dane te oznaczają liczbę punktów uzyskanych przez uczniów pewnej klasy ze sprawdzianu z matematyki.
I sposób - dane niezgrupowane
Program statystyka_dane_niezgrupowane;
uses graph;
var n,k,suma:integer;
srednia,wariancja,odch_stand:real;
const l_d=36;
t:array[1..l_d] of integer = (12,20,1,31,22,27,35,19,39,25,11,27, 5,33,24,28,17,32,
8,22,38,16,12,22,29,50,13,19,23,15,18,14,17,18,15,41);
begin
n:=detect; initGraph(n,k,'');
write('Dane: ');suma:=0;
for n:=1 to l_d do write(t[n],' ');
for n:=1 to l_d do suma:=suma+t[n]; srednia:=suma/l_d;
writeLn; writeLn('srednia arytmetyczna = ',srednia:1:6);
wariancja:=0;
for n:=1 to l_d do wariancja:=wariancja+(t[n]-srednia)*(t[n]-srednia);
writeLn('odchylenie standardowe = ',exp(1/2*ln(wariancja/l_d)):1:6);
for n:=1 to l_d do bar(n*12,150,n*12+8,150-t[n]);
readln;
end.Po uruchomieniu tego programu otrzymujemy następujące wyniki:
II sposób - dane zgrupowane
Program statystyka_dane_zgrupowane;
uses graph;
const l_d=36; l_g=10;
t:array[1..l_d] of integer =(12,20,1,31,22,27,35,19,39,25,11,27,5,33,24,28,17,32,
8,22,38,16,12,22,29,50,13,19,23,15,18,14,17,18,15,41);
var n,k,min,max,czestosc:integer;
suma,sz_g,srednia,wariancja,odch_stand:real;
tcz:array[1..l_g] of integer;
tsg:array[1..l_g] of real;
begin
n:=detect; initGraph(n,k,'');
write('Dane: ');
for n:=1 to l_d do write(t[n],' '); writeLn;
min:=t[1]; for n:=1 to l_d do if t[n]<min then min:=t[n];
max:=t[1]; for n:=1 to l_d do if t[n]>max then max:=t[n];
writeLn('minimum = ',min,' maksimum = ',max);
sz_g:=(max-min+1)/10; suma:=0;
write('grupy: ');
for n:=0 to l_g-1 do write(min+n*sz_g:2:0,'-',min+(n+1)*sz_g-1:2:0,' ');
writeLn; write('czestosci: ');
for n:=0 to l_g-1 do
begin
czestosc:=0;
for k:=1 to l_d do if (t[k]>=min+n*sz_g)and(t[k]<=min+(n+1)*sz_g-1)
then czestosc:=czestosc+1;
tcz[n+1]:=czestosc; write(czestosc:2,' ');
end;
for n:=1 to l_g do bar(n*30,350,n*30+25,350-20*tcz[n]);
writeLn; write('srodki grup:');
for n:=0 to l_g-1 do tsg[n+1]:=(min+n*sz_g+min+(n+1)*sz_g-1)/2;
for n:=1 to l_g do write(tsg[n]:4:1,' ');
suma:=0;
for n:=1 to l_g do suma:=suma+tcz[n]*tsg[n]; srednia:=suma/l_d;
writeLn; writeLn('srednia arytmetyczna = ',srednia:1:6);
wariancja:=0;
for n:=1 to l_g do wariancja:=wariancja+(tcz[n]*(tsg[n]-srednia)*(tsg[n]-srednia));
writeLn('wariancja = ',wariancja/l_d:1:6);
writeLn('odchylenie standardowe = ',exp(1/2*ln(wariancja/l_d)):1:6);
readln;
end.Po uruchomieniu tego programu otrzymujemy następujące wyniki:
Zadanie 18
Zmodyfikuj podany wyżej program tak, aby wykonał obliczenia i wykres dla danych z przykładu 2.
Projekt
Zaplanuj badania statystyczne dotyczące wyników nauczania swojej klasy lub szkoły, wyników sportowych klubu sportowego lub wyników z innych interesujących Cię dziedzin życia. Przeprowadź zaplanowane badania na reprezentatywnej grupie i opracuj je statystycznie za pomocą arkusza kalkulacyjnego lub własnego programu komputerowego. Wykonaj prezentację komputerową, zawierającą opis przebiegu badań i ich wyniki wraz z interpretacją i wnioskami.
Odpowiedzi
1. Diagram z przykładu 2 jest symetryczny względem prostej pionowej, przechodzącej pomiędzy środkowymi słupkami.
2. Nie można zmienić dwóch wartości tak, aby diagram pozostał symetryczny, a średnia się zmieniła.
3. Nie można dodać dwóch nowych danych tak, aby diagram pozostał symetryczny, a średnia się zmieniła.
4. Odchylenie standardowe to miara rozrzutu, więc aby rozrzut zmniejszył się, dane muszą być bardziej skupione wokół średniej. Można np. zamiast 45 wpisać 57 i zamiast 73 wpisać 62. Otrzymujemy odchylenie standardowe równe 8,12.
5. Należy podać dane bliskie średniej, np. 59 i 60. Otrzymujemy odchylenie standardowe równe 8,6.
6. Nie można otrzymać diagramu symetrycznego, zmieniając tylko jedną daną.
7. Należy dodać wartość 4.
8. Gdy zmienimy daną 9 lub daną 0 na 4, otrzymamy najmniejsze odchylenie standardowe równe 2,46.
9. Najmniejsze odchylenie standardowe, równe 2,61, otrzymamy, gdy dodamy wartość 4 lub wartość 5.
10. Średnia arytmetyczna zwiększy się o 1, odchylenie standardowe wzrośnie do 2.
11. Średnia arytmetyczna zwiększy się o 1, odchylenie standardowe pozostanie bez zmian.
12. Szacowanie średniej można przeprowadzić następująco: gdyby każda wartość od 1 do 8 występowała tylko raz, średnia wynosiłaby 4,5. Jednak w zestawie jest aż 8 ósemek, 7 siódemek, itd., zatem średnia jest zdecydowanie większa niż 4,5 i może wynosić około 6. Sprawdzając wynik za pomocą programu, otrzymujemy średnią 5,67.
Szacowanie odchylenia standardowego: zdecydowana większość danych jest skupiona wokół średniej 5,67. Są to dane o wartościach 4, 5, 6, 7 i różnią się one od średniej o mniej niż 2, zatem odchylenie standardowe jest mniejsze od 2 i może wynosić około 1,75. Sprawdzając wynik za pomocą programu, otrzymujemy odchylenie standardowe równe 1,97.13. Ponieważ wszystkie dane z tego zestawu są 10 razy większe od odpowiednich danych z przykładu 5, więc średnia arytmetyczna i odchylenie standardowe będą też 10 razy większe.
14. Można zmienić 8 danych zaznaczonych kolorem zielonym:
10 20 20 30 30 30 40 40 40 40 50 50 50 50 50 60 60 60 60 40 30 70 70 70 70 70 20 20 80 80 80 80 20 10 10 10.15. a) Na diagramach A, B, C średnia arytmetyczna jest równa 4,5, na diagramie D średnia arytmetyczna wynosi 5,5.
b) na diagramie A odchylenie standardowe jest najmniejsze i wynosi 1,8, na diagramie C jest największe i wynosi 2,69.16. Przykładowy zestaw danych:
1 2 3 3 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 7 7 8 917.
18. Należy zmiennej "l_d", oznaczającej liczbę danych, nadać wartość 30 oraz do tablicy "t" wprowadzić dane z przykładu 2: 49,64,57,61,40,73,59,54,50,61,60,70,79,74,65,55,52,45,58,61,51,47,58,71,66,55,62,57,69,65. Po uruchomieniu programu otrzymamy następujące wyniki: