Rozkład Chi 2. „chi-kwadrat” w zagadnieniach statystycznej analizy danych

Rozkłady Pearsona (chi-kwadrat), Studenta i Fishera

Korzystając z rozkładu normalnego, zdefiniowano trzy rozkłady, które są obecnie często stosowane w przetwarzaniu danych statystycznych. Rozkłady te pojawiają się wielokrotnie w późniejszych partiach książki.

Rozkład Pearsona (chi – kwadrat) – rozkład zmiennej losowej

gdzie są zmienne losowe X 1 , X 2 ,…, Xn niezależne i mają ten sam rozkład N(0,1). W tym przypadku liczba terminów, tj. N, nazywana jest „liczbą stopni swobody” rozkładu chi-kwadrat.

Rozkład chi-kwadrat stosowany jest przy szacowaniu wariancji (za pomocą przedziału ufności), przy testowaniu hipotez zgodności, jednorodności, niezależności, przede wszystkim dla zmiennych jakościowych (skategoryzowanych), które przyjmują skończoną liczbę wartości oraz w wielu innych zadaniach danych statystycznych analiza.

Dystrybucja T T Studenta jest rozkładem zmiennej losowej

gdzie są zmienne losowe U I X niezależny, U ma standardowy rozkład normalny N(0,1) i X– rozkład chi – kwadrat c N stopnie swobody. W której N nazywana jest „liczbą stopni swobody” rozkładu Studenta.

Dystrybucję studencką wprowadził w 1908 roku angielski statystyk W. Gosset, który pracował w fabryce piwa. W tej fabryce przy podejmowaniu decyzji ekonomicznych i technicznych stosowano metody probabilistyczne i statystyczne, dlatego jej kierownictwo zabroniło V. Gossetowi publikowania artykułów naukowych pod własnym nazwiskiem. W ten sposób chroniono tajemnice przedsiębiorstwa oraz „know-how” w postaci metod probabilistycznych i statystycznych opracowanych przez V. Gosseta. Miał jednak okazję publikować pod pseudonimem „Student”. Historia Gosset-Student pokazuje, że już sto lat temu menedżerowie w Wielkiej Brytanii zdawali sobie sprawę z większej efektywności ekonomicznej metod probabilistyczno-statystycznych.

Obecnie rozkład Studenta jest jednym z najbardziej znanych rozkładów stosowanych w analizie danych rzeczywistych. Stosuje się go przy szacowaniu oczekiwań matematycznych, wartości prognozy i innych cech za pomocą przedziałów ufności, testowaniu hipotez o wartości oczekiwań matematycznych, współczynnikach regresji, hipotezach o jednorodności próbki itp. .

Rozkład Fishera to rozkład zmiennej losowej

gdzie są zmienne losowe X 1 I X2 są niezależne i mają rozkład chi-kwadrat z liczbą stopni swobody k 1 I k 2 odpowiednio. W tym samym czasie para (k 1 , k 2 ) – parę „stopni swobody” rozkładu Fishera, czyli: k 1 jest liczbą stopni swobody licznika, oraz k 2 – liczba stopni swobody mianownika. Rozkład zmiennej losowej F nazwany na cześć wielkiego angielskiego statystyka R. Fishera (1890-1962), który aktywnie wykorzystywał go w swoich pracach.

Rozkład Fishera wykorzystuje się przy testowaniu hipotez o adekwatności modelu w analizie regresji, równości wariancji i innych zagadnieniach statystyki stosowanej.

Wyrażenia dla funkcji rozkładu chi-kwadrat, Studenta i Fishera, ich gęstości i charakterystyki, a także tabele niezbędne do ich praktycznego zastosowania można znaleźć w literaturze specjalistycznej (patrz na przykład).

Niech U 1, U 2, ..,U k będą niezależnymi standardowymi wartościami normalnymi. Rozkład zmiennej losowej K = U 1 2 +U 2 2 + .. + U k 2 nazywany jest rozkładem chi-kwadrat z k stopnie swobody (zapisz K~χ 2 (k)). Jest to rozkład jednomodalny o dodatniej skośności i charakteryzujący się: modą M=k-2 oczekiwaniem matematycznym m=k wariancją D=2k (rys.). Przy wystarczająco dużej wartości parametru k rozkład χ 2 (k) ma w przybliżeniu rozkład normalny z parametrami

Przy rozwiązywaniu problemów statystyki matematycznej wykorzystuje się punkty krytyczne χ 2 (k) w zależności od zadanego prawdopodobieństwa α i liczby stopni swobody k(Załącznik 2). Punkt krytyczny Χ 2 kr = Χ 2 (k; α) jest granicą obszaru, na prawo od którego leży 100- α % powierzchni pod krzywą gęstości rozkładu. Prawdopodobieństwo, że wartość zmiennej losowej K~χ 2 (k) podczas badania spadnie na prawo od punktu χ 2 (k) nie przekracza α P(K≥χ 2 kp)≤ α). Przykładowo dla zmiennej losowej K~χ 2 (20) ustalamy prawdopodobieństwo α=0,05. Korzystając z tabeli punktów krytycznych rozkładu chi-kwadrat (tablice), znajdujemy χ 2 kp = χ 2 (20;0,05) = 31,4. Oznacza to, że prawdopodobieństwo tej zmiennej losowej K przyjąć wartość większą niż 31,4, mniejszą niż 0,05 (ryc.).

Ryż. Wykres gęstości rozkładu χ 2 (k) dla różnych wartości liczby stopni swobody k

Punkty krytyczne χ 2 (k) wykorzystywane są w następujących kalkulatorach:

  1. Sprawdzanie obecności wielowspółliniowości (o wielowspółliniowości).
Testowanie hipotezy za pomocą Chi-kwadrat da jedynie odpowiedź na pytanie „czy istnieje związek?”, potrzebne są dalsze badania, aby sprawdzić kierunek zależności. Co więcej, test Chi-kwadrat ma pewien błąd podczas pracy z danymi o niskiej częstotliwości.

Dlatego do sprawdzenia kierunku powiązania wybiera się analizę korelacji, w szczególności weryfikację hipotezy z wykorzystaniem współczynnika korelacji Pearsona z dalszym badaniem istotności za pomocą testu t.

Dla dowolnej wartości poziomu istotności α Χ 2 można znaleźć za pomocą funkcji MS Excel: =HI2OBR(α;stopnie swobody)

n-1 .995 .990 .975 .950 .900 .750 .500 .250 .100 .050 .025 .010 .005
1 0.00004 0.00016 0.00098 0.00393 0.01579 0.10153 0.45494 1.32330 2.70554 3.84146 5.02389 6.63490 7.87944
2 0.01003 0.02010 0.05064 0.10259 0.21072 0.57536 1.38629 2.77259 4.60517 5.99146 7.37776 9.21034 10.59663
3 0.07172 0.11483 0.21580 0.35185 0.58437 1.21253 2.36597 4.10834 6.25139 7.81473 9.34840 11.34487 12.83816
4 0.20699 0.29711 0.48442 0.71072 1.06362 1.92256 3.35669 5.38527 7.77944 9.48773 11.14329 13.27670 14.86026
5 0.41174 0.55430 0.83121 1.14548 1.61031 2.67460 4.35146 6.62568 9.23636 11.07050 12.83250 15.08627 16.74960
6 0.67573 0.87209 1.23734 1.63538 2.20413 3.45460 5.34812 7.84080 10.64464 12.59159 14.44938 16.81189 18.54758
7 0.98926 1.23904 1.68987 2.16735 2.83311 4.25485 6.34581 9.03715 12.01704 14.06714 16.01276 18.47531 20.27774
8 1.34441 1.64650 2.17973 2.73264 3.48954 5.07064 7.34412 10.21885 13.36157 15.50731 17.53455 20.09024 21.95495
9 1.73493 2.08790 2.70039 3.32511 4.16816 5.89883 8.34283 11.38875 14.68366 16.91898 19.02277 21.66599 23.58935
10 2.15586 2.55821 3.24697 3.94030 4.86518 6.73720 9.34182 12.54886 15.98718 18.30704 20.48318 23.20925 25.18818
11 2.60322 3.05348 3.81575 4.57481 5.57778 7.58414 10.34100 13.70069 17.27501 19.67514 21.92005 24.72497 26.75685
12 3.07382 3.57057 4.40379 5.22603 6.30380 8.43842 11.34032 14.84540 18.54935 21.02607 23.33666 26.21697 28.29952
13 3.56503 4.10692 5.00875 5.89186 7.04150 9.29907 12.33976 15.98391 19.81193 22.36203 24.73560 27.68825 29.81947
14 4.07467 4.66043 5.62873 6.57063 7.78953 10.16531 13.33927 17.11693 21.06414 23.68479 26.11895 29.14124 31.31935
15 4.60092 5.22935 6.26214 7.26094 8.54676 11.03654 14.33886 18.24509 22.30713 24.99579 27.48839 30.57791 32.80132
16 5.14221 5.81221 6.90766 7.96165 9.31224 11.91222 15.33850 19.36886 23.54183 26.29623 28.84535 31.99993 34.26719
17 5.69722 6.40776 7.56419 8.67176 10.08519 12.79193 16.33818 20.48868 24.76904 27.58711 30.19101 33.40866 35.71847
18 6.26480 7.01491 8.23075 9.39046 10.86494 13.67529 17.33790 21.60489 25.98942 28.86930 31.52638 34.80531 37.15645
19 6.84397 7.63273 8.90652 10.11701 11.65091 14.56200 18.33765 22.71781 27.20357 30.14353 32.85233 36.19087 38.58226
20 7.43384 8.26040 9.59078 10.85081 12.44261 15.45177 19.33743 23.82769 28.41198 31.41043 34.16961 37.56623 39.99685
21 8.03365 8.89720 10.28290 11.59131 13.23960 16.34438 20.33723 24.93478 29.61509 32.67057 35.47888 38.93217 41.40106
22 8.64272 9.54249 10.98232 12.33801 14.04149 17.23962 21.33704 26.03927 30.81328 33.92444 36.78071 40.28936 42.79565
23 9.26042 10.19572 11.68855 13.09051 14.84796 18.13730 22.33688 27.14134 32.00690 35.17246 38.07563 41.63840 44.18128
24 9.88623 10.85636 12.40115 13.84843 15.65868 19.03725 23.33673 28.24115 33.19624 36.41503 39.36408 42.97982 45.55851
25 10.51965 11.52398 13.11972 14.61141 16.47341 19.93934 24.33659 29.33885 34.38159 37.65248 40.64647 44.31410 46.92789
26 11.16024 12.19815 13.84390 15.37916 17.29188 20.84343 25.33646 30.43457 35.56317 38.88514 41.92317 45.64168 48.28988
27 11.80759 12.87850 14.57338 16.15140 18.11390 21.74940 26.33634 31.52841 36.74122 40.11327 43.19451 46.96294 49.64492
28 12.46134 13.56471 15.30786 16.92788 18.93924 22.65716 27.33623 32.62049 37.91592 41.33714 44.46079 48.27824 50.99338
29 13.12115 14.25645 16.04707 17.70837 19.76774 23.56659 28.33613 33.71091 39.08747 42.55697 45.72229 49.58788 52.33562
30 13.78672 14.95346 16.79077 18.49266 20.59923 24.47761 29.33603 34.79974 40.25602 43.77297 46.97924 50.89218 53.67196
Liczba stopni swobody k Poziom istotności a
0,01 0,025 0.05 0,95 0,975 0.99
1 6.6 5.0 3.8 0.0039 0.00098 0.00016
2 9.2 7.4 6.0 0.103 0.051 0.020
3 11.3 9.4 7.8 0.352 0.216 0.115
4 13.3 11.1 9.5 0.711 0.484 0.297
5 15.1 12.8 11.1 1.15 0.831 0.554
6 16.8 14.4 12.6 1.64 1.24 0.872
7 18.5 16.0 14.1 2.17 1.69 1.24
8 20.1 17.5 15.5 2.73 2.18 1.65
9 21.7 19.0 16.9 3.33 2.70 2.09
10 23.2 20.5 18.3 3.94 3.25 2.56
11 24.7 21.9 19.7 4.57 3.82 3.05
12 26.2 23.3 21 .0 5.23 4.40 3.57
13 27.7 24.7 22.4 5.89 5.01 4.11
14 29.1 26.1 23.7 6.57 5.63 4.66
15 30.6 27.5 25.0 7.26 6.26 5.23
16 32.0 28.8 26.3 7.96 6.91 5.81
17 33.4 30.2 27.6 8.67 7.56 6.41
18 34.8 31.5 28.9 9.39 8.23 7.01
19 36.2 32.9 30.1 10.1 8.91 7.63
20 37.6 34.2 31.4 10.9 9.59 8.26
21 38.9 35.5 32.7 11.6 10.3 8.90
22 40.3 36.8 33.9 12.3 11.0 9.54
23 41.6 38.1 35.2 13.1 11.7 10.2
24 43.0 39.4 36.4 13.8 12.4 10.9
25 44.3 40.6 37.7 14.6 13.1 11.5
26 45.6 41.9 38.9 15.4 13.8 12.2
27 47.0 43.2 40.1 16.2 14.6 12.9
28 48.3 44.5 41.3 16.9 15.3 13.6
29 49.6 45.7 42.6 17.7 16.0 14.3
30 50.9 47.0 43.8 18.5 16.8 15.0

Test chi-kwadrat jest uniwersalną metodą sprawdzania zgodności wyników eksperymentu z zastosowanym modelem statystycznym.

Odległość Pearsona X 2

Piatnicki A.M.

Rosyjski Państwowy Uniwersytet Medyczny

W 1900 roku Karl Pearson zaproponował prosty, uniwersalny i skuteczny sposób sprawdzenia zgodności przewidywań modelu z danymi eksperymentalnymi. Zaproponowany przez niego „test chi-kwadrat” jest najważniejszym i najczęściej stosowanym testem statystycznym. Za jego pomocą można rozwiązać większość problemów związanych z estymacją nieznanych parametrów modelu i sprawdzeniem zgodności modelu z danymi eksperymentalnymi.

Niech istnieje aprioryczny („przedeksperymentalny”) model badanego obiektu lub procesu (w statystyce mówi się o „hipotezie zerowej” H 0) oraz wyniki eksperymentu z tym obiektem. Należy ocenić, czy model jest adekwatny (czy odpowiada rzeczywistości)? Czy wyniki eksperymentów zaprzeczają naszym wyobrażeniom o tym, jak działa rzeczywistość, czy innymi słowy, czy H0 należy odrzucić? Często zadanie to można sprowadzić do porównania zaobserwowanej (O i = Observed) i oczekiwanej zgodnie z modelem (E i = oczekiwana) średniej częstotliwości występowania określonych zdarzeń. Uważa się, że zaobserwowane częstotliwości uzyskano w serii N niezależnych (!) obserwacji przeprowadzonych w stałych (!) warunkach. W wyniku każdej obserwacji rejestrowane jest jedno z M zdarzeń. Zdarzenia te nie mogą wystąpić jednocześnie (są niekompatybilne parami) i jedno z nich koniecznie zachodzi (ich kombinacja tworzy zdarzenie wiarygodne). Całość obserwacji sprowadza się do tabeli (wektora) częstości (O i )=(O 1 ,… O M ), która w pełni opisuje wyniki eksperymentu. Wartość O 2 = 4 oznacza, że ​​zdarzenie nr 2 wystąpiło 4 razy. Suma częstotliwości O 1 +… O M =N. Należy rozróżnić dwa przypadki: N – stały, nielosowy, N – zmienny losowy. Dla ustalonej całkowitej liczby eksperymentów N częstości mają rozkład wielomianowy. Zilustrujmy ten ogólny schemat prostym przykładem.

Stosowanie testu chi-kwadrat do testowania prostych hipotez.

Niech model (hipoteza zerowa H 0) będzie taki, że kostka jest sprawiedliwa - wszystkie ścianki pojawiają się jednakowo często z prawdopodobieństwem p i =1/6, i =, M=6. Przeprowadzono doświadczenie, w którym rzucono 60 razy kostką (przeprowadzono N = 60 niezależnych prób). Zgodnie z modelem oczekujemy, że wszystkie zaobserwowane częstotliwości O i występowania 1,2,... 6 punktów powinny być zbliżone do ich wartości średnich E i =Np i =60∙(1/6)=10. Według H 0 wektor częstotliwości średnich (E i )=(Np i )=(10, 10, 10, 10, 10, 10). (Hipotezy, w których średnie częstości są całkowicie znane przed rozpoczęciem eksperymentu, nazywane są prostymi.) Jeśli obserwowany wektor (O i ) był równy (34,0,0,0,0,26), to natychmiast jasne, że model jest błędny - kość nie może być poprawna, ponieważ 60 razy wyrzucono tylko 1 i 6. Prawdopodobieństwo takiego zdarzenia dla prawidłowych kostek jest znikome: P = (2/6) 60 =2,4*10 -29. Jednak pojawienie się tak oczywistych rozbieżności pomiędzy modelem a doświadczeniem jest wyjątkiem. Niech wektor obserwowanych częstotliwości (O i ) będzie równy (5, 15, 6, 14, 4, 16). Czy jest to zgodne z H0? Musimy więc porównać dwa wektory częstotliwości (E i) i (O i). W tym przypadku wektor częstości oczekiwanych (Ei) nie jest losowy, ale wektor częstości obserwowanych (Oi) jest losowy – w kolejnym eksperymencie (w nowej serii 60 rzutów) okaże się inny. Warto wprowadzić interpretację geometryczną problemu i założyć, że w przestrzeni częstotliwości (w tym przypadku 6-wymiarowej) dane są dwa punkty o współrzędnych (5, 15, 6, 14, 4, 16) i (10, 10, 10, 10, 10, 10). Czy są one wystarczająco daleko od siebie, aby uznać to za niezgodne z H 0? Innymi słowy potrzebujemy:

  1. nauczyć się mierzyć odległości pomiędzy częstotliwościami (punktami w przestrzeni częstotliwości),
  2. mają kryterium określające, jaką odległość należy uznać za zbyt („nieprawdopodobnie”) dużą, czyli niezgodną z H 0 .

Kwadrat zwykłej odległości euklidesowej będzie równy:

X 2 Euklides = S(O i -E ja) 2 = (5-10) 2 +(15-10) 2 + (6-10) 2 +(14-10) 2 +(4-10) 2 +(16-10) 2

W tym przypadku powierzchnie X 2 Euclid = const są zawsze kulami, jeśli ustalimy wartości E i zmienimy O i . Karl Pearson zauważył, że nie należy stosować odległości euklidesowej w przestrzeni częstotliwości. Błędem jest zatem założenie, że punkty (O = 1030 i E = 1000) oraz (O = 40 i E = 10) znajdują się w równych odległościach od siebie, chociaż w obu przypadkach różnica wynosi O -E = 30. Przecież im wyższa jest oczekiwana częstotliwość, tym większe odchylenia od niej należy uznać za możliwe. Zatem punkty (O =1030 i E =1000) należy uznać za „bliskie”, a punkty (O =40 i E =10) za „dalekie” od siebie. Można wykazać, że jeśli hipoteza H 0 jest prawdziwa, to fluktuacje częstotliwości O i względem E i są rzędu pierwiastka kwadratowego (!) z E i . Dlatego Pearson zaproponował przy obliczaniu odległości kwadraturę nie różnic (O i -E i), ale znormalizowanych różnic (O i -E i)/E i 1/2. Oto wzór na obliczenie odległości Pearsona (w rzeczywistości jest to kwadrat odległości):

X2 Pearsona = S((O i -E ja )/E ja 1/2) 2 = S(O i -E i ) 2 /E i

W naszym przykładzie:

X 2 Pearson = (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+( 16-10) 2 /10=15,4

Dla zwykłej kostki wszystkie oczekiwane częstotliwości E i są takie same, ale zazwyczaj są różne, więc powierzchnie, na których odległość Pearsona jest stała (X 2 Pearson = const) okazują się elipsoidami, a nie kulami.

Teraz, gdy wzór na obliczanie odległości został już wybrany, należy dowiedzieć się, które odległości należy uznać za „nie za duże” (zgodne z H 0), a co możemy powiedzieć np. o obliczonej przez nas odległości 15,4 ? W jakim procencie przypadków (lub z jakim prawdopodobieństwem) uzyskalibyśmy odległość większą niż 15,4, przeprowadzając eksperymenty ze zwykłą kostką? Jeżeli ten odsetek jest niewielki (np.<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

Wyjaśnienie. Liczba pomiarów O i wpadająca do komórki tabeli o numerze i ma rozkład dwumianowy o parametrach: m =Np i =E i,σ =(Np i (1-p i)) 1/2, gdzie N jest liczbą pomiarów (N” 1), pi to prawdopodobieństwo, że jeden pomiar wpadnie do danej komórki (przypomnijmy, że pomiary są niezależne i przeprowadzane w stałych warunkach). Jeżeli p i jest małe, to: σ≈(Np i ) 1/2 =E i i rozkład dwumianowy jest bliski Poissona, w którym średnia liczba obserwacji E i =λ, a odchylenie standardowe σ=λ 1/2 = mi 1/2. Dla λ≥5 rozkład Poissona jest zbliżony do normalnego N (m =E i =λ, σ=E i 1/2 =λ 1/2) i wartości znormalizowanej (O i - E i )/E i 1 /2 ≈ N (0,1).

Pearson zdefiniował zmienną losową χ 2 n – „chi-kwadrat z n stopniami swobody”, jako sumę kwadratów n niezależnych standardowych normalnych zmiennych losowych:

χ 2 n = T 1 2 + T 2 2 + …+ T n 2 , gdzie są wszyscy T ja = N(0,1) - N. O. R. Z. V.

Spróbujmy jasno zrozumieć znaczenie tej najważniejszej zmiennej losowej w statystyce. W tym celu na płaszczyźnie (przy n = 2) lub w przestrzeni (przy n = 3) prezentujemy chmurę punktów, których współrzędne są niezależne i mają standardowy rozkład normalnyf T (x) ~exp (-x 2 /2 ). Na płaszczyźnie, zgodnie z zasadą „dwóch sigma”, którą stosuje się niezależnie do obu współrzędnych, 90% (0,95*0,95≈0,90) punktów mieści się w kwadracie (-2

f χ 2 2 (a) = Сexp(-a/2) = 0,5exp(-a/2).

Przy dostatecznie dużej liczbie stopni swobody n (n > 30) rozkład chi-kwadrat zbliża się do normalnego: N (m = n; σ = (2n) ½). Jest to konsekwencja „centralnego twierdzenia granicznego”: suma wielkości o jednakowym rozkładzie i skończonej wariancji zbliża się do prawa normalnego w miarę wzrostu liczby wyrazów.

W praktyce trzeba pamiętać, że średni kwadrat odległości wynosi m (χ 2 n) = n, a jej wariancja wynosi σ 2 (χ 2 n) = 2n. Stąd łatwo wywnioskować, które wartości chi-kwadrat należy uznać za zbyt małe, a które za duże: większość rozkładu mieści się w przedziale od n -2∙(2n) ½ do n +2∙(2n) ½.

Zatem odległości Pearsona znacznie przekraczające n +2∙ (2n) ½ należy uznać za nieprawdopodobnie duże (niezgodne z H 0). Jeśli wynik jest bliski n +2∙(2n) ½, to należy skorzystać z tabel, w których można dokładnie dowiedzieć się, w jakiej proporcji przypadków mogą pojawić się takie duże wartości chi-kwadrat.

Ważne jest, aby wiedzieć, jak wybrać odpowiednią wartość liczby stopni swobody (w skrócie n.d.f.). Naturalne wydawało się założenie, że n jest po prostu równe liczbie cyfr: n = M. W swoim artykule Pearson to zasugerował. W przykładzie z kostką oznaczałoby to, że n = 6. Jednak kilka lat później okazało się, że Pearson się mylił. Liczba stopni swobody jest zawsze mniejsza od liczby cyfr, jeśli pomiędzy zmiennymi losowymi O i istnieją powiązania. W przykładzie z kostką suma O i wynosi 60, a tylko 5 częstotliwości można zmienić niezależnie, więc poprawna wartość to n = 6-1 = 5. Dla tej wartości n otrzymujemy n +2∙(2n) ½ =5+2∙(10) ½ =11,3. Ponieważ 15,4>11,3, to hipotezę H 0 – kostka jest prawidłowa, należy odrzucić.

Po wyjaśnieniu błędu należało uzupełnić istniejące tablice χ 2, gdyż początkowo nie było w nich przypadku n = 1, gdyż najmniejsza liczba cyfr = 2. Teraz okazuje się, że mogą zaistnieć przypadki, gdy odległość Pearsona ma rozkład χ 2 n =1.

Przykład. Przy 100 rzutach monetą liczba orłów wynosi O 1 = 65, a reszek O 2 = 35. Liczba cyfr wynosi M = 2. Jeżeli moneta jest symetryczna, to oczekiwane częstotliwości wynoszą E 1 =50, E 2 =50.

X2 Pearsona = S(O i -E i) 2 /E i = (65-50) 2 /50 + (35-50) 2 /50 = 2*225/50 = 9.

Otrzymaną wartość należy porównać z tymi, które może przyjąć zmienna losowa χ 2 n =1, zdefiniowanymi jako kwadrat standardowej wartości normalnej χ 2 n =1 =T 1 2 ≥ 9 ó T 1 ≥3 lub T 1 ≤-3. Prawdopodobieństwo takiego zdarzenia jest bardzo niskie P (χ 2 n =1 ≥9) = 0,006. Dlatego monety nie można uznać za symetryczną: H 0 należy odrzucić. O tym, że liczba stopni swobody nie może być równa liczbie cyfr, świadczy fakt, że suma obserwowanych częstotliwości jest zawsze równa sumie oczekiwanych, np. O 1 +O 2 =65+ 35 = mi 1 + mi 2 =50+50=100. Zatem losowe punkty o współrzędnych O 1 i O 2 leżą na linii prostej: O 1 + O 2 =E 1 +E 2 =100 i odległość do środka okazuje się mniejsza niż gdyby tego ograniczenia nie było i znajdowały się na całej płaszczyźnie. Rzeczywiście, dla dwóch niezależnych zmiennych losowych z oczekiwaniami matematycznymi E 1 =50, E 2 =50, suma ich realizacji nie zawsze powinna być równa 100 - przykładowo wartości O 1 =60, O 2 =55 być akceptowalnym.

Wyjaśnienie. Porównajmy wynik kryterium Pearsona przy M = 2 z tym, co daje wzór Moivre'a-Laplace'a przy szacowaniu losowych wahań częstotliwości występowania zdarzenia ν =K /N z prawdopodobieństwem p w szeregu N niezależnych testów Bernoulliego ( K to liczba sukcesów):

χ 2 n = 1 = S(O i -E i) 2 /E ja = (O 1 -E 1) 2 /E 1 + (O 2 -E 2) 2 /E 2 = (Nν -Np) 2 /(Np) + (N ( 1-ν )-N (1-p )) 2 /(N (1-p ))=

=(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = T 2

Wartość T =(K -Np)/(Npq) ½ = (K -m (K))/σ(K) ≈N (0,1) przy σ(K)=(Npq) ½ ≥3. Widzimy, że w tym przypadku wynik Pearsona dokładnie pokrywa się z tym, co daje przybliżenie normalne dla rozkładu dwumianowego.

Do tej pory rozważaliśmy proste hipotezy, dla których oczekiwane średnie częstotliwości E i są z góry znane. Informacje na temat wyboru właściwej liczby stopni swobody dla złożonych hipotez znajdują się poniżej.

Stosowanie testu chi-kwadrat do testowania złożonych hipotez

W przykładach ze zwykłą kostką i monetą oczekiwane częstotliwości można było wyznaczyć przed (!) eksperymentem. Hipotezy takie nazywane są „prostymi”. W praktyce częściej spotykane są „hipotezy złożone”. Ponadto, aby znaleźć oczekiwane częstotliwości E i, należy najpierw oszacować jedną lub kilka wielkości (parametrów modelu), a można tego dokonać jedynie na podstawie danych eksperymentalnych. W rezultacie dla „hipotez złożonych” częstości oczekiwane E i okazują się zależeć od obserwowanych częstości O i, a zatem same stają się zmiennymi losowymi zmieniającymi się w zależności od wyników eksperymentu. W procesie doboru parametrów odległość Pearsona maleje – parametry dobiera się tak, aby poprawić zgodność modelu z eksperymentem. Dlatego liczba stopni swobody powinna się zmniejszać.

Jak oszacować parametry modelu? Istnieje wiele różnych metod estymacji – „metoda największej wiarygodności”, „metoda momentów”, „metoda podstawienia”. Nie można jednak wykorzystać żadnych dodatkowych środków i znaleźć oszacowań parametrów poprzez minimalizację odległości Pearsona. W erze przedkomputerowej podejście to było rzadko stosowane: jest niewygodne w przypadku obliczeń ręcznych i z reguły nie można go rozwiązać analitycznie. Przy obliczeniach na komputerze minimalizacja numeryczna jest zazwyczaj łatwa do przeprowadzenia, a zaletą tej metody jest jej uniwersalność. Zatem zgodnie z „metodą minimalizacji chi-kwadrat” dobieramy wartości nieznanych parametrów tak, aby odległość Pearsona stała się najmniejsza. (Nawiasem mówiąc, badając zmiany tej odległości przy małych przemieszczeniach w stosunku do znalezionego minimum, możesz oszacować miarę dokładności oszacowania: skonstruować przedziały ufności.) Po znalezieniu parametrów i samej odległości minimalnej jest to ponownie trzeba odpowiedzieć na pytanie, czy jest on wystarczająco mały.

Ogólna sekwencja działań jest następująca:

  1. Wybór modelu (hipoteza H 0).
  2. Dobór cyfr i wyznaczenie wektora obserwowanych częstotliwości O i .
  3. Estymacja nieznanych parametrów modelu i konstrukcja dla nich przedziałów ufności (np. poprzez poszukiwanie minimalnej odległości Pearsona).
  4. Obliczanie oczekiwanych częstotliwości E i .
  5. Porównanie znalezionej wartości odległości Pearsona X 2 z wartością krytyczną chi-kwadrat χ 2 crit - największą, która nadal jest uważana za wiarygodną, ​​zgodną z H 0. Wartość χ 2 crit znajdujemy z tabel, rozwiązując równanie

P (χ 2 n > χ 2 kryt)=1-α,

gdzie α oznacza „poziom istotności” lub „wielkość kryterium” lub „wielkość błędu pierwszego rodzaju” (typowa wartość α = 0,05).

Zwykle liczbę stopni swobody n oblicza się ze wzoru

n = (liczba cyfr) – 1 – (liczba parametrów do oszacowania)

Jeżeli X 2 > χ 2 kryty, to hipoteza H 0 zostaje odrzucona, w przeciwnym razie zostaje przyjęta. W α∙100% przypadków (czyli dość rzadko) taki sposób sprawdzania H 0 doprowadzi do „błędu pierwszego rodzaju”: hipoteza H 0 zostanie błędnie odrzucona.

Przykład. Badając 10 serii po 100 nasion, policzono liczbę zarażonych muchówek zielonookich. Otrzymane dane: O i =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

Tutaj wektor oczekiwanych częstotliwości jest z góry nieznany. Jeśli dane są jednorodne i uzyskane dla rozkładu dwumianowego, wówczas nieznany jest jeden parametr: proporcja p zakażonych nasion. Należy zauważyć, że w oryginalnej tabeli tak naprawdę nie jest 10, ale 20 częstotliwości, które spełniają 10 połączeń: 16+84=100, ... 21+79=100.

X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+…+

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

Łącząc terminy w pary (jak w przykładzie z monetą) otrzymujemy postać zapisu kryterium Pearsona, które zwykle zapisuje się natychmiast:

X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)).

Jeśli teraz jako metodę estymacji p zastosujemy minimalną odległość Pearsona, to konieczne jest znalezienie p, dla którego X 2 = min. (Model stara się, jeśli to możliwe, „dopasować” do danych eksperymentalnych.)

Kryterium Pearsona jest najbardziej uniwersalnym ze wszystkich stosowanych w statystyce. Można go zastosować do danych jednowymiarowych i wielowymiarowych, cech ilościowych i jakościowych. Jednak właśnie ze względu na jego uniwersalność należy uważać, aby nie popełnić błędu.

Ważne punkty

1.Wybór kategorii.

  • Jeśli rozkład jest dyskretny, wówczas zwykle nie ma arbitralności w wyborze cyfr.
  • Jeśli dystrybucja jest ciągła, arbitralność jest nieunikniona. Można zastosować statystycznie równoważne bloki (wszystkie O są takie same, na przykład =10). Różnią się jednak długością odstępów. Wykonując obliczenia ręczne, starali się, aby odstępy były takie same. Czy odstępy przy badaniu rozkładu cechy jednowymiarowej powinny być równe? NIE.
  • Cyfry należy tak połączyć, aby oczekiwane (a nie zaobserwowane!) częstotliwości nie były zbyt małe (≥5). Przypomnijmy, że to one (E i) są w mianownikach przy obliczaniu X 2! Analizując cechy jednowymiarowe, można złamać tę zasadę w dwóch skrajnych cyfrach E 1 =E max =1. Jeśli liczba cyfr jest duża, a oczekiwane częstotliwości są bliskie, wówczas X 2 jest dobrym przybliżeniem χ 2 nawet dla E i =2.

Oszacowanie parametrów. Stosowanie „domowych”, nieefektywnych metod estymacji może prowadzić do zawyżonych wartości odległości Pearsona.

Wybór odpowiedniej liczby stopni swobody. Jeśli estymacji parametrów dokonuje się nie na podstawie częstotliwości, ale bezpośrednio na podstawie danych (na przykład za estymację średniej przyjmuje się średnią arytmetyczną), to dokładna liczba stopni swobody n jest nieznana. Wiemy tylko, że spełnia nierówność:

(liczba cyfr – 1 – liczba ocenianych parametrów)< n < (число разрядов – 1)

Dlatego konieczne jest porównanie X 2 z wartościami krytycznymi χ 2 crit obliczonymi w tym zakresie n.

Jak interpretować nieprawdopodobnie małe wartości chi-kwadrat? Czy monetę należy uznać za symetryczną, jeśli po 10 000 rzutów wyląduje na herbie 5000 razy? Wcześniej wielu statystyków uważało, że H 0 również należy odrzucić. Teraz proponowane jest inne podejście: przyjąć H 0, ale poddać dane i metodologię ich analizy dodatkowej weryfikacji. Możliwości są dwie: albo zbyt mała odległość Pearsona oznacza, że ​​zwiększeniu liczby parametrów modelu nie towarzyszyło odpowiednie zmniejszenie liczby stopni swobody, albo same dane zostały sfałszowane (być może niezamierzenie dostosowane do oczekiwanego wyniku).

Przykład. Dwóch badaczy A i B obliczyło proporcję recesywnych homozygot aa w drugiej generacji krzyżówki monohybrydowej AA*aa. Zgodnie z prawami Mendla ułamek ten wynosi 0,25. Każdy badacz przeprowadził 5 eksperymentów, w każdym eksperymencie badano 100 organizmów.

Wyniki A: 25, 24, 26, 25, 24. Wniosek badacza: Prawo Mendla jest prawdziwe(?).

Wyniki B: 29, 21, 23, 30, 19. Konkluzja badacza: Prawo Mendla nie jest sprawiedliwe(?).

Prawo Mendla ma jednak charakter statystyczny i analiza ilościowa wyników odwraca wnioski! Łącząc pięć eksperymentów w jeden, otrzymujemy rozkład chi-kwadrat z 5 stopniami swobody (testowana jest prosta hipoteza):

X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0,25∙0,75)=0,16

X 2 B = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0,25∙0,75)=5,17

Wartość średnia m [χ 2 n =5 ]=5, odchylenie standardowe σ[χ 2 n =5 ]=(2∙5) 1/2 =3,2.

Zatem bez odwoływania się do tabel jasne jest, że wartość X 2 B jest typowa, a wartość X 2 A jest nieprawdopodobnie mała. Według tablic P (χ 2 n =5<0.16)<0.0001.

Przykład ten jest adaptacją prawdziwego przypadku, który miał miejsce w latach trzydziestych XX wieku (patrz praca Kołmogorowa „O kolejnym dowodzie praw Mendla”). Co ciekawe, Badacz A był zwolennikiem genetyki, podczas gdy Badacz B był jej przeciwny.

Zamieszanie w zapisie. Należy odróżnić odległość Pearsona, która wymaga dodatkowych konwencji w jej obliczaniu, od matematycznego pojęcia zmiennej losowej chi-kwadrat. Odległość Pearsona w pewnych warunkach ma rozkład zbliżony do chi-kwadrat z n stopniami swobody. Dlatego wskazane jest, aby NIE oznaczać odległości Pearsona symbolem χ 2 n, ale zastosować podobny, ale inny zapis X 2. .

Kryterium Pearsona nie jest wszechmocne. Istnieje nieskończona liczba alternatyw dla H 0, których nie jest on w stanie wziąć pod uwagę. Załóżmy, że testujesz hipotezę, że cecha ma rozkład równomierny, masz 10 cyfr, a wektor obserwowanych częstotliwości jest równy (130 125 121 118 116 115 114 113 111 110). Kryterium Pearsona nie może „zauważyć”, że częstotliwości maleją monotonicznie i H 0 nie zostanie odrzucone. Gdyby dodać do tego kryterium serii, to tak!

Ministerstwo Edukacji i Nauki Federacji Rosyjskiej

Federalna Agencja Edukacji Miasta Irkuck

Bajkał Państwowy Uniwersytet Ekonomii i Prawa

Katedra Informatyki i Cybernetyki

Rozkład chi-kwadrat i jego zastosowania

Kołmykowa Anna Andreevna

Studentka drugiego roku

grupa IS-09-1

Do przetwarzania uzyskanych danych używamy testu chi-kwadrat.

W tym celu zbudujemy tabelę rozkładu częstotliwości empirycznych, tj. te częstotliwości, które obserwujemy:

Teoretycznie oczekujemy, że częstotliwości będą równomiernie rozłożone, tj. częstotliwość zostanie rozdzielona proporcjonalnie pomiędzy chłopców i dziewczęta. Zbudujmy tabelę częstości teoretycznych. Aby to zrobić, pomnóż sumę wiersza przez sumę kolumny i podziel wynikową liczbę przez całkowitą sumę (sumy).


Ostateczna tabela do obliczeń będzie wyglądać następująco:

χ2 = ∑(E - T)² / T

n = (R - 1), gdzie R jest liczbą wierszy w tabeli.

W naszym przypadku chi-kwadrat = 4,21; n = 2.

Korzystając z tabeli wartości krytycznych kryterium, znajdujemy: przy n = 2 i poziomie błędu 0,05 wartość krytyczna wynosi χ2 = 5,99.

Otrzymana wartość jest mniejsza od wartości krytycznej, co oznacza przyjęcie hipotezy zerowej.

Wniosek: nauczyciele nie przywiązują wagi do płci dziecka, pisząc dla niego cechy.

Aplikacja

Punkty krytyczne rozkładu χ2

Tabela 1

Wniosek

Studenci niemal wszystkich specjalności studiują sekcję „Teoria prawdopodobieństwa i statystyka matematyczna” na zakończenie kursu matematyki wyższej, w rzeczywistości zapoznają się jedynie z niektórymi podstawowymi pojęciami i wynikami, które wyraźnie nie wystarczą do praktycznej pracy. Studenci zapoznają się z niektórymi matematycznymi metodami badań na kursach specjalnych (np. „Prognozowanie i planowanie techniczno-ekonomiczne”, „Analiza techniczno-ekonomiczna”, „Kontrola jakości produktu”, „Marketing”, „Controlling”, „Matematyczne metody prognozowania ”)”, „Statystyka” itp. – w przypadku studentów kierunków ekonomicznych), jednak prezentacja w większości przypadków ma charakter bardzo skrótowy i schematyczny. W efekcie wiedza specjalistów statystyki stosowanej jest niewystarczająca.

Dlatego też duże znaczenie ma kierunek „Statystyka stosowana” na uczelniach technicznych, a na uczelniach ekonomicznych kierunek „Ekonometria”, gdyż ekonometria to, jak wiadomo, analiza statystyczna określonych danych ekonomicznych.

Teoria prawdopodobieństwa i statystyka matematyczna dostarczają podstawowej wiedzy z zakresu statystyki stosowanej i ekonometrii.

Są niezbędne specjalistom do pracy praktycznej.

Przyjrzałem się ciągłemu modelowi probabilistycznemu i próbowałem pokazać jego zastosowanie na przykładach.

Bibliografia

1. Orłow A.I. Statystyka stosowana. M.: Wydawnictwo „Egzamin”, 2004.

2. Gmurman V.E. Teoria prawdopodobieństwa i statystyka matematyczna. M.: Szkoła wyższa, 1999. – 479 s.

3. Ayvozyan S.A. Teoria prawdopodobieństwa i statystyka stosowana, tom 1. M.: Jedność, 2001. – 656 s.

4. Khamitov G.P., Vedernikova T.I. Prawdopodobieństwa i statystyka. Irkuck: BGUEP, 2006 – 272 s.

5. Ezhova L.N. Ekonometria. Irkuck: BGUEP, 2002. – 314 s.

6. Mosteller F. Pięćdziesiąt zabawnych problemów probabilistycznych z rozwiązaniami. M.: Nauka, 1975. – 111 s.

7. Mosteller F. Prawdopodobieństwo. M.: Mir, 1969. – 428 s.

8. Yaglom A.M. Prawdopodobieństwo i informacja. M.: Nauka, 1973. – 511 s.

9. Chistyakov V.P. Kurs teorii prawdopodobieństwa. M.: Nauka, 1982. – 256 s.

10. Kremer N.Sh. Teoria prawdopodobieństwa i statystyka matematyczna. M.: JEDNOŚĆ, 2000. – 543 s.

11. Encyklopedia matematyczna, tom 1. M.: Encyklopedia Radziecka, 1976. – 655 s.

12. http://psystat.at.ua/ - Statystyka w psychologii i pedagogice. Artykuł Test chi-kwadrat.

Test \(\chi^2\) („chi-kwadrat”, zwany także „testem dopasowania Pearsona”) ma niezwykle szerokie zastosowanie w statystyce. Ogólnie można powiedzieć, że służy do testowania hipotezy zerowej, że obserwowana zmienna losowa podlega pewnemu teoretycznemu prawu rozkładu (więcej szczegółów można znaleźć np.). Konkretne sformułowanie testowanej hipotezy będzie się różnić w zależności od przypadku.

W tym poście opiszę jak działa kryterium \(\chi^2\) na (hipotetycznym) przykładzie z immunologii. Wyobraźmy sobie, że przeprowadziliśmy eksperyment mający na celu określenie skuteczności hamowania rozwoju choroby drobnoustrojowej po wprowadzeniu do organizmu odpowiednich przeciwciał. W sumie w eksperymencie wzięło udział 111 myszy, które podzieliliśmy na dwie grupy, obejmujące odpowiednio 57 i 54 zwierzęta. Pierwsza grupa myszy otrzymała zastrzyki z bakterii chorobotwórczych, a następnie podano im surowicę krwi zawierającą przeciwciała przeciwko tym bakteriom. Zwierzęta z drugiej grupy służyły jako kontrola – otrzymywały jedynie zastrzyki bakteryjne. Po pewnym czasie inkubacji okazało się, że 38 myszy zmarło, a 73 przeżyły. Spośród zmarłych 13 należało do pierwszej grupy, a 25 do drugiej (kontrola). Hipotezę zerową testowaną w tym eksperymencie można sformułować następująco: podanie surowicy z przeciwciałami nie ma wpływu na przeżycie myszy. Innymi słowy, twierdzimy, że zaobserwowane różnice w przeżyciu myszy (77,2% w pierwszej grupie w porównaniu z 53,7% w drugiej grupie) są całkowicie losowe i nie są związane z działaniem przeciwciał.

Dane uzyskane w eksperymencie można przedstawić w formie tabeli:

Całkowity

Bakterie + surowica

Tylko bakterie

Całkowity

Tabele takie jak pokazana nazywane są tabelami kontyngencji. W rozpatrywanym przykładzie tabela ma wymiar 2x2: istnieją dwie klasy obiektów („Bakterie + surowica” i „Tylko bakterie”), które bada się według dwóch kryteriów („Martwe” i „Przeżyte”). Jest to najprostszy przypadek tabeli kontyngencji: oczywiście zarówno liczba badanych klas, jak i liczba cech może być większa.

Aby przetestować hipotezę zerową podaną powyżej, musimy wiedzieć, jaka byłaby sytuacja, gdyby przeciwciała faktycznie nie miały wpływu na przeżycie myszy. Innymi słowy, musisz obliczyć oczekiwane częstotliwości dla odpowiednich komórek tabeli kontyngencji. Jak to zrobić? W eksperymencie zginęło ogółem 38 myszy, co stanowi 34,2% całkowitej liczby zwierząt objętych eksperymentem. Jeżeli podanie przeciwciał nie wpływa na przeżycie myszy, to w obu grupach doświadczalnych należy zaobserwować taki sam procent śmiertelności, wynoszący 34,2%. Obliczając, ile wynosi 34,2% z 57 i 54, otrzymujemy 19,5 i 18,5. Są to oczekiwane współczynniki śmiertelności w naszych grupach eksperymentalnych. Oczekiwane wskaźniki przeżycia oblicza się w podobny sposób: ponieważ przeżyły łącznie 73 myszy, czyli 65,8% całkowitej liczby, oczekiwane wskaźniki przeżycia będą wynosić 37,5 i 35,5. Utwórzmy nową tabelę kontyngencji, teraz z oczekiwanymi częstotliwościami:

Martwy

Ocalali

Całkowity

Bakterie + surowica

Tylko bakterie

Całkowity

Jak widać, oczekiwane częstotliwości znacznie różnią się od obserwowanych, tj. wydaje się, że podawanie przeciwciał ma wpływ na przeżycie myszy zakażonych patogenem. Możemy określić ilościowo to wrażenie za pomocą testu dobroci dopasowania Pearsona \(\chi^2\):

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


gdzie \(f_o\) i \(f_e\) to odpowiednio obserwowane i oczekiwane częstotliwości. Sumowanie odbywa się po wszystkich komórkach tabeli. Tak więc dla rozważanego przykładu mamy

\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18,5 + (29 – 35,5)^2/35,5 = \]

Czy wynikowa wartość \(\chi^2\) jest wystarczająco duża, aby odrzucić hipotezę zerową? Aby odpowiedzieć na to pytanie, należy znaleźć odpowiednią wartość krytyczną kryterium. Liczbę stopni swobody dla \(\chi^2\) oblicza się jako \(df = (R - 1)(C - 1)\), gdzie \(R\) i \(C\) są liczbą wierszy i kolumn w koniugacji tabeli. W naszym przypadku \(df = (2 -1)(2 - 1) = 1\). Znając liczbę stopni swobody, możemy teraz łatwo znaleźć wartość krytyczną \(\chi^2\) za pomocą standardowej funkcji R qchisq() :


Zatem przy jednym stopniu swobody tylko w 5% przypadków wartość kryterium \(\chi^2\) przekracza 3,841. Uzyskana przez nas wartość 6,79 znacznie przekracza tę wartość krytyczną, co daje nam prawo do odrzucenia hipotezy zerowej mówiącej, że nie ma związku pomiędzy podaniem przeciwciał a przeżyciem zakażonych myszy. Odrzucając tę ​​hipotezę, ryzykujemy, że się mylimy z prawdopodobieństwem mniejszym niż 5%.

Należy zauważyć, że powyższy wzór na kryterium \(\chi^2\) daje nieco zawyżone wartości podczas pracy z tabelami kontyngencji o rozmiarze 2x2. Powodem jest to, że rozkład samego kryterium \(\chi^2\) jest ciągły, natomiast częstotliwości cech binarnych („umarły” / „przeżyły”) są z definicji dyskretne. W związku z tym przy obliczaniu kryterium zwyczajowo wprowadza się tzw korekta ciągłości, Lub Poprawka Yatesa :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0,5)^2)(f_e).\]

osoba „Test chi-kwadrat z Yatesem” dane dotyczące korekty ciągłości: myszy X-kwadrat = 5,7923, df = 1, wartość p = 0,0161


Jak widzimy, R automatycznie stosuje korekcję ciągłości Yatesa ( Test Chi-kwadrat Pearsona z korektą ciągłości Yatesa). Obliczona przez program wartość \(\chi^2\) wyniosła 5,79213. Możemy odrzucić hipotezę zerową o braku efektu przeciwciał, ryzykując, że będzie błędna, z prawdopodobieństwem nieco ponad 1% (wartość p = 0,0161).