Metody Komputerowej Analizy Danych

O ile Statistica się nie wywaliła - nie należy do rzadkości. Mamy przed sobą wykres / kilka wykresów przetawiających linie np łamane. Często są one równoległe. Czasem skośne wobec siebie. Czasem dla kilku wykresów mają one inną orientację. Czasem nawet się przecinają. Najprostszym podejściem w ich interpretacji jest zaznaczenie, że gdy są równoległe (w miarę) to interakcje wymienionych zmiennych nie powodują znaczącego wpływu na zmienną badaną - w tym wypadku dochodu. Kiedy zmieniają orientację - można wywnioskować z tego o pewnych różnicach występujących dla różnych grup. Kiedy się krzyżują bądź wykresy znacznie odbiegają od siebie oznacza, że najprawdopodobniej interakcje cech mają wpływ na wynik. Interakcje których cech? No tych, które właśnie widnieją na osiach. Aby zmienić osie należy wycofać się do etapu wyboru odpowiedniego wiersza - zmienne lub 12 czyli interakcje cechy 1 i 2. I od początku lecieć jak wcześniej. Tym sposobem możemy dla badanych cech opisać wszystkie zależności pomiędzy nimi ich wzajemnym wpływem a wynikiem w postaci zmiennej zależnej (bądź wcale niezależnej od nich).

O ile interpretacja graficzna jest potencjalnie łatwa do oceny to nie daje 100% wiarygodności testu. Dlaczego? Ponieważ do próbki, którą badamy "powrzucano" co miano. Próbka może być niejednorodna lub co gorsza niedoreprezentowana. Tzn., że poszczególne grupy mają różną liczbę reprezentantów. Na przykład badamy wpływ płci na zarobki mając do dyspozycji 2 kobiety i 200 mężczyzn. Porównanie zostanie wykonane - ale jaka jest jego reprezentatywność. Żadna!
Aby więc potwierdzić bądĽ oddalić hipotezę o potencjalnym związku pewnej cechy z inną. Należy wykonać testy statystyczne.

OK | Kody dla czynników między grupowych | Wszystkie | OK | OK
| średnie/wykresy Wszystkie efekty

Pojawia się tabela z wierszami 1, 2, 3, 12, 13, 23, 123 czyli podobnie jak wtedy wpływ zmiennych oraz interakcji zmiennych na badaną cechę. Tym razem zamiast wykresu mamy tablicę, której ostatnia kolumna to p. Jest to prawdopodobieństwo z testu statystycznego.

Jeżeli p < 0.05 oznacza to, że należy odrzucić hipotezę H₀ mówiącą o jednolitym, równym wpływie badanej cechy czy związku na wynik. H₁ - mówi, że co najmniej jedna para odchyla się od te prawidłowości i ma konsekwencje we wpływie na cechę zależną.

Wartość-p: Kolumna ta zawiera poziomy-p powiązane ze statystykami R Rao dla każdego efektu.

Rozkład statystyki R Rao: Gdy analiza dotyczy (1) dowolnej liczby grup z dwoma zmiennymi zależnymi, (2) dwóch grup z dowolną liczbą zmiennych zależnych lub (3) trzech grup z dowolną liczbą zmiennych, wówczas rozkład statystyki R Rao (będącej przekształceniem lambdy Wilksa) podlega dokładnemu rozkładowi F z liczbami stopni swobody podanymi w Tabeli wszystkich efektów. We wszystkich pozostałych warunkach transformacja stosowana do wyliczania R Rao (patrz Lindeman, Merenda i Gold, 1980; Rao, 1952; Tatsuoka, 1971) podlega w przybliżeniu rozkładowi F z liczbą stopni swobody podaną w Tabeli wszystkich efektów.

Dla uproszczenia, Statistica 5.5 wyróżnia cechy które istotnie wpływają badaną cechę. Na czerwono podświetliło się 2, 13 i 123. W skrócie można powiedzieć, że istotny wpływ na dochód ma wykształcenie, interakcje płci i miejsca zamieszkania oraz interakcje wszystkich zmiennych zależnych. Dokładnie jaki, czyli opisanie przebiegu tej zależności na dochód może zostać przeprowadzone z pomocą średnich/wykresów, które omówiłem na początku tego rozdziału. Trzeba jednak pamiętać, że wyznacznikiem bardziej obiektywnym są testy statystyczne, które uwzględniają błędy związane z pewnym stopniem losowości przypadków.

1 2 3 4 5 6 7 [8] 9 10 11 12

Tagi analiza danych anova dane komputer regresja

Informatyka Gospodarcza, Zarządzanie

Metody Komputerowej Analizy Danych