Metody Komputerowej Analizy Danych

Współzależność cech (nie)zależnych - Analiza regresji liniowej wielu (2) zmiennych, ekonometria again (przyp. aut.).

Podstawowe statystyki | Menu - Analiza | Macierze korelacji | Wyniki [1,2,3] | Opcje [3x puste] | 2 listy zmiennych - wzrost/waga | OK

Współczynniki korelacji liniowej Pearsona -1 <= r <=1; r~-1 korelacja umemna (analogie do y=-x); r~1 korelacja dodatnia (korelacje do y=x). R~0 - brak korelacji - wszystkie koliście. Trzeba pamiętać, że jest to wynik na istnienie korelacji liniowej a nie jakiejś innej np. nieliniowej ;p. A więc innego typu korelacji test nie wykaże.

Statystyki nieparametryczne | Panel początkowy | Korelacje (Spearmana, tau Kendalla) | OK |

Współczynnik korelacji rang Spearmana -1 <= s <= 1 (podobnie jak dla Pearsona). Teraz zmienne przypadki należy interpretować jako kolejne liczby całkowite - te podejście pozwala ominąć problem występujących z każdej próbce osobników znacznie odbiegającyh od głównej tendencji.

MNK, Metoda Najmniejszych kwadratów - szacujemy parametry modelu ekonometryczngo. Dla dwóch zmiennych sprowadza się to znalezienia parametrów a0, a1 pochodzących z wzoru: y = a0 + a1 x1.

Oczywiście zanim przystąpimy do badania - obliczeń na zdrowy rozsądek należy ocenić czy to wzrost zależy od wagi; czy może jednak waga od wzrostu (przykładowa analiza 2 cech). Oczywiście siła zależności nie musi być super mocna, ale dobrze by było, żeby to jednak miało jakiś sens ponieważ mogą się potem pojawić problemy przy próbie sensownej interpretacji wynków jakie otrzymamy z takich danych.

Aby oszacować wielkość tych parametrów należy spełnić założenia MNK, jednym z nich jest niezależność poszczególnych zmiennych objaśniających. Dla prostego modelu y = a0 + a1 x1 zjawisko zależności zmiennych ni jak wystąpić nie ma szans. Jednak palenie i stan zdrowia będą odwrotnie proporcjonalne i nici z solidnych obliczeń. Nie można w każdym razie zapominać o założeniach metody jaką się stosuje.

Należy również rozeznać się zo należy zrobić ze zmiennymi typu: stan cywilny czy tak/nie. Cóż, nie należy ich odznaczać do bezpośrednich obliczeń - dodaje je się oddzielnie jako kawaler/zamężny czy t/n. Ale to już temat nieco z innej beczki

Do dzieła...

Moduł - Regresja wielokrotna | Dane | Panel początkowy | zmienne | ok | OK | Podsumowanie regresji (2) lub Korelacje 2 zmiennych (Q)

Parametry oszacowanego modelu przy zadanym poziomie istotności ukryte są we współczynnikach B, no i jeszcze przydało by się pamiętać - co od czego jest zależne w danym teście. Na szczęście w tabelach Statistica 5.5 podaje X od Y i Y od X.

Aby wynki były bardziej wiarygodne to na początku w SC - Select Cases odznaczyć należy kobiety i mężczyzn oddzielnie. Wykres można potem zapisać. A potem do kolejnego:

plik | przyłącz wykres

Na wykresie poza wizualizacją poszczególnych wartości Statistica 5.5 rysuje prostą / proste - tzw. krzywą regresji - która ma symbolizować wartość oczekiwaną z 95% prawdopodobieństwem (95% przedział ufności).

Posiadając teraz wykres i parametry modelu - wpływu jednej zmiennej na drugą można dodać do tego trochę opisów.

Niestety Statistica 5.5 nie chodzi pod XP tak jak byśmy chcieli, za co jednych chórem podziękujmy programistom rodem z Redmond.

1 2 3 4 5 6 7 8 9 [10] 11 12

Tagi   analiza danych   anova   dane   komputer   regresja