Prosta regresja liniowa

Wprowadzenie

Analiza regresji jest powszechnie stosowana do modelowania zależności pomiędzy pojedynczą zmienną zależną Y a jednym lub większą liczbą predyktorów. Gdy mamy jeden predyktor, nazywamy to „prostą” regresją liniową:

E = β0 + β1X

To znaczy, że wartość oczekiwana Y jest funkcją prostoliniową X. Bety są wybierane przez wybranie linii, która minimalizuje odległość podniesioną do kwadratu między każdą wartością Y a linią najlepszego dopasowania. Bety są wybierane tak, aby zminimalizować to wyrażenie:

∑i (yi – (β0 + β1X))2

Pouczającą grafika, którą znalazłem w Internecie

Źródło: http://www.unc.edu/~nielsen/soci709/m1/m1005.gif

Gdy mamy więcej niż jeden predyktor, nazywamy to wielokrotną regresją liniową:

Y = β0 + β1X1+ β2X2+ β2X3+… + βkXk

Wartości dopasowane (tj, wartości przewidywane) są zdefiniowane jako te wartości Y, które są generowane, jeśli wpiszemy nasze wartości X do naszego dopasowanego modelu.

Reszty są dopasowanymi wartościami minus rzeczywiste obserwowane wartości Y.

Tutaj znajduje się przykład regresji liniowej z dwoma predyktorami i jednym wynikiem:

Zamiast „linii najlepszego dopasowania”, istnieje „płaszczyzna najlepszego dopasowania.”

Źródło: James et al. Introduction to Statistical Learning (Springer 2013)

Z modelem regresji liniowej związane są cztery założenia:

  1. Liniowość: Zależność między X a średnią Y jest liniowa.
  2. Homoscedastyczność: Wariancja reszt jest taka sama dla każdej wartości X.
  3. Niezależność: Obserwacje są od siebie niezależne.
  4. Normalność: Dla dowolnej stałej wartości X, Y ma rozkład normalny.

Prześledzimy, jak ocenić te założenia w dalszej części modułu.

Zacznijmy od prostej regresji. W R, modele są zwykle dopasowywane przez wywołanie funkcji dopasowującej model, w naszym przypadku lm(), z obiektem „formula” opisującym model i obiektem „data.frame” zawierającym zmienne użyte we wzorze. Typowe wywołanie może wyglądać tak

> myfunction <- lm(formuła, dane, …)

i zwróci dopasowany obiekt modelu, tutaj przechowywany jako myfunction. Ten dopasowany model może być następnie wydrukowany, podsumowany lub zwizualizowany; co więcej, dopasowane wartości i reszty mogą być wyodrębnione, a my możemy dokonać przewidywań na nowych danych (wartości X) obliczonych przy użyciu funkcji takich jak summary(), residuals(),predict(), itp. Następnie przyjrzymy się, jak dopasować prostą regresję liniową.

powrót do góry | poprzednia strona | następna strona

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *