《用jamovi上手統計學》導讀

相關與線性迴歸 12-1 ~ 12-4, 12-6, 12-9

示範資料說明

dan.sleep baby.sleep dan.drump day
7.59 10.18 56 1
7.91 11.66 60 2
5.14 7.92 82 3
7.71 9.61 55 4
6.68 9.75 67 5
變項Y的測量尺度 變項X的測量尺度 相關係數
等距或等比 等距或等比 皮爾森積差相關
次序 次序 斯皮爾曼等級相關

圖解變項間相關

  • 那個變項(老爸自己的睡眠時間、寶貝兒子的睡眠時間)對老爸的沮喪心情影響最大?

圖解相關係數

資料視覺化的重要性

安斯庫姆四重奏

  • 四種資料集相關係數都是0.82

線性迴歸模型

r = -0.90

\(y=a+bx\)

  • \(My\ grumpingness = 125.96 - 8.94 * My\ sleep\)

  • \(\hat{Y}_i=b_0+b_1X_i+\epsilon_i\)

  • \(\epsilon_i = Y_i - \hat{Y}\)

  • \(b_0\) ~ 截距。X等於0時,\(Y\)的期望值。
  • \(b_1\) ~ 斜率。X增減一個單位,\(Y\)的數值增減幅度。
  • \(b_1 = r(\frac{s_y}{s_x})\)
  • \(-0.9*(\frac{10.05}{1.015})\) = -8.9
  • 迴歸係數都可以做點估計區間估計

迴歸模型的適合度

評估迴歸模型的自變項(\(X_i\))解釋或預測應變項(\(Y\))的指標。

\[R^2 = 1-\frac{SS_{res}}{SS_{tot}}\]

\[SS_{res}=\sum_i (Y_i-\hat{Y_i})^2\]

\[SS_{tot}=\sum_i(Y_i-\bar{Y})^2\]

自變項不只一個的迴歸模型(多元迴歸),要以此指標評估

線性迴歸模型的適用條件

Assumption Checks

資料變項能構成線性關係\(y=a+bx\)

  • Collinearity statistics(VIF)

每項資料點的殘差(\(Y_i-\hat{Y_i}\))取樣來源彼此獨立

  • Autocorreltion test(Durbin-Watson test)

所有資料點的殘差(\(Y_i-\hat{Y_i}\))之取樣分佈符合常態分佈。

  • Normality Test(Shapiro-Wilk test)
  • Q-Q plot for statistics

所有資料點的殘差(\(Y_i-\hat{Y_i}\))之取樣分佈符合平均值是0,標準差是\(\sigma\)的常態分佈。

  • Normality Test(Shapiro-Wilk test)
  • Residual plots