線性模型的學習取向

在進入學習統計方法的各章節之前,我(譯者)想要向同學們介紹另一份由丹麥奧爾堡大學(Aalborg University)溝通與心理學系(Department of Communication and Psychology)Jonas Lindeløv教授編寫的教程基礎統計方法的線性模型學習取向1。 決定翻譯本書之前,我一直有如何統整推論統計方法學習課表的苦惱。見到Lindeløv的教程,還有採用jamovi與JASP試編教材之後,發覺這是一套值得華文世界的學生及統計學教師認識的教程。其實本書原作者Dani也在 章节 14.6 提到相同的觀念,只是在原書的章節編排,一路走到多因子變異數分析,Dani才告訴讀者這個觀念。

在Lindeløv的原版教程發表後不到一年來,就由世界各地有志一同的教師翻譯成各國語言的版本,簡体中文版已由著名的網路統計知識交流學習論壇統計之都的網友協作完成2。由於簡体中文與繁體中文的統計學術語有別,而且Lindeløv的教程是以R語言為例,所以特別設計這個中途單元,說明如何採用Lindeløv的教程學習單元10到單元14。

最新的中文版雖然維持與英文版相同的單元順序與內容翻譯,單元10到單元14都會在開頭增加說明,如何依照線性模型學習取向學習統計方法的建議。譯者使用這本電子書授課的線上課程,有特製系列影片,示範如何按照線性模型學習取向認識各種統計方法的概念及操作。這些單元的範例,都會附上一份包含線性模型版示範檔案。從 章节 12章节 10 標示示範檔案的部分,我都會在增加的譯註置入取得線性模型版示範檔案的連結。示範檔案裡有關線性模型版示範檔案的說明,都會集中於這個章節。讀者可根據學習進度,參考譯註提示,回到這個章節取得檔案及閱讀參考說明。

教程前言

本節部分改編自簡体中文版教程前言

大部分常見的統計檢定方法(t 檢定、相關係數檢定、變異數分析(ANOVA)、卡方檢定等),本質都是線性模型的一種特例或者是非常逼近的模型。這種優雅的簡潔性意味著我們並不需要掌握太多的技巧就能學習。具體來說,所有模型的來源都是多數學生在高中時期就學過的一元一次線性模型:\(y = a \cdot x + b\) 。然而,很多基礎統計課程是把各種檢定方法分開教,給學生和老師們增加了很多不必要的麻煩。在學習每一個檢定方法的基本假設時,如果不是從線性模型切入,而是每個檢定方法都死記硬背,這讓學習的複雜度倍增。因此,我認為先教線性模型,然後對線性模型的一些特殊形式更改名稱是一種優秀的教學策略,這有助於更深刻地理解假設檢定。線性模型在次數主義學派、貝氏學派和基於置換的U檢定的統計推論方法之間是互通的,對初學者而言,從線性模型開始比從認識什麼是p值、型I錯誤、貝氏因子或其它術語更為友好。

在入門課程教授到無母數統計方法的時候,可以避開自我欺騙的手段,直接告訴學生無母數檢定其實就是參數本質是等級(rank)的檢定方法。對學生來說,接受向量的概念,比相信你可以神奇地放棄各種母數統計方法所依賴的假設要好得多。實際上,在統計軟體如 JASP 裡,無母數檢定的貝氏等價模型就是使用潛在次序(Latent Rank)處理資料,而次數主義學派的無母數檢定方法用在樣本量 N > 15 的資料非常準確。

本書統計方法的各章節,繁體中文版保留原書的內容及單元順序,讓讀者比較傳統版與線性模型版的學習方法差別。使用本書教學的講師,可以根據個人教學經驗以及學生的回饋,採取合適的教學策略及課程規劃。有關輔助線性模型學習取向的相關資訊,教學者與學習者都可以取用Lindeløv提供的簡明整理表,英文閱讀能力不足的讀者請參考教程摘要的簡体中文版

根據教程摘要,各種適用無母數統計方法的資料,樣本量至少要大於10,才能得到精確逼近的估計值。因此本書涉及無母數統計方法的範例,繁體中文版提供的範例資料樣本都會是至少是\(N = 20\),符合樣本量條件的無母數統計方法示範說明及來源檔案,都會集中在這個章節。譯者開設的統計課程,採用Lindeløv教程的模式,平行教授連續變項及等級資料的統計方法,因此各章的學習順序不一定按照電子書的單元順序,請同學先看過以下各主題的對應單元提示,再進入各章閱讀及學習。

此外,許多無母數統計方法的線性模型版示範檔案,會創建計算變項或轉換變項,將原始資料轉換為等級資料。除了 章节 12 相關與線性迴歸的斯皮爾曼等級相關係數範例,其他統計方法示範資料的轉換函式如下:

IF($source==0,0,IF($source>1,1,-1))*RANK($source)

基礎統計方法線型模型示範說明

相關與線性迴歸

相關與線性迴歸的對應單元有 章节 12.1 , 章节 12.2 , 章节 12.3 , 章节 12.4 , 章节 12.6, 章节 12.8 , 以及 章节 12.9 。使用等級資料計算斯皮爾曼等級相關與迴歸分析,總樣本量N必須大於10,才能得到精確逼近的估計值。譯者開設的課程使用另一套教程”General Analyses for the Linear Model in Jamovi”開發的範例資料進行教學,教學錄影請見這七部影片:Part 1, Part 2, Part 3, Part 4, Part 5,Part 6, Part 7

如果同學有機會處理真正的等級資料,也可以選擇使用R或其他統計軟體如JASP進行連續變項或等級資料的迴歸分析。

泛統計方法的適用條件

所有基礎統計方法幾乎共享相同的適用條件(assumptions),包括每個資料數值的獨立性(independence of data points),殘差的常態性(normality of residuals),以及變異同質性(homoscedasticity)。線性迴歸模性可看到些條件以及檢核方法,透過迴歸模型認識其他統計方法,就能自然知道要符合那些條件,統計分析才有意義。需要讀者了解的用語問題,許多中文統計書會用假設而非適用條件,用了幾次jamovi,讀者應該發現許多模組有assumption check的選項,其實是提供該分析是否符合適用條件的檢測。

以線性模型解讀自由度

這本用jamovi上手統計學有一個專門的小節,解釋什麼是自由度(degress of freedom)。不過這個小節在更動順序後,落在比較後面的 章节 14 。做為補充章節,剛好在此為讀者提供一點小小的說明。由於剛好重新學習線性模型與線性代數的知識,我參考翻譯本書時在閱讀的另一本中文教科書:黃志勝先生撰寫的「機器學習的統計基礎 : 深度學習背後的核心技術」,其中第4章講自由度的這一節,黃先生給的定義是「包含N個變數的線性模型中,不受限制的變數個數」(該書沒有這一句話,是我重新消化組織的),我們能透過以下範例來逐漸認識。

  1. 簡單迴歸式 \(y = a + bx\)\(y\)\(x\)都是變數,要使等號左右兩邊的數值相等,必須限制其中一個變數等於固定的數值,因此自由度\(df = n - k = 2 - 1 = 1\)

  2. 多元迴歸式 \(y = a + b_1 x_1 +b_2 x_2\)。這個等式有三個變數,要使等號左右兩邊的數值相等,同樣必須限制其中一個變數等於固定的數值,因此自由度\(df = n - k = 3 - 1 = 2\)

  3. 我們知道樣本平均值(\(\bar{X}\))是母群平均值(\(\mu\))的最佳估計值,公式是\(\bar{X} = \frac{X_1 + X_2 + \dots + X_n}{n}\),其中有n個變數,每個變數都是隨機值且彼此獨立,沒有任何一個變數要受到限制,因此自由度\(df = n - k = n - 0 = n\)

  4. 樣本變異數(\(S^2\))是母群平均值(\(\sigma^2\))的最佳估計值,公式是\(S^2 = \frac{\sum_{n=1}^{n}(X_i - \bar{X})^2}{n-1}\)。這個公式也有同樣的n個隨機且彼此獨立的變數,但是公式中的平均值\(\bar{X}\)來自樣本平均值公式,所以可知\(X_n = n\bar{X} - X_1 - X_2 - \dots - X_{n-1}\),也就是說\(X_n\)是受限制的變數,因此樣本變異數的自由度\(df = n - k = n - 1\)

單一樣本及相依樣本

單一樣本及相依樣本的對應單元有 章节 11.2 , 章节 11.6 , 章节 11.7 , 章节 11.8 , 章节 11.9 , 章节 11.10 。使用等級資料進行無母數統計分析,最小樣本量必須多於14,如果是採用線性模型教程,建議不要使用 章节 11.10 的範例,將連續資料的範例轉換為等級資料即可。讀者可使用線性模型版的jamovi示範檔案:單一樣本t檢定相依樣本t檢定,搭配課程錄影學習~ 影片1影片2影片3影片4影片5影片6影片7影片8

比較兩組平均值

比較兩組平均值的對應單元有 章节 11.3, 章节 11.5, 章节 11.7 , 章节 11.8 , 章节 11.9 , 章节 11.10。使用等級資料進行無母數統計分析,最小樣本量必須多於10,如果是採用線性模型教程,建議不要使用 章节 11.10 的範例,將連續資料的範例轉換為等級資料即可。

Welch’s t檢定是無法使用jamovi展示線性模型示範的統計方法,但是近年採用獨立組設計的心理學研究,被呼籲使用Welch’s t檢定的建議越來越多,因為獨立組設計的行為科學資料經常違反變異數同質性的適用條件。在此使用R套件,展示使用線性模型輸出 章节 11.5 的範例。

R程式碼

df <- read_csv("files/Harpo.csv")

summary(nlme::gls(grade ~ 1 + as.factor(tutor), weights = nlme::varIdent(form=~1|tutor), method="ML", data=df))

輸出結果

Generalized least squares fit by maximum likelihood
  Model: grade ~ 1 + as.factor(tutor)

Coefficients:
                              Value Std.Error  t-value p-value
(Intercept)                74.53333  2.316009 32.18179  0.0000
as.factor(tutor)Bernadette -5.47778  2.688237 -2.03768  0.0502

讀者可使用線性模型版的jamovi示範檔案:獨立樣本t檢定,搭配課程錄影學習 ~ 影片1影片2

單因子變異數分析

章节 13 單因子變異數分析 介紹的統計方法有單因子獨立樣本變異數分析,以及單因子重覆量數變異數分析。根據線性模型教程,譯者將這兩個兩個統計方法的示範,改編為以線性迴歸模型實作的獨立樣本示範檔案,以及重覆量數示範檔案。由於Lindeløv的教程並未提供單因子重覆量數變異數的等級資料分析示範,重覆量數示範檔案只有連續變項的版本。

依線性模型教程的順序學習的讀者與學生,可以先復習 章节 12.3 這一節的內容。譯者的課程教學會從迴歸模型的R-squared起手,帶領學生認識兩種單因子變異數分析的程序及適用條件。

長表單(long table)與寬表單(wide table)

相依樣本t檢定處理的分析資料,也是重覆量數設計。在這份示範檔案裡,兩次成績列在不同的變項欄位(grade_test1,grade_test2),這種將同一個獨變項的不同層次之依變項資料,各自列在獨立變項欄位的資料格式,稱為寬表單(wide table)。電子書 章节 13.7 示範單因子重覆量數變異數分析使用的資料格式,也是寬表單。

jamovi的ANOVA模組與t檢定模組,都是用來處理寬表單資料。然而線性模型版的單因子重覆量數變異數分析示範檔案,獨變項欄位只有一個(Task),依變項資料也集中於一個變項欄位(Score)。這種資料格式稱為長表單(long table),是各種資料收集平台最原始的儲存格式。請讀者比較兩種資料格式的差異,思考最適合你的資料處理與分析操作,用那一種表單格式與分析模組有最佳效益。

  • 課程錄影預計於2023/5/17之後上線。

多因子變異數分析

對應 章节 14 多因子變異數分析。讀者可以使用改編自這一章原始範例,使用線性模型執行的二因子獨立樣本變異數分析二因子獨立樣本共變數分析的jamovi檔案,自行比對與原書使用變異數分析模組製作的範例,學習如何設定與解讀分析報表與適用條件。經過前三章透過線性模型學習,此章內容應該相當容易。

  • 課程錄影預計於2023/5/24之後上線。

類別資料分析

對應 章节 10 類別資料分析,這個單元介紹四種類別資料分析方法,中文版提供使用線性模型示範檔案有卡方適合度檢定卡方獨立性檢定小樣本類別資料的費雪精確檢定、以及相依樣本類別資料的麥內瑪檢定。讀者開啟之前,請先確定自用的jamovi已經安裝gamlj模組,才能檢視與編輯通用線性模型(Generalized Linear Model)報表及功能選單。請者可搭配課程錄影學習 ~ (預計5/31後上線)

透過線性模型路徑,這四種統計方法都要先建立統計假設通用線性模型(\(H_0\)\(H_1\)),運用變異數分析或逐步迴歸比較兩種統計假設的線性模型,才是與一般統計書介紹的方法相同。然而目前jamovi的內建功能或外掛模組,都沒有比較兩套線性模型的功能設定。中文版的示範檔案只有顯示對應\(H_1\)的線性模型,並且統計報告裡雖然有\(\chi^2\)的資訊,實際上是對數似然比檢定(log-likelihood ratio test)的結果,統計數與p值雖然接近卡方檢定,但並非真正的卡方檢定。由於似然值(likelihood)是貝氏統計方法常用的指標,譯者釋出這些範例檔案有引導讀者認識貝氏統計方法的用意。此外,jamovi 2.3.21版之後,內建Frequencies模組增加log-linear Regression功能,讓使用者能運用通用線性模型處理類別資料分析。

jamovi的內建Regression模組有三種對數迴歸的功能2 OutcomesN outcomes,以及Ordinal Outcomes。這三種對數迴歸是一般線性模型(General linear model),與 章节 12章节 14 介紹的統計方法所採用的線性模型是一樣的。需要注意的是,一般線性模型不同於通用線性模型,兩者主要差異在於一般線性模型的依變項資料殘差分佈必須符合或逼近常態分佈,不過通用線性模型的依變項資料殘差分佈可以符合或逼近任何分析者指定的機率分佈3。有興趣了解細節的讀者,可以點選連結開啟維基百科頁面。使用通用線性模型示範的四種類別資料分析方法,請見導讀影片

使用通用線性模型操作卡方適合度檢定卡方獨立性檢定、以及相依樣本類別資料的麥內瑪檢定,都要先轉換資料格式,轉換方法與過程請見導讀影片



  1. https://lindeloev.github.io/tests-as-linear/↩︎

  2. https://cosx.org/2019/09/common-tests-as-linear-models/↩︎

  3. 這是許多貝氏統計教材會先介紹通用線性模型的主要原因,因為事前機率與事後機率的機率分佈不需要是一樣的。↩︎