後記
“從頭開始,”國王非常嚴肅地說,“一直到結尾;然後停止” – 路易斯·卡羅
我(原作者)寫這個單元時感覺很奇怪,甚至有點不恰當。後記是一本書的完結,但是這本書還沒有真正完成。仍然有很多東西沒有寫進這本書,甚至都沒有提到,並且有不少地方沒有引用出處。而且沒有“自我練習”的環節。總之,我覺得這本書的排版、架構和內容都有很多要改進之處。有鑑於此,我並不想寫出“正式的”後記。既然還沒有完成實質內容的寫作,把所有內容聯繫起來是沒有意義的。不過這個版本將上提供學生學習,有需要的話也可以購買紙本版,所以我希望至少讓這本書看起來完整。就請使用這本書的讀者多多指教吧。
尚未提到的統計學課題
首先,我將談論一些我希望擠進本書版本中的內容,這樣您就可以對世界上還有什么其他統計思想有所了解。即使這本書快要最終完成,我也認為這一點很重要。學生們經常沒有意識到,他們的入門統計課只是個入門。如果您想走向廣闊的世界並進行真正的數據分析,您必須學會大量擴展本科課程內容的新工具。不要假定某些事情無法完成,只因為本科並未涵蓋。也不要假定某些事情就是正確的,只因為它在本科課上被涵蓋了。為了防止您陷入這個陷阱,我認為有必要概述一些其他的思路。
各主題單元的遺珠
即使在我在書中涵蓋的主題中,也有很多遺漏我希望能在未來的版本中補充。僅就純統計學而言(而不是與 jamovi 相關的內容),以下是一份代表性但並不詳盡的清單,我希望能在某個時候擴展這些內容:
其他類型的相關性。在 單元 12 中,我談到了兩種相關性:皮爾遜和斯皮爾曼。當您有兩個連續變量並希望評估它們之間的關係時,這兩種相關性評估方法都是適用的。如果您的變量都是名義尺度的,那麼情況又如何呢? 或者一個是名義尺度,另一個是連續的呢? 實際上,在這些情況下也存在計算相關性的方法(例如 polychoric 相關),將它們包括進來會很好。
更多關於效應量的詳細信息。 總的來說,我認為全文中對效應量的處理有點過于簡單。 在幾乎每一種情況下,我都傾向於僅選擇一種效應量測度(通常是最流行的),並描述它。 然而,對於幾乎所有的測試和模型,都存在多種思考效應量的方法,我希望在未來能更詳細地討論這一點。
處理被違反的假設。 在本書的若干部分中,我談到了在發現您的測試(或模型)的假設被違反時可以採取的一些措施,但我認為在這方面我應該說得更多。特別是,我認為討論更詳細的變量轉換以解決問題的內容會很好。我在 單元 6 中稍微談到了這一點,但我認為討論還不夠詳細。
回歸的交互項。在 單元 14 中,我談到過方差分析中可以有交互項,我也指出方差分析可以被解釋為某種線性回歸模型。 然而,在 單元 12 中談及回歸時,我完全沒有提及交互。 然而,沒有什么能阻止您在回歸模型中包含交互項。 當您在談論兩個連續預測變量的交互時,弄清“交互”實際上意味著什么會稍微複雜一些,而且可以有多種方法。儘管如此,我本想稍微談論一下這個話題。
計劃比較法。 正如我在 單元 14 中所提到的,在進行方差分析時,使用像 Tukey HSD 這樣的事後校正並不總是合適的,特別是當您事前就有非常明確(和有限)的比較關注點時。我希望將來能更多地談論這一點。
多重比較方法。 即使在討論事後檢驗和多重比較的背景下,我也希望能更詳細地討論這些方法,並談論除了我提到的幾種選擇之外還存在哪些方法。
尚未提到的統計模型
統計學是一個巨大的領域。我在這本書中描述的核心工具(卡方檢驗、t檢驗、回歸和方差分析)是廣泛使用的基本數據分析工具,它們構成了大多數入門統計書的核心。然而,還有很多其他工具。有如此多的數據分析情境這些工具無法涵蓋,給您一種感覺,這其中還有很多值得了解的,例如:
非線性回歸。在 單元 12 中討論回歸時,我們看到回歸假定預測變量與結果變量之間的關係是線性的。另一方面,當我們在 單元 4 中討論了更簡單的相關性問題時,我們看到確實存在能夠評估變量之間非線性關係的工具(例如斯皮爾曼相關)。統計中有許多工具可以用於進行非線性回歸。例如,一些非線性回歸模型假定預測變量與結果變量之間的關係是單調的(例如等分回歸),而其他則假定它是平滑但不一定是單調的(例如 Lowess 回歸)另一些則假定關係的形式是已知的非線性形式(例如多項式回歸)。
邏輯回歸。當結果變量是二元的但預測變量是連續的時,回歸的另一種變體。例如,假設您正在研究社交媒體,並希望了解是否可以根據收入、年齡等變量預測某人是否在 Twitter 上。這基本上是一種回歸模型,但您無法使用常規的線性回歸,因為結果變量是二元的(您是否在 Twitter 上)。由於結果變量是二元的,殘差不可能正常分佈。統計學家可以將這種情況應用許多工具,其中最突出的是邏輯回歸。
廣義線性模型(GLM):GLM 實際上是包含邏輯回歸、線性回歸、(某些)非線性回歸、方差分析和許多其他模型的模型家族。 GLM 中的基本思想與支撐線性模型的思想基本相同,但是它允許您的數據可能不是正常分佈的,並允許預測變量與結果變量之間的非線性關係。有很多非常方便的分析屬於 GLM,所以了解它非常有用。
存活分析。在 單元 2 中,我談到了“差異減員”,即人們以非隨機方式退出研究的趨勢。當時,我是將其作為一種潛在的方法論問題而談論的,但在很多情況下,差異減員實際上就是您感興趣的事情。例如,假設您有興趣了解人們在一次遊戲中玩不同類型的遊戲的時間有多長。人們會否傾向於連續玩實時戰略遊戲的時間長於第一人稱射擊遊戲?您可能會這樣設計您的研究。人們進入實驗室,他們可以玩盡可能長或短的時間。 一旦他們玩完了,您就記錄他們玩的時間。 然而,由于伦理限制,假設您不能讓他們玩超過兩小時。 很多人在兩小時限制之前就會停止遊戲,所以您會正確知道他們玩了多久。 但有些人會遇到兩小時的限制,所以如果允許研究繼續進行,您不知道他們會玩多久。 因此,您的數據會受到系統性刪減:您遺漏了所有非常長的時間。 您如何明智地分析這些數據? 這就是存活分析要解決的問題。 它是專門設計來處理這種情況的,當研究結束時,您會系統性地遺漏某些“一邊”的數據。 它在健康研究中應用非常廣泛,並且在這種情況下,通常被字面意義上用於分析存活。例如,您可能正在跟踪某種癌症的病人,其中一些人接受了治療 A,其他人接受了治療 B,但您只有資金跟踪他們 5 年。 在研究結束時,一些人還活著,其他人已經死了。 在這種情況下,存活分析可用於確定治療的有效性,並告知您他們隨時間面臨的死亡風險。
混合模型:重複測量方差分析通常用於觀察值聚集在實驗單位中的情況。一個很好的例子是當您在多個時間點跟蹤個人時。假設您正在跟踪兩個人的快樂情緒隨時間的變化。亞倫的快樂指數最初為 10 分,然後下降到 8 分,然後下降到 6 分。貝琳達的快樂指數最初為 6 分,然後上升到 8 分,然后上升到 10 分。這兩個人的整體快樂水平相同(三個時間點的平均值均為 8 分),因此重複測量方差分析會以相同方式對待亞倫和貝琳達。但這明顯是錯誤的。亞倫的快樂正在降低,而貝琳達的快樂正在增加。 如果您想要優化分析實驗數據,其中人們可以隨時間改變,那麼您需要比重複測量方差分析更強大的工具。 人們用來解決這個問題的工具稱為“混合”模型,因為它們旨在了解個體實驗單位的信息(例如個人的快樂隨時間變化),以及總體影響(例如金錢對快樂隨時間推移的影響)。 重複測量方差分析也許是最簡單的混合模型例子,但使用混合模型可以做很多重複測量方差分析無法做到的事情。
多維尺度。因子分析是“無監督學習”模型的一個例子。這意味著,與我提到的大多數“有監督學習”工具不同,您無法將變量分為預測變量和結果變量。回歸是有監督學習,而因子分析是無監督學習。這並不是唯一一種無監督學習模型。例如,在因子分析中,研究人員關心變量之間的相關分析。然而,在很多情況下,您實際上有興趣分析對象、項目或人之間的相似性或差異。在這種情況下,您可以使用多種工具,最知名的就是多維尺度法(MDS)。 在 MDS 中,思路是為您的項目找到一種“幾何”表示。每個項目被“繪製”為某個空間中的一點,兩點之間的距離是這兩個項目差異的一種測量。
聚類:無監督學習模型的另一個例子是聚類(也稱為分類),在這種情況下,您希望將所有項目組織成有意義的組,使得相似的項目被分配到同一組中。大量聚類屬於無監督類型,這意味著您不知道組是什麼,您只能猜測。還有其他“有監督聚類”情況,您需要基於其他變量預測組成員資格,並且這些組成員資格實際上是可觀察到的。邏輯回歸是以這種方式工作的工具的一個很好的例子。然而,當您實際上不知道組成員資格時,您必須使用不同的工具(例如 k 均值聚類)。甚至還有一些情況下您想要執行所謂的“半監督聚類”,在這種情況下,您知道某些項目的組成員資格但並非所有。您可以想像,聚類是一個相當大的主題,也是一項相當有用的技能。
當然,即使這個列表也不完整。我沒有提到時間序列分析、項目反應理論、市場籃分析、分類與回歸樹或其他大量主題。然而,我上面給出的列表基本上是我對這本書的期望清單。當然,它會使書的長度增加一倍,但這意味著範圍已經廣泛到足以涵蓋心理學應用研究者需要使用的大多數內容。
其他統計推論方法
本書的另一個不完整之處在於它比較嚴重地專注於如何進行推論統計的一種非常狹隘且過時的觀點。在 單元 8 中,我稍微談到了無偏估計、抽樣分布等概念。 在 單元 9 中,我更詳細地談到了空假設顯著性檢驗和 p 值的理論。這些想法可以追溯到 20 世紀初,而我在書中談到的工具高度依賴那個時代的理論思想。我覺得有義務堅持這些主題,因為科學中絕大多數數據分析也依賴這些思想。然而,統計理論的研究並不仅限於這些主題,儘管由於其實際重要性,每個人都應該了解它們,但在許多方面,這些思想並不能代表當代數據分析的最佳實踐。我特別高興的是,我已經能夠有所超越。 單元 16 現在以合理的細節呈現了貝氏觀點,但整體而言,書中仍然相當偏向次數主義正統思想。此外,還有許多其他值得一提的推論方法:
自助法:在介紹每個假設檢驗時,我都有強烈傾向於簡單地做出類似“BLAH 的抽樣分布是 t 分布”之類的斷言。在某些情況下,我實際上嘗試證明這一斷言。例如,在 單元 10 中談到 \(chi^2\)檢驗時,我引用了正態分布與 \(chi^2\) 分布之間的已知關係(參見 單元 7 ),以解釋我們如何最終假設適配度統計量的抽樣分布是 \(chi^2\)。 然而,也有很多這些抽樣分布是,嗯,錯誤的。 \(chi^2\) 檢驗就是一個很好的例子。它基於對您的数据的分布的假設,而該假設被知道在小樣本量下是錯誤的! 在 20 世紀初,面對這種情況您幾乎無能為力。統計學家得出了數學結果,即“在有關數據的 BLAH 假設下,抽樣分布大致為 BLAH”,這已經是最好的了。在很多情况下,他們甚至沒有這個。有很多數據分析情況沒有人找到所需的抽樣分布的數學解。 所以,直到 20 世紀后期,相應的檢驗要么不存在要么無法工作。 然而,計算機現在已經改變了這一切。 您現在可以使用各種高端技巧和一些不那么高端的技巧來解決這個問題。 最簡單的方法是自助法,最簡單的形式非常簡單。 您要做的就是模擬實驗結果很多很多次,同時假定 (a) 空假設為真和 (b) 未知的人群分布實際上看起來非常類似於您的原始數據。 換句話說,與其假設數據(例如)是正態分布的,不如假设数据实际上和您的样本一样,然后使用计算机模拟检验统计量的抽样分布,如果该假设成立的话。尽管依赖一些有点可疑的假设(即人群分布与样本相同!),但自助法是一个在大量数据分析问题上实际应用中奇迹般有效的快速简单的方法。
交叉驗證:在我的統計課上偶爾會出現一個問題,通常是學生試圖挑釁時提出的,那就是“我們為什么要關心推論統計?為什么不只描述樣本呢?” 這個問題的答案通常如下:“因為作為科學家,我們的真正興趣不在於我們_過去_已經觀察到的特定樣本,我們想要對未來可能觀察到的數據做出預測”。 統計推論中很多問題的產生都是因為我們總是認為未來會與過去類似但有些不同。 或者,更一般地說,新數據不會和舊數據完全相同。 在很多情況下,我們嘗試推導出數學規則,這些規則可以幫助我們得出對於新數據最有可能正確的推論,而不是選擇最能描述舊數據的語句。例如,給定模型 A 和 B 以及今天您收集的數據集 X,嘗試選擇明天您要收集的新數據集 Y 的最佳模型。有時模擬這個過程很方便,這就是交叉驗證要做的事情。 您要做的就是將數據集劃分為兩個子集 X1 和 X2。 使用子集 X1 訓練模型(例如,估計回歸系數),但 then 在另一個子集 X2 上評估模型性能。 這為您提供了模型從舊數據延伸到新數據的能力的一種測量,這通常是比只使用完整數據集 X 擬合模型所得到的模型好壞測量更好的測量。
穩健統計:生活很複雜,沒有什么能按應有的方式運作。對於統計來說也是如此,在嘗試分析數據時,我們經常會遇到各種問題,數據的混亂程度比應該的要高。 變量本應正常分布但實際上並非正常分布,關係本應線性但實際上並非線性,您的數據集中的一些觀察結果幾乎肯定是错误的(即,并未測量應測量的內容)。 在本書的大部分統計理論中都忽略了所有这种混乱。 然而,忽略问题并不总是能解决问题。有時,忽略混亂确实可以,因为某些类型的统计工具是“穩健的”,即使数据并不满足您的理论假设,它们仍能很好地工作。 其他类型的统计工具则不是稳健的,即使偏离理论假设很小也会导致它们失效。 稳健统计是统计学的一个分支,它研究这个问题,并谈论统计量的“破坏点”。 也就是说,您的数据必须混亂到什么程度统计量才不再可信?我在一些地方提到了这一点。均值不是變量中心趨勢的稳健估计量,但中位數是稳健的。例如,假设我告訴您我五个最好朋友的年齡分別為 34、39、31、43 和 4003 歲。您認為他們的平均年齡是多少?也就是說,這里的真實人群均值是多少?如果您使用樣本均值作為人群均值的估計量,那麼您得到的答案是 830 歲。 如果您使用樣本中位數作為人群均值的估計量,那麼您得到的答案是 39 歲。 請注意,即使在第二種情況下您在“技術上”做錯了事(使用中位數估計均值!),但您實際獲得了更好的答案。這里的问题是其中一個觀察結果顯然、明顯地是錯的。 我沒有一個 4003 歲的朋友。這可能是打字錯誤,我可能是想打 43。 但是如果我敲錯了,敲成了 53 而不是 43 呢? 您能肯定這是錯字還是不是? 有時數據中的錯誤很隱蔽,所以您無法通過目測樣本來檢測它們,但它們仍然會污染您的数据,並且仍然會影響您的結論。 稳健统计关注的是,即使面临您不知道的污染,您如何能够进行安全推論。 這是相當酷的東西。
難以歸類的重要雜項
假設您正在進行一項調查,並對運動和體重感興趣。 您向四個人發送了數據。 亞當說他經常運動,並且沒有超重。 布莉歐妮說她經常運動,並且沒有超重。 卡羅爾說她不運動,並超重。 蒂姆說他不運動,並拒絕回答他的體重問題。 艾琳沒有返回調查。 您現在有一個遺失數據的問題。有一整個調查遺失了,另一個遺失了一個問題,您對此該怎么辦? 忽略缺失數據通常不是一種安全的事情。 讓我們考慮蒂姆的調查。 首先,請注意,根據他的其他回答,他似乎與卡羅爾(我們都不運動)更相似,而不是與亞當或布莉歐妮更相似。 所以,如果您被迫猜測他的體重,您會猜測他比他們更接近她。 也許您會做一些校正,考慮到亞當和蒂姆是男性,而布莉歐妮和卡羅爾是女性。 這種類型猜測的統計名稱是“插補”。 安全地進行插補是很困難的,但它很重要,特別是當遺失的数据以有系統的方式遺失時。 由于社會壓力迫使超重的人常感到自己的體重很差(通常是由于公共衛生運動的緣故),所以我們實際上有理由懷疑不回應的人比回應調查的人更有可能超重。 給蒂姆插補體重意味着如果我們忽略蒂姆,樣本中超重人數將從 3 分之 1 增加到 4 分之 2(如果我們給蒂姆插補體重)。 顯然,這很重要。但是明智地這樣做比它聽起來更複雜。 早些時候,我建議您应将蒂姆视为卡羅爾,因为他們對運動問題給出了相同的答案。 但這并不完全正确。 他們之间存在有系統的差异。 她回答了問題,蒂姆沒有。 鑑于超重人群面临的社会壓力,蒂姆不是_比_卡羅爾更超重嗎? 當然,這仍然忽略了一個事實,即將_单个_體重插補給蒂姆是不明智的,就好像您實際上知道他的體重一樣。 相反,您需要做的是插補一系列合理的猜測(稱為多重插補),以捕捉您對蒂姆體重的不確定性大於對卡羅爾體重的不確定性这一事实。 我們還沒有開始討論艾琳沒有發回調查所帶來的問題。 您可以想像,處理遺失數據日益成為一個重要話題。 事實上,有人告訴我,如果未遵循某種明智的多重插補計劃,某些領域的很多期刊將不會接受具有遺失數據的研究。
考驗力分析:在@sec-Hypothesis-testing中,我討論了考驗力的概念(即,如果效應實際存在,您有多大可能性能檢測到它)並提到了功效分析,這是一組用於評估您的研究功效的有用工具。功效分析在規劃研究(例如,確定您可能需要的樣本量有多大)很有用,但在分析您已經收集的數據時也起著有用的作用。例如,假設您得到了顯著結果,並且有效應量的估計。您可以使用這些信息來估計您的研究實際具有多大的功效。這還是有點有用的,特別是如果您的效應量不大。例如,假設您在 \(p< .05\) 水平上拒絕了空假設,但您使用功效分析得出您的估計功效只有 .08。顯著結果意味著,如果空假設實際上為真,得到這樣的数据的機率為 5%。 但是低功效意味著,即使空假設為假,效應量實際上和它看起來一樣小,得到您得到的數據的機率也只有 8%。這表明您需要相當謹慎,因為運氣似乎在您的結果中起了很大作用,不管是哪一種方式!
使用理論驅動模型進行數據分析。在本書的一些地方,我提到了反應時間(RT)數據,您記錄某人完成某件事所需的時間(例如,做出簡單決定)。我提到 RT 數據幾乎總是非正態的,並且正偏。此外,還有所謂的速度/精度權衡:如果您嘗試過快做出決定(RT 較低),那麼您可能會做出較差的決定(精度較低)。因此,如果您測量了參與者決策的精度和他們的 RT,您可能會發現速度和精度之間存在關係。當然還有更多內容,因為與反應速度無關,一些人的決策優於其他人。此外,速度取決于認知過程(即思考花費的時間)和生理過程(例如,您能夠移動肌肉的速度有多快)。 分析這些數據的過程聽起來會很複雜。的確,當您深入研究心理學文獻時,您會發現已經存在數學模型(稱為“序列採樣模型”),這些模型描述了人們如何做出簡單的決定,並且這些模型考慮到了我上面提到的許多因素。 您在標準統計教科書中找不到任何這些理論驅動的模型。 標准統計教科書描述了標准工具,這些工具可以有意義地應用于許多不同的學科,不僅僅是心理學。 方差分析就是一個標准工具的例子,它適用于心理學和藥理學。 順序採樣模型不是,它們或多或少是專門針對心理學的。 這並没有使它們成為更加強大的工具。 事實上,如果您正在分析人們必須快速做出選擇的數據,您應該真正使用序列採樣模型來分析數據。 使用方差分析或回歸或任何其他工具的效果都不會那麼好,因為支撐它們的理論假設与您的数据不太匹配。 相反,序列採樣模型是明確設計來分析這種特定類型數據的,它們的理論假設與數據非常吻合。
運用 jamovi 中學習基礎知識
好吧,這是一個很長的列表。 即使只是列出一些內容也是大大不完整的。 統計學中真的有很多我在這本書中没有涵蓋的大思想。 當您讀完一本幾乎 500 頁的教科書后被告知這只是開始,這可能看起來相當沮喪,特別是當您開始懷疑所學的一半東西都是錯的時。例如,有很多人會強烈主張不要使用經典的方差分析模型,然而我卻花了整整兩章的篇幅討論它! 標準方差分析可以從貝葉斯角度、穩健統計角度甚至“它就是錯誤”的角度來攻擊。我花了如此多時間討論機率論基礎。我更詳細地討論了估計和假設檢驗的理論,而不僅僅是我需要的程度。我為什麼要這麼做呢?回頭看,你可能會問,我是否真的需要花那麼多時間談論機率分布是什麼,甚至為什麼會有機率密度部分。如果這本書的目標是教你如何運行 t 檢驗或方差分析,這真的有必要嗎?這難道不是對每一個人時間的巨大浪費嗎???
我希望您會同意答案是否定的。入門統計的目標不是教授方差分析。它的目標不是教授 t 檢驗、迴歸、直方圖或 p 值。目標是讓您走上成為熟練數據分析師的道路。為了使您成為熟練的數據分析師,您不僅需要掌握方差分析、t 檢驗、迴歸和直方圖等基礎知識。您需要正確地思考數據。您需要能夠學習我在上一節中談到的更高級的統計模型,並理解它們所基於的理論。您需要能夠使用讓您能使用這些高級工具的軟體。在我看來,這就是我在基礎知識上花費額外時間的回報。如果您理解機率論,從次數主義分析切換到貝氏分析對您來說會容易得多。
簡而言之,我認為透過這種方式學習統計的最大收益在於可擴展性。對於一本只涵蓋數據分析的基礎知識來說,這本書在學習概率論等方面花費了大量精力。這本書強迫您學習的內容遠不止所涵蓋的特定分析。因此,如果您的目標是以最短的時間學習如何執行方差分析,那麼這本書並不是一個好選擇。然而正如我所說,我不認為這是您的目標。我認為您想要學習如何進行數據分析。如果這真的是您的目標,您會想要確保您在入門統計課上學到的技能能夠自然、順暢地擴展到更複雜的實際世界數據分析中所需的模型。您要確保您學習使用真正的數據分析師使用的相同工具,以便您可以學會他們在做什麼。所以,是的,您現在是一個初學者(或者當您開始這本書時是初學者),但是這並不意味著您應該得到一個簡單化的故事,一個我不告訴您概率密度是什麼的故事,或者一個不告訴您失衡設計的主成分方差分析有多麽可怕的故事。且並不意味著您應該得到玩具而不是適當的數據分析工具。初學者并不愚笨,他們只是缺乏知識。您需要的不是從真實世界的複雜數據分析中隱藏複雜性。您需要的是讓您能夠在當它們在現實世界中不可避免地突襲您時處理這些複雜性的技能和工具。
我希望這本書,或者這本書最終會轉變成的完整版本,能夠在這方面提供幫助。
作者註:我以前提過,但我將快速再次提及。這本書的參考文獻列表非常不完整。請不要認為這些是我所依據的唯一來源。最終版本的這本書將包含更多引用。如果您在這本書中看到任何看起來很聰明的內容似乎沒有引用,我絕對保證這些想法是其他人的。這是一本入門教材:沒有一個想法是原創的。我將為所有的錯誤負責,但我不能因為任何好的東西而得到讚賞。這本書中所有聰明的地方都來自于其他人,他們都應該得到適當的歸屬以表彰他們優秀的工作。我只是還沒有機會這樣做。