1 為什麼要學習統計

汝不可填答任何試卷
或回答全球事務的試題,
也不可順從接受任何考試。
汝不可同意統計學家的意見,
也不可順從任何社會科學主張。
– W.H. 奧登¹

1.1 首先談談統計的心理學

先講一個讓許多心理系新鮮人驚呆的事實，統計學在心理學課程佔有相當的份量。另外一個不令人意外的事實，是統計學很少被上過心理學課程的同學推薦。畢竟正常來說，喜歡統計的同學都是去修統計系的課，而不是來上心理學系的課。不需要太正式的調查，一大部分正在上心理學課程的同學，想必很不高興要學這麼多統計。為了幫助同學渡過這段不適應，我想先來談談一般人對於統計學的一些常見疑問。

這個問題的很大一部分與統計學的本質有關。統計學是什麼？統計學是做什麼用的？為什麼科學家如此迷戀統計？這些都是值得好好回答的問題，我們先從最後一個問題開始談吧。科學家們似乎想對每件事情進行統計分析，旁人看來近乎固執。科學家確實經常使用統計學，有時候甚至忘記向一般人解釋為什麽這樣做。這是科學家之間的一種信仰，尤其是社會科學家。任何科學家沒有完成統計之前，他的發現是不會被其他科學家信任的。大學新鮮人看了，可能會學得這群人都是瘋子，因為沒有科學家會花時間向一般人回答這個非常簡單的問題：

為什麼當心理學家要會使用統計？為什麼科學家不能憑生活常識做研究？

在某些方面，這是一個天真的問題，但大多數好問題都是這樣開始的。對此問題已經有許多有意思的回答²，不過我心中最好的回答是一個大家都懂的人性現實：人類無法充分信任自己的判斷。正是因為了解人類本身，很容易受到各種偏見、誘惑和軟弱而影響個人的判斷。在很多情況，統計學提供一種基本保障。使用”生活常識”評估證據意味著信任直覺，依靠言語推論以及使用人類原生的推理能力找出正確答案。但是大多數科學家認為這種方法不太可靠。

其實好好地想一想，這很像是一個心理學家會研究的問題，既然我在心理學系工作，這似乎是個值得深入研究的好題目。真的有道理認為”靠常識”做出的研究是值得信賴的嗎？言語推論是用語言構建的，所有語言都帶有偏見 - 像是有些事情特別難說，並不一定是因為它們是錯的（例如，量子力學是一個很好的理論，但很難用言語解釋）。因為人類的”直覺”本能並不是用來解決科學問題，而是用來應付日常推論問題 - 由於生物演化速度比文化演化遲緩，我們應該說直覺是為了解決不同於我們的生活經驗的日常問題而設計的產物。科學研究的根本是理性推理，需要我們進行”歸納”，做出明智的猜测，超越用感官接收的證據，概括這個世界的樣貌。如果你認為有本事不受各種外界干擾進行理性推理，那麼我有份年薪百萬，請你去柬埔寨打工的機會想介紹給你³。哎呀，正如下一節我要說的，我们也無法解决不需要猜測的”演繹”問題，也就是那些不會受到預先存在的偏見所影響的問題。

1.1.1 信念偏誤的詛咒

大多數人類都很聰明。我們肯定比地球上其他物種要聰明得多（盡管可能很多人不這麽認為）。人類的思維能力是非常神奇的產物，我們似乎有能力思考和推理任何不可思議的事情。但是這並不意味著人類完美無缺。心理學家累積多年的研究已經表明，人類確實很難保持中立，公正地評估證據，而不會受到預期偏見的影響。有個很好的例子是邏輯推理中的信念偏差效應：如果你要求我判斷一個特定的論點是否在邏輯上是正確的（也就是說，如果前提是真實的，結論就是真實的），我常常會受到結論的可信度影響，即使我明知不該如此。以下是一段結論可信的有效邏輯論證：

所有香煙是昂貴的 (前提 1)
有些會上癮的東西是便宜的 (前提 2)
所以有些會上癮的東西不是香煙(結論)

再看這一段結論不可信的有效邏輯論證：

所有會上癮的東西是昂貴的 (前提 1)
有些香煙是便宜的 (前提 2)
所以有些香煙不是會上癮的(結論)

兩段論證的結構都是相同而且有效⁴。然而第二段的前提1有理由相信並不正確，所以有人會認為結論也不正確。其實無論前提的內容如何，論證的演繹有效性僅取決於前提與結論的結構。也就是說，有效論證不必然要包括真實的敘述。

另一方面，無效的論證也能有讓人相信為真的結論，就像下一段論證：

所有會上癮的東西是昂貴的 (前提 1)
有些香煙是便宜的 (前提 2)
所以有些會上癮的東西不是香煙(結論)

最後來看以下這段無效演繹且結論不可信的論證：

所有香煙是昂貴的 (前提 1)
有些會上癮的東西是便宜的 (前提 2)
所以有些香煙不是會上癮的(結論)

假設人類真的完全能夠放下對於敘述真實性的預期偏見，僅憑邏輯有效性評估論點是否合理。那麼我們可以設計實驗，測試看看是否所有人都會認為有效論證是正確的，沒有人會說無效論證是正確的。我把這樣的假設製成表1.1 。

表1.1 判斷人類能拋開偏見進行有效論證的假設結果
	結論應該為真	結論應該為假
論證有效	100% 認為“有效”	100% 認為“有效”
論證無效	0% 認為“有效”	0% 認為“有效”

假如心理學研究結果就像表內的數值（或者只是接近這樣的數值），我們可能覺得完全靠人類的直覺就能做出結論。只要是像這樣的研究結果，科學家完全可以根據他們的常識評估結果數據，不用花時間處理那堆讓很多人看不懂什麼意思的統計分析。然而，你們已經至少修過心理學概論，對於這套實驗的真正結果應該略知一二。

Evans et al. (1983) 做了一系列探討人類如何進行邏輯推論的經典實驗。他們發現只有結論敘述符合多數人的預期偏誤(也就是信念)，實驗結果才會接近人類能做有效推論的假設(表1.2)。

表1.2 預期偏誤與論證有效性的實驗結果
	結論應該為真	結論應該為假
論證有效	92% 認為“有效”
論證無效		8% 認為“有效”

雖然不夠完美，但是這樣的結果也算不錯了。不過看看另外兩個與一般人的直覺完全相反實驗情況，與表1.1的完美假設完全不同(表1.3)。

表1.3 直覺判斷與論證有效性的實驗結果
	結論應該為真	結論應該為假
論證有效	92% 認為“有效”	46% 認為“有效”
論證無效	92% 認為“有效”	8% 認為“有效”

哎呀，這不是好解釋的結果。實驗結果顯示似乎向一般人講述一個與既有信念互相矛盾但有邏輯效力的論點時，人們很難相信這是一個強而有力的論點（只有 46% 的人會相信）。更糟的是，向一般人講述一個與既有偏見相符但沒有邏輯效力的的論點時，幾乎沒有人能看出這個論點無效（高達 92% 的人判斷錯誤！）。⁵

如果仔細想想，這並不是很糟糕的結果。總體來看，一般人的表現比隨機亂猜好，大約有60％的人做出了正確的判斷（隨機亂猜應該是50％）。即使如此，如果你是一名專業的“證據鑑識人員”，有人送你一個可以提高正確決策的機率的神奇工具，比如說從 60% 到95% ，你應會欣然接受吧？幸好我們有一種工具可以做到這一點。這種工具不是魔法，而是統計學。這就是為什麼科學家喜歡使用統計的最主要原因。我們很容易「信任我們想要相信的」。所以如果我們要做到「信任資料」，就需要一些工具幫助我們控制個人偏見。而這就是統計學的用途，它能幫助我們保持推論的誠實。

1.2 談一談辛普森悖論

接著來談一則真實故事(我想應該是真的)。1973年，美國加州大學柏克萊分校高層擔憂該年研究所的入學申請人數及錄取的狀況。更明白的說，他們覺得錄取的學生呈現性別不平等的狀況(見表1.4)。

表1.4 柏克萊男女新生報考人數及錄取比例
	申請者人數	通過比例
男性	8442	44%
女性	4321	35%

當年的柏克萊校方擔心被申請入學的學生告上法院！由於將近有13,000名申請者，男女之間的錄取率相差9％，這樣的差距實在太大了，不可能是巧合。而且人數如此龐大，可說是鐵一般的事實。但是如果我對你說，這些數據實際上反映了對女性申請者些微的偏袒，你可能會認為我搞錯了或者有性別歧視。

然而，實際情況卻有點出人意料。仔細檢視錄取資料後，有人發現了另一個版本的故事(Bickel et al., 1975)。具體地說，當校方按照學系逐一計算錄取率時，會看到多數學系的女性錄取率實際上略高於男性。表1.5 顯示了六個最多申請者的學系錄取情形（為了保障隱私，以下省略學系名稱）：

表1.5 1973年伯克萊大學六個學系錄取學生的性別分佈
	男性		女性
學系	申請者人數	錄取比例	申請者人數	錄取比例
A	825	62%	108	82%
B	560	63%	25	68%
C	325	37%	593	34%
D	417	33%	375	35%
E	191	28%	393	24%
F	272	6%	341	7%

令人費解的是，大多數系所的女性錄取率都比男性高！但是整個大學的女性錄取率卻低於男性。這怎麼可能？這兩種說法怎麼可能同時成立？

其中究竟發生了什麼事。首先，請留意各系的錄取率並不相同：某些學系，像是A系和B系，傾向錄取最多合格申請者，而其他學系則寧缺勿濫，像是F系，即使申請者資質不差，也傾向不錄取多數申請者。表1.5顯示的六個學系，A系是最好上榜的，其他五系錄取率依遞減。其次請注意，男生和女生申請的學系並不相同。以男性申請者人數排序，會看到六個系的錄取率排序是A>B>D>C>F>E(粗體字是“最好上“的學系)。整體而言，男生偏好申請錄取率高的學系。接著比較一下各系女性申請者的分佈情況。以女生申請者人數排序，就會發現六個系錄取率的排序是C>E>D>F>A>B。也就是說，申請人數似乎顯示多數女生申請”很硬”的學系。事實上，如果我們看一下圖1.1，會發現這樣的趨勢是系統性的，並且非常顯著。這種效應被稱為辛普森悖論。這種效應並不常見，但確實在現實世界曾經發生，大多數人第一次遇到這種現象都會非常驚訝，甚至許多人拒絕相信這是真實的現象。但是這種現象再真實不過。雖然其中有很多很微妙的統計教訓，但我想用這個例子指出一個更重要的教訓：每個研究都是困難的，往往隱藏很多很微妙，違反人類直覺的陷阱等著不謹慎的人掉進去。這也是科學家喜歡統計的第二個原因，也是為什麼這門課要教研究方法的原因。因為科學很難，而且真相有時會巧妙地隱藏在複雜數據的縫隙之間。

在結束這個主題之前，我想指出一些研究方法課程常常忽略的事情。那就是統計只解決了問題的一部分。記得我們一開始關注是伯克利大學的招生程序可能對女性申請者不公平。當我們檢視”聚合”的資料時，整體似乎指向柏克萊明顯歧視女性，但是當我們”分解”各個學系的資料並深入檢視男女生個人行為，其實資料顯示各學系招生狀況的差異。如果真的有偏見，其實是各系輕微偏好錄取女生。總錄取率的性別偏差其實是因為女生傾向選擇較難上榜的系所。從法律角度來看，大學高層並沒有任何責仼。要錄取誰當研究生，權責是在個別系所，並且每個系所都有充分的理由決定要怎麼做。在系所的層次，錄取決策幾乎是公平的（各系所偏好錄取女性偏好很微弱，並且不一致）。由於大學高層無法決定學生想申請哪些科系，並且決策權限在各系所，所以校方幾乎不能干預招生程序，也無需對任何偏見負起責任。

圖 1.1: 1973年柏克萊大學招生數據，取自 Bickel et al. (1975) 的圖1。圖中85個點分別代表至少接受一位女性申請入學的學系，依不分性別錄取率與女性申請入學比例繪圖。圓圈代表申請者超過40人的學系；圓圈面積代表該系申請人數佔全校申請人數的比例。十字代表申請者未達40人的學系。

這是一開始我用輕鬆閒話介紹這個案例的真正原由，但故事沒這麼簡單，對吧？畢竟，如果從社會學和心理學的角度來看這個問題，我們更想知道為什麼各系申請者有這麼大的性別差異。為什麼工程科學系的男性申請者比女性多，而英語系則是相反呢？為什麼那些女性申請者較多的科系，錄取率比男性申請者較多的系別低呢？為什麽女性申請人數較多的科系錄取率偏低，而男性申請人數較多科系錄取率卻偏高？即使每個科系取才程序都是公平的，但這是否也是一種性別偏見？也許是吧。我們可以探討為何多數男生想唸“硬科學”領域的系所，而女生大都偏好“人文”領域。我們還能探討為何人文領域系所錄取率低？是因為政府部門給的補助不夠多嗎？例如博士級職缺與政府能給的專案補助經費額度有關。這些都是造成性別偏誤的條件嗎？還是人文領域的價值並未被重視？如果政府官員都覺得人文領域只是“沒什麼用處的小玩意”，動輒刪減相關經費。這樣是不是一種公然的性別歧視？至此討論的各種問題，都超出統計能解決的範圍，不過都能形成有意義的研究專案。若是你想了解造成性別歧視的整體結構因果關係，可能要”聚合”與“分解”的資料都要檢視。若是只想探討柏克萊校內負責招生的各級部門如何決策，只要檢討“分解”的資料就行。

簡而言之，有很多重要問題是無法只靠統計數據回答的，但是分析和解釋數據對於回答這些問題有相當巨大的作用。這就是為什麼你應該把統計學當成解析數據的工具，因為正好符合心理學等領域的需要。即使統計是一個非常好用的工具，人類在獲得謹慎思考的道路上並沒有捷徑。

1.3 心理學中的統計

希望前面的討論能夠清楚解釋，為何各種科學領域都要使用統計。不過你應該還是會質疑學習心理學為何要學習統計，也會納悶為何許多心理學課程內容都與統計有關。以下是我常聽到來自學生的質疑，以及我的回應…

為什麼學習心理學要學這麼多統計？

坦白說，有好幾個原因，其中有些原因比較值得談。最重要的原因是心理學是一門統計科學。我的意思是，我們研究的「對象」是人–真實的人是複雜的、美妙的、混亂的、還有偏激的人總令人憤怒。物理學研究的「對象」包括電子等物體，雖然物理學問題也有各種複雜的情況，但是電子沒有自己的思想。它們沒有個人意見，電子之間沒有奇怪而且任意的差異，在實驗中不會感到無聊，不會對實驗者發脾氣，然後故意搞爛實驗（我沒有做過這樣的事情唷！）。從基本面來說，心理學比物理學更難研究⁶。所以說，我們以心理學家的身份教你統計學，是因為你需要比物理學家更會掌握統計學。物理學裡有句老生常談，意思是”如果你的實驗要用到統計學，那應該要設計一個更好的實驗”。他們確實有底氣這樣說，因為物理學研究對象的混亂程度與社會科學家面對的相比，是令人妒恨的簡單。而且不只是心理學。大多數社會科學都非常依賴統計學。不是因為心理學家是糟糕的實驗設計者，而是因為心理學面對的多數問題很難只靠實驗設計解決。學習統計學是因為你真的真的需要它。

不能將統計外包給別人做嗎？

在某些情況是可以這樣，但不能全部都交給別人做。你確實不必要成為一名受過完整訓練的統計學家，也可以研究心理學，但是你需要具備一定的統計能力。在我看來，有三個原因，每個心理學研究者都應該具備基本統計能力：

首先是最基本的原因：統計學與研究設計密不可分。如果你想成為設計心理學研究的專家，你至少需要了解統計學的基礎。(譯註：單元 2 就是談研究設計)
其次，如果你想成為研究心理學的專家，那麼你就需要有能夠讀懂心理學文獻的能力，對吧？但是幾乎每篇心理學論文都有報告統計分析結果。如果你真的想徹底搞懂心理學，你就需要理解報告作者對資料做了什麼分析。也就是說你需要了解一定程度的統計學。
第三，依靠別人做統計學有一個很實際問題：統計分析是件價格昂貴的工作。如果你曾經無聊到去查詢澳洲政府制定的大學學費標準，會發現一件有趣的事情：統計學被指定為”國家優先”項目，因此學費比任何其他學科都低得多。這是因為社會各界都需要統計學專家的協助。從心理學研究者的立場來看，我們面對的是供給遠少於需求的賣方市場！幾乎任何一個心理學研究室都能看到相同的殘酷現實，就是沒有足夠經費聘請統計專家。因此，經濟現實逼迫心理學家必須自立自強。

除此之外，這些原因不只適用於從事研究的人員。如果你想成為一名應用取向的心理學家，為了掌握最新的研究進展，能夠獨立閱讀充滿各種統計報告的科學文獻也有助職涯發展。

我不打算從事與心理學有關的工作、研究或臨床實務。我還需要學嗎？

好吧，你快要難倒我了。總而言之，我相信統計學對你還是很重要的。對包括你在內的所有現代人類來說，統計學是很重要的基本知識。在21世紀的今天，隨處都是資料。老實說，今天要維持自已活得像現代人，基本的統計知識已經是必備生存工具了！下一節我繼續說給你聽。

1.4 日常生活中的統計

“We are drowning in information,
but we are starved for knowledge”
- Various authors, original probably John Naisbitt

當我撰寫統計學講義時，我從 ABC 新聞網站找了 20 篇當時最新的新聞報導。我判斷其中 8 篇文字內容有提到統計資訊，不過有 6 篇報導內容有誤。若你想知道有什麼錯誤，最常見的錯誤是沒有報告基礎數據（例如，報導提到某個情況能觀察到 5％的人具有某種特徵，但沒有說明找了多少人總計出這個百分比！）。我想說的不是記者的統計素養很糟糕（雖然多數記者的統計知識真的很糟糕），而是基本的統計知識真的非常有幫助，可以幫助你瞭解別人表達的錯誤，還有是不是隨便拿些數據製造謠言(譯注：本書翻譯工程始於2022年末，有經歷疫情的同學應該對這段時間的各種不實疫情報導有感受。)。事實上，充實統計知識後，為個人帶來的最大一種改變，就是讓你更常對報紙和網路的資訊感到憤怒。之後在單元 4 的小單元 4.1.5 ，你會看到實際例子。本書的後續更新版本，會繼續收集更多類似的錯誤報導。

1.5 統計以外的研究方法

到這裡為止，討論的研究方法大部分都是與統計學有關，你有理由相信這門課只關心和統計學有關的研究方法主題。坦白說，這麼認為並非完全錯誤，但是研究方法是比統計學更廣泛的課題。大多數研究方法課程都會涵蓋研究設計相關的實用主題，特別是進行與人類有關的研究會遇到的問題。但是，約有 99% 的學生害怕課程中統計的部分。這本書之所以著重統計學，是希望我能讓你相信統計學很重要，更重要的是，統計並不可怕。這也就是為什麼，大多數初級研究方法課程都會提到統計學。但是不是因為教師都是壞蛋，其實恰恰相反。各種入門課程之所以重視統計學，是因為同學們需要在學習各種研究方法之前，要充分了解統計學。為什麼？因為你在任何課程的所有作業都要靠統計方法才能完成，比起其他方法學工具，作業中的統計使用頻率經常居冠。心理系的作業通常不需要你從頭開始設計自己的研究（若要從頭開始，就需要了解很多關於研究設計的知識），而是要你分析和解釋別人設計的研究所收集的數據（這是你需要統計學的狀況）。就作業安排的意義來說，為了幫助你在其他課程學得好，統計學是需要優先學習的課程。

但是要注意，“優先”與”重要”是不同的概念 - 雖然兩者都是關鍵。我想強調的是研究設計和數據分析同樣重要，本書確實花了相當多篇幅在這些主題。然而，雖然統計學具有某種普遍性，提供了一套對許多類型的心理學研究都有用的核心工具，但是不是所有研究方法都會運用統計。有些研究設計的一般原則是每個研究者都應該注意，但是許多研究設計非常特殊，並且只有在特定研究領域才會使用。基礎統計和研究方法課程考慮到細節的重要性，不一定會介紹這些特殊的研究設計。

出自奧登在哈佛大學1946年的畢業典禮致詞中詩作『在哪張豎琴下：時代的反動手冊』。有興趣了解這段致詞的歷史背景，可參考這裡: https://www.harvardmagazine.com/2007/11/a-poets-warning.html ↩︎
其中包含多數科學家缺乏常識的說法。 ↩︎
譯註~原文”I have a bridge in London I’d like to sell you.”是澳洲俚語，意指對方容易受騙上當，在此改寫為台灣人都知道的典故。↩︎
譯註~ 請參考維基百科直言三段論，此處的論證格式稱為2-AOO。↩︎
這能解釋那些網路上令我感到憤怒的訊息，其中95%的成因。↩︎
這也許可以解釋為什麼物理學作為一門科學，比心理學略微先進。↩︎