中場故事
本書第IV部分的三個單元都是理論成份最重的單元,每個單元都是談統計推論的基礎理論。學生們將在 單元 7 學習機率論與取樣原理, 在 單元 8 了解參數估計方法,在 單元 9 學習統計假設檢定。進入這些單元之前,我想從高一點的思想層次談談這些理論。統計推論的主要功用是從資料裡獲得資訊,不僅僅是要描述資料的特徵,更是要運用資料分析結果進行推論,增加我們對世界的認識。為了激發同學們的思考,這裡要花些篇幅討論一個被稱為歸納謎題或古德曼悖論的哲學難題,這個悖論牽涉一個本書不斷會提到的問題:任何推論統計方法要符合該方法的適用條件(assumptions),分析結果才能用來推論。這句話聽起來不大妙,因為我們也會經常聽到像是“永遠不要相信任何有適用條件的東西”之類的警語,更不用說很多心理學課程經常提到適用條件和偏見(bias)是人類應該避免的認知失誤。就個人的痛苦經歷,我(原作者)已經學會永遠不要在哲學家面前說出這樣的話!
邏輯推理的侷限
戰爭的藝術在於洞悉每座山的背面有什麼,或者說,從我們所知道的事物學到我們所不知道的。
這句名言據說來自英國陸軍名將威靈頓公爵,某次與他的好友約翰·克羅科爾搭乘馬車經過鄉間小路前往(滑鐵盧)戰場,一路上玩的猜謎遊戲,兩個人各自打賭每經過一座山,會看到什麼東西。猜到最後,每一次都是威靈頓猜中,克羅科爾全輸。多年之後有人問威靈頓怎麼這麼會猜,他答說“戰爭的藝術在於知悉每座山的背面是什麼”。確實,戰爭就是較量對對戰的雙方,那一方最能料得先機。我們每天過的日常生活在許多方面,都是有來有往的猜謎遊戲,想要平安度過每一天,需要在當下做出好的猜測。接下來我們玩一場只有「我」和我的影子(以下用「你」稱呼)對話的猜謎遊戲。
假設你和我正在目擊威靈頓和克羅科爾每一次的打賭,每經過三座山,你我都要預測誰會猜對下一座山背面出現什麼。以下用W代表威靈頓猜對,C代表克羅科爾猜對。一開始的三座山之後,雙方的勝負是:
\(WWW\)
你和我的對話如下:
「你」:三連勝並沒有太大意義。我猜威靈頓可能比克羅科爾更會猜測,但這也可能只是巧合。儘管如此,我還是基於賭徒精神,押接下來三座山都是威靈頓猜對。
「我」:我同意三連勝並沒有提供足夠信息,我也找不到任何理由應該看好威靈頓而不是克羅科爾。在這一輪我不能證明下注是正確的。很抱歉,我不會下注。
「你」賭贏了,接下來的三座山,威靈頓全猜對了。進入遊戲的下一輪,比分是1比0,你獲勝,更新的勝負狀況是:\(WWW\) \(WWW\) 「我」將勝負資料分成三個字母構成的區塊,以便讀者明白到每一輪的勝負結果是符合「你」還是「我」的推測。又過了一輪,威靈頓又全猜對了。更新了資料區塊:\(WWW\) \(WWW\) \(WWW\),「你」和「我」的對話繼續:
「你」:很明顯,威靈頓 在這場較量中表現更好。我們都同意下一座山他也會猜贏,對吧?
「我」:這個結論真的有什麼邏輯依據嗎?在我們開始這場遊戲之前,前10座山有很多可能的結果組合,我也不知道會是哪一種。\(WWW\) \(WWW\) \(WWW\) \(W\) 是一種可能,但是 \(WCC\) \(CWC\) \(WWC\) \(C\) 和 \(WWW\) \(WWW\) \(WWW\) \(C\) 或者甚至 \(CCC\) \(CCC\) \(CCC\) \(C\) 也都是可能的。因為我根本不知道接下來會發生什麼事,所以我會說這些結果的可能性是一樣的。我假設你也是這樣想的,對吧?我的意思是,這就是“完全不知道”的意思,不是嗎?
「你」:我想是的。
「我」:那麼,現在的觀察結果從邏輯上排除了許多可能結果,只剩下兩種結果會發生:\(WWW\) \(WWW\) \(WWW\) \(C\) 或者 \(WWW\) \(WWW\) \(WWW\) \(W\)。這兩種結果都和我們目前觀察到的證據完全吻合,不是嗎?
「你」:是的,當然是的。你想說什麼?
「我」:那麼接下來會有什麼改變呢?遊戲開始時,你會同意這兩種可能結果同樣合理,而我們觀察到的證據也没有區分這兩人誰比較會猜。所以,這兩種結果可能性仍然同樣合理,我看不出有任何邏輯依據,讓我們可以偏好其中一種結果。所以,是的,雖然我同意你看好威靈頓的9連勝很令人印象深刻,但是我想不出任何理由認為他在第10座山會猜贏。所以我不押注。
「你」:我理解你的看法,但是我仍然願意繼續下注。我押威靈頓猜對。
在接下來的三場賭局中,威靈頓繼續連勝。威靈頓-克羅科爾比賽的比分來到12比0,「你」和「我」的遊戲比分來到3比0。第四輪的結果總結為資料區塊是:\(WWW\) \(WWW\) \(WWW\) \(WWW\) 然後繼續對話:
「你」:太好了!威靈頓再次取得三連勝,我也再次獲勝了。你得承認,我對他的判斷是對的!我想下一輪我們都會押威靈頓,對吧?
「我」:我不知道該怎麼想。我覺得我們和上一輪的情況差不多,沒有太大變化。來到第13次,雙方賭局的可能結果只有兩種:\(WWW\) \(WWW\) \(WWW\) \(WWW\) \(C\) 和 \(WWW\) \(WWW\) \(WWW\) \(WWW\) \(W\)。就像我前一輪說的,如果在遊戲開始前所有結果都同樣合理的話,那麼我們的觀察無法排除以上任何一種,這兩種結果發生的可能性都是一樣的,不是嗎?我同意你的直覺,威靈頓正處在令人驚嘆的好運之中,但是哪裡有什麼邏輯可以證明他會繼續保持下去呢?
「你」:我認為你的想法很不合理。如果你需要證據,為什麼不看看我們的記分表呢?你是統計學專家,一直在使用這麼費事的邏輯分析,但事實是你一直輸。我只是依靠常識,而我不斷獲勝。或許你應該改變策略。
「我」:嗯,你說的有道理,我也不想輸,但是恕我直言,我看不出有任何邏輯能證明你的策略比我的更好。在我看來,如果有其他人正在旁觀我們的較量,他們看到你取得了三連勝,紀錄資料會像是這樣: \(YYY\)。 邏輯上,我認為這和我們第一次紀錄威靈頓和克羅科爾的勝負 沒有兩樣。你的三次獲勝並不算很有力的證據,我也不認為你的策略有任何優於我的地方。如果我不認為 \(WWW\) 是威靈頓比克羅科爾更厲害的有力證據的話,那麼我現在當然也沒有理由相信 \(YYY\) 是你比我更擅長這場較量的有力證據。
「你」:好吧,現在我認為你在賣弄學問。
「我」:我看不出有什麼邏輯證據可以證明這一點。
了解統計理論不需要在乎適用條件嗎
我們可以從許多角度分析上面的對話,但是因為這本書的目標讀者是學習使用統計的心理學家,而不是哲學或推理心理學的專業人士,我只會簡單帶過。上面對話的有時被稱為歸納謎題,認為威靈頓的12連勝是「你」猜對第13場較量結果非常有力的證據,這種想法看起來非常合理,但是很難對這種像是信念的想去提供恰當的邏輯證明。相反,儘管答案很明顯,但如果不依賴某些「你」沒有任何邏輯依據的適用條件,實際上不可能證明押注威靈頓是對的。
歸納作為哲學難題,最主要與大衛·休謨(David Hume)和納爾遜·古德曼(Nelson Goodman)的哲學成就有密切關係。此外,還可以在各個領域找到這個問題的例子,例如文學作家(像是寫愛麗絲夢遊境的路易斯·卡羅 )和機器學習(“免費午餐”定理)。「從我們所知道的中學習我們不知道的東西」的經驗談,確實聽來有些不合人性及直覺。其中的關鍵是,如果你想了解世界上的任何事物,適用條件1和偏見是不可避免的。這是無法逃避的,統計推論和人類推理一樣也是如此。在對話中,我試圖採取合乎一般人都能做的人類推理,但是你所依賴的常識推理跟統計學家所做的没有區別。在對話中,依賴“常識”的「你」,沒有說出來的含適用條件是威靈頓和 克羅科爾之間,在推論戰場狀況的能力存在某些區別, 「你」要說清楚的,就是設法指出他們之間能力差異的關鍵。而「我」的“邏輯分析”,則完全拒絕這種適用條件。「我」只願意接受的是都是勝利和都是失敗的資料序列,並且我不知道還會觀察到哪些結果。在整個對話中,「我」堅持認為在威靈頓和克羅科爾兩人的遊戲開始時,所有在邏輯上可能的資料集都同樣合理,「我」能修正信念的唯一方式,只能是消除與觀察事實不一致的可能結果。
拿「邏輯」這兩個字出來說理,聽起來非常有道理。事實上,這兩個字甚至是良好的演繹推理的正字標誌。就像福爾摩斯一樣,「我」的方法是排除所有不可能發生的事情,找出最後真相。然而,看完整段對話後,排除所有不可能發生的事的「我」,從未能夠做出準確預測。光就論述方式來看,對話中的「我」說的每一句話都是完全正確的,不過無法作出任何有效預測,正是“不相信有任何適用條件”的邏輯造成的結果。到最後「我」輸掉了這場遊戲,因為「你」接受了一些適用條件,接受這些觀察結果是有用的。雙方的能力差距是真實存在的,「你」相信能力的差距,所以能夠接受威靈頓的洞察力勝過克羅科爾的事實。另一方面,若是「你」的接受另一個不太合理的適用條件,「你」可能就不會在遊戲最後獲勝了。
最後有兩件事情是學習統計推論方法的讀者應該先了解的。首先,本書一直強調,任何想要從資料學到任何東西的人,必須先設定適用條件。其次,只要讀者意識到適用條件是必要的,那麼學習如何確保使用的統計方法符合適用條件,就是非常重要的功課!符合較少條件的資料分析不一定比符合更多條件的分析好,這完全取决於你的資料適合那些適用條件。在這本書的後半部時,你會經常看到某種統計方法需要什麼樣的適用條件,以及如何檢核這些條件是否成立。
譯註~同學們也許在一些地方看過”hypothesis”與”assumption”都被翻成「假設」,但是在英文這兩個詞是有區別的。“hypothesis”是指根據某種科學理論,設定實驗結果可能是什麼樣子。“assumption”是指研究運用的收集與分析資料的技術,必須符合什麼條件才會有效。因此”hypothesis”翻成「假設」是合理的,“assumption”應該翻成「適用條件」。本書的用詞將依此原則翻譯。↩︎