2  研究設計入門

“實驗完成後才諮詢統計學家,只是請他幫忙驗屍而已。統計學家只能為你開出實驗的死亡證明。” – 羅納德·愛爾默·費雪爵士1

這一章是談入門研究設計要知道的基本概念,像是收集資料,如何確認收集的資料是符合目的等等。雖然同學們讀完這一章無法開始一項真正的研究,卻能掌握解讀與評估已公開發表研究設計的初級工具。由於這本書的學習重點是資料分析,而不是如何收集資料,這一章只會給你很簡單的介紹。這一章有兩個“特別之處”,首先這一章談到的心理學知識比之後的章節多,其次這一章討論研究方法的科學問題比資料分析的統計問題還多。科學問題與統計問題密不可分,傳統統計書考慮篇幅,比較少討論科學問題。這一章大部分內容來自 Campbell & Stanley (1963)Stevens (1946) 關於測量尺度的討論。

2.1 認識心理測量

導讀簡報

首先請同學理解資料分析就是一種測量。在心理學系要學的就是如何測量人類行為及心智活動。那麼到底”測量”是什麼?

2.1.1 心理測量面面觀

測量並不是一個實在的概念,而是泛指賦予可觀察的屬性數值、標記、或者某種清晰定義之類的表述。以下都是心理測量的實際例子:

  • 我的年齡33歲。
  • 我不喜歡 小魚乾
  • 我的染色體性別男性
  • 我的自我認同性別女性

以上例子裡的粗體字是“可被測量的事物或 屬性”,斜體字就是“測量值”2。我們可以再對每個例子做些深入探討,了解每種測量的細節:

  • 我的年齡(以年計)可以是0,1,2,3…。年齡的上限是多少沒人知道,不過你可以假定我能活到150歲,雖然還沒有人類活到這麼老。
  • 若你問我喜歡小魚乾嗎?我可以回答我喜歡我不喜歡我沒有喜不喜歡我有時候喜歡
  • 我的染色體性別在多數情況下是男性(\(XY\))女性(\(XX\)),不過凡事總有例外。我可能有克林那費爾特症候群(\(XXY\)),使得我有男性和女性性徵。當然還有其他性染色體變異的可能。
  • 我的自我認同性別也許傾向男性或女性,而這和我的染色體性別無關。我也可以認為自已不是二元性別,也可以宣稱是跨性別

如你所見,有的例子像是能間單測量數值的項目,例如年齡,但是有些研究主題的特殊考量會讓測量變得複雜。因為年齡是大家都能理解的例子,這裡先用年齡做個說明。讀到這裡的同學可能會想,用“年度”做為測量年齡的數值不就好了嗎?若是你加入發展心理學的研究,“年度”可能不是精確的測量單位,可能還有加上“月份”,例如找到兒童參與者2歲11個月大,可縮寫為”2:11”。如果研究對象是新生兒,可能要紀錄出生到現在的“天數”,甚至要用“小時”紀錄。總而言之,確認在研究主題之下,什麼是有意義的測量數值是重要的第一課。

更仔細地探討下去,我們會發覺“年齡”並不是全然精確的概念。在一般情況,我們講“年齡”有隱含“從出生到現在的時間長度”的意思。但是並不是每次提到“年齡”就是這樣的意思。設想在一個研究新生兒控制眼球運動的實驗室,受測幼兒的”出生時間”不一定是實驗人員記錄“年齡”的有意義參照點。如果今天找到兩位“出生兩小時”的新生兒,一位是比預產期提前三週出生的早產兒,另一位比預產期晚一週出生,那麼研究人員能紀錄這兩位新生兒“年齡相同”嗎?從日常社會互動的情境來說,每個人都是以出生時間做為計算年齡的參照點,因為任何人都能接受每個人出生後都是獨立生活的個體。然而在科學研究的情境要考慮的就不只如此。將人類當成一種生物的話,最能獲得充分分析的年齡紀錄,應該從個體受孕那一刻起,紀錄成長到成熟的狀況。所以“年齡”的測量定義有兩種:從受孕時間起算的年齡,以及從出生時間起算的年齡。研究對象是成人的話或許不必計較兩種定義的區別,若研究對象是新生兒也許要考量那種定義才符合研究目的。

由測量定義問題再討論下去,就是方法學的課題了。有關人類年齡的”測量方法“,同學們能想到或找到幾種有用的調查方法呢?以下是一些你可以參考的做法:

  • 直接問受測對象”你現在幾歲?“ 這種自陳式報告是快速、便宜又簡單的調查方法。不過必須確認受測對象已經成長到有能力回答調查問題,並且不會給不實回答。
  • 詢問可靠的消息來源,像是受測幼童的父母親“你們的孩子幾歲?”這種調查方法實施快速,特別是受測者的父母親就在旁邊的情境。不過如果要調查的是”受孕年齡“,大多數父母親都不清楚是什麼時候開始懷孕的。這時也許要詢問更可靠的來源,像是他們的婦產科主治醫師。
  • 尋找官方紀錄,像是個人的出生與死亡證明。這種方式耗時又勞力,不過如果研究對象是已往生的人是種可靠的來源。

2.1.2 操作型定義: 定義研究的測量方法

以上討論這麼多,是要引導同學理解操作型定義的概念。用更清楚簡潔的話來說,操作型定義是將有意義但有些模糊的概念,轉換為精確測量程序的設定過程。完整的操作型定義要在過程中考慮這些條件:

  • 清楚定義研究要測量的項目。以“年齡”為例,研究要測量的是“胎兒出生起算的時間長度”還是“母體受孕起算的時間長度”。
  • 確認用什麼方法進行測量。同樣以“年齡”為例,研究要用自陳式報告、詢問受測對象雙親、還是查閱官方紀錄?如果決定用自陳式報告,要如何設定問題內容?
  • 定義可做紀錄的測量數值範圍。請留意數值不一定要是數字!雖然年齡的測量數值無疑問題數字,依然要考慮什麼單位的數字是需要被紀錄的。是年份?月份?還是小時?像性別一類數值不是數字的測量方法,同樣也要考慮數值的範圍。像是請受測對象透過自陳報告回報性別,要設計什麼樣的選項讓人選擇?只有“男性”和“女性”兩個選項夠嗎?需不需要增加“其他”這一項?或者改用開放式回答,讓受測對象自已寫下個人認同的性別?如果確定使用開放式回答,要如何解讀各式各樣的答案?

設定操作型定義有各種方法,沒有一種“唯一正解”。任何研究都是根據測量目的,透過設定操作型定義的過程,將“年齡”與”性別”等不具形式的概念,轉化為可用數值形式表達的測量值。每個科學領域都對研究對象的測量方式有基本共識。因此,要理解如何設定操作型定義,是因研究主題而異。畢竟有許多主題存在大量差異化的個別研究,有些主題則有一致的研究模式,無法用統一的方法設定操作型定義。

進入下一節之前,讓我們整理一些之後的單元會經常遇到,與測量有關的專有名詞,這些名詞彼此之間有許多關聯:

  • 理論建構(A theoretical construct) 研究者想要測量的目標,像是”年齡”、“性別”、或”選項”。理論建構不能直接觀察記錄,都是模糊抽象的概念。
  • 測量程序(measure)3 測量程序是進行觀察紀錄的方法或工具。像是問卷的題目、行為觀察、腦部活動掃瞄都是一種測量程序。
  • 操作型定義(operationalisation) 測量程序與理論建構之間的邏輯關連條件,或是將理論建構轉換為測量程序的過程。
  • 變項(variable) 執行測量程序的最終成品就是“資料”,一個變項就是”資料”的集合4

在統計實務,即使是訓練過的科學家也不大會去管這些名詞的差異,但是對於正在學習的同學們,搞清楚這些名詞的涵義會很有幫助。

2.2 測量尺度

前一節最後提到心理測量程序的產物就是變項。一份資料檔通常不只有一個變項,而且各種變項有本質的區別,所以這一節要好好認識幾種變項型態。同學們將認識各種測量尺度以及學會判斷資料的變項型態。

2.2.1 名義尺度

名義尺度變項又稱類別變項,命名理由是代表資料的每個數值之間沒有任何明確關係。名義尺度變項的資料之間,沒有那一個數值比較”大”或比較”好”,因此也無法計算這筆變項的平均值。最典型的例子是”瞳孔顏色”。人類瞳孔有藍色、綠色、棕色等各種顏色。沒有人能說瞳孔有所謂的”平均顏色”。人類性別也是典型的名義尺度變項:男性或女性沒有那一種比較好或比較不好,當然也沒有所謂的”平均性別”。總而言之,以名義尺度紀錄的資料,不同數值之間只有各自不一樣的意思而已。

讓我們再用一個例子更深入了解名義尺度。假如今天要研究民眾如何通勤上班,我們可以設定資料變項記錄每個人是用什麼交通方式去上班。“通勤方式”這個變項可能有好幾種數值:像是“火車”,“公車”,“汽車”,“自行車”。假設調查100位民眾,得到了這四種回答,完成的紀錄就如表2-1。

表2-1: 調查100位民眾本日通勤方式
通勤方式 人數
(1)火車 12
(2)公車 30
(3)汽車 48
(4)自行車 10

那麼這裡可以找出平均的通勤方式嗎?很明顯答案不只一個,或者說這是個蠢問題。也許你會說汽車是最多人上班的交通工具,也可以說火車最沒有民眾使用,但都不能涵括調查結果。同學們也可以看一看表2-2,無論如何變動記錄表裡的項目順序,都無法讓這筆資料透露任何意義。

表2-2: 調查100位民眾本日通勤方式,依上段描述更改呈現順序
通勤方式 人數
(3)汽車 48
(1)火車 12
(4)自行車 10
(2)公車 30

…很明顯沒有什麼改變。

2.2.2 次序尺度

次序尺度變項比起名義尺度變項能呈現一點有結構的資訊,不過沒有很多。次序尺度變項使用自然有意義的方式排序資料數值,但是除了排序我們就無法再做什麼了。最典型的例子是“賽跑選手抵達終點的名次”。先抵達終點的選手毫無疑問比第二名選手快,不過紀錄看不出快多少。紀錄一場比賽的選手名次後,我們會知道第一名比第二名快,第二名比第三名快,但是從資料看不出第一名和第二名的差距,與第二名和第三名的差距有什麼差異。

以下是個比較有心理學意義的例子。假如我想調查民眾對於氣候變遷的態度,我設計了以下幾個項目,請受訪者選出其中一個最接近個人看法的項目。

  1. 氣溫確實有上升,而且是人類活動造成的
  2. 氣溫確實有上升,但是原因不明
  3. 氣溫確實有上升,但是與人類活動無關
  4. 氣溫沒有變化

以上四個項目的順序是根據當前已知的科學研究資訊排列,第1項看法最符合現在的研究所知,第2與第3項是尚有研究證據支持的看法,第4項看法與所有研究證據相左。若是受測者們對於已知科學證據有充分了解,以上四個項目的排序就是符合多數人的看法。如果我將選項用以下段落的方式排序,則是不符合多數人的看法。

  1. 氣溫確實有上升,但是與人類活動無關
  2. 氣溫確實有上升,而且是人類活動造成的
  3. 氣溫沒有變化
  4. 氣溫確實有上升,但是原因不明

…這個例子說明心理測量的“結構”是資料呈現出多數人的合理回應。

假設我成功收集了100位民眾的回應,調查結果總計如表2-3。

表2-3: 氣候變遷態度調查結果
調查項目回應 人數
(1)氣溫確實有上升,而且是人類活動造成的 51
(2)氣溫確實有上升,但是原因不明 20
(3)氣溫確實有上升,但是與人類活動無關 10
(4)氣溫沒有變化 19

資料分析能獲得幾種合理解釋,其中一種是最多民眾回應代表理性意見的(1),(2),(3),或者說100位受訪中的81人至少有理解最新科學研究。另一種合理解釋是至少一半受訪者傾向不同意氣候變遷是現實的看法,因為100位受訪者中的49人選擇不同於主流科學觀點的(2),(3), (4)。然而也可能很難合理解釋為何有九成受訪者選擇(1),(2),(4),因為這三項的排序不符合預期的順序結構,無法說明最多人選擇的三項有什麼意義。

以上的說明是向同學們示範,次序尺度變項資料要符合預期中的”順序結構“,才會有合理的分析,而且我們不能計算數值之間的平均。如果我們用回應人數計算加權平均,雖然可以得到平均值1.97,但是這個數值對於解釋調查結果沒有任何幫助。請同學想想這個數字能不能做為報告的結論。

2.2.3 等距尺度

不同於名義尺度與次序尺度變項,等距尺度和比例尺度變項以可數的數字表數值,能獲得有意義的資訊。等距尺度變項的數值之間差異是可以推論的,但是變項數值沒有“自然的”零點。攝氏溫度是一個說明等距尺度變項的好例子。例如是,昨天氣溫是 15\(^{\circ}\),今天氣溫是 18\(^{\circ}\),所以兩日的溫差是3\(^{\circ}\)。更重要的是,這個3\(^{\circ}\)與氣溫7\(^{\circ}\) 與 10\(^{\circ}\)的差異是完全相等。簡言之,用等距尺度變項數值的做加法或減法是有意義的5

然而,攝氏零度並不是“量不到溫度”的意思,最早攝氏零度是根據“觀察到水開始結冰”而指定的數值。這造成溫度的數值無法相乘或相除:要說20\(^{\circ}\) 比10\(^{\circ}\) 熱兩倍是荒誔的,也不可能說20\(^{\circ}\) 是-10\(^{\circ}\) 的負兩倍。

我們再來舉心理學的例子吧。假如我想要了解各位同學在大學四年間學習態度的變化,最好的方式是每學年或學期開始,就請同手們做一次態度調查。這樣的記錄就是等距尺度變項資料。如果我手上的紀錄有一位學生是2013年的,另一位學生的紀錄是2018年的,向你們報告說2018年學生接受調查的時間是2013年的”1.0025倍“,這樣說奇不奇怪呢?

2.2.4 比例尺度

最後一種變項型態是有零點的比例尺度,也就是說變項數值是可以相乘且相除的。有個不錯的心理學研究常用的比例尺度變項是反應時間(RT)。許多心理學作業都會紀錄參與者花了多少時間解決問題或給出回答,因為時間長度是作業難度的指標。假如今天有項作業,參與者A花了2.3秒回答,另一位參與者B花了3.1秒。就像等距尺度變項,比例尺度數值的相加與相減是有意義的,也就是我們可以說受試者B比起受試者A多花了3.1 - 2.3 = 0.8秒。同學也要留意反應時間數值的乘法與除法是有意義的:我們可以說受試者B比受試者A花了 3.1/2.3 = 1.35倍的時間完成回答。能做完整四則運算的原因是,反應時間有真正的”零點”~零秒就是沒有反應記錄。

2.2.5 連續與間斷變項

還有另一套變項型態是同學們需要知道的:連續變項與間斷變項。不論你要處理的測量尺度是什麼,也會具備切換為連續變項與間斷變項的條件 (見表2-4)。我將連續與間斷變項的差異整理一下:

  • 連續變項(continuous variable)的任何兩個數值之間,都能存在另一個數值,因此是連續的。
  • 間斷變項(discrete variable)的數值當然不是連續的。任何兩個相鄰的間斷變項數值,不可能存在其他數值。
表2-4: 測量尺度與間斷/連續變項的關聯性。細格內的符號是jamovi的變項標示符號。6
連續變項 間斷變項
名義尺度
次序尺度
等距尺度
比例尺度

雖然表2-5看起來有點抽象,透過一些例子就能理解如何切換。同樣用解釋比例尺度的反應時間為例,現在除了有參與者A用了2.3秒,與參與者B用了3.1秒的資料,還有一位參與者C用了3.0秒鐘,剛好記錄在前兩位之間。當然,若再有一位參與者D的記錄是3.031秒,就是在B與C之間有一筆資料。雖然真正的實驗不一定會測量得如此準確,這只是示範連續變項的主要特性是在已經存在的任何兩筆資料數值之間,都能增加一個新的資料數值。

只要變項無法在任何兩個資料數值之間增加資料,就只能是間斷變項。像是名義尺度變項永遠都只能是間斷變項。如同火車走的鐵路與自行車道之間不可能有“切換機制”,名義數值2與3之間不可能增加一個數值2.3,所以名義尺度變項資料只能當成間斷變項資料處理。類別尺度變項也是只能切換成間斷變項,雖然”第2名”確實是在”第1名”與”第3名”之間,“第1名”與”第2名”之間沒有空間給其他數值。至於等距尺度與比例尺度變項,可以切換為間斷變項,也可以切換為連續變項。前面提到的反應時間(比例尺度)與攝氏溫度(等距尺度)都是可以切換為連續變項。不過如果是各位同學的入學年份,雖然是等距尺度變項,卻只能切換為間斷變項,像是2022年與2023年之間不能放入其他年份。還有假如今天同學們做了一份都是是非題的測驗,雖然每一題分數是等距尺度變項資料,也是只能切換為間斷變項,因為沒有5/10正確或6/10錯誤之類的回答。表2-4總結四種測量尺度變項在jamovi介面標記符號,以及能否切換為間斷變項或連續變項7。這一節特別解釋各種測量尺度與間斷/連續的切換關係,出於原作者的兩個理由:首先是有些統計教科書混淆了測量尺度與間斷/連續變項的定義,其次是經常聽到很多人,包括資深研究人員與統計學教師,提到「間斷變項」都會直覺認定是「名義尺度變項」,理解清楚的話就會知道這樣認定會誤讀資料8

2.2.6 複雜的現實

好啦,測量尺度與資料變項之間的切換規律或許會讓一些讀者感到震驚,不過真實世界遠比這條小規律複雜許多。其實現實生活中,只有非常少的可測量指標充分符合這條規律,所以同學們必須留意,不要把切換規律硬套在任何你遇到的測量尺度。切換規律只是指引而已,提示統計使用者在實務中如何找出處置資料的最佳方式而已9

讓我們用一個心理學家滿常用的心理測量工具~李克特量表(Likert scale)來說明現實世界有多複雜。許多調查問卷都會使用李克特量表收集受測者的回應,讀者與同學們也許已經填過好多份使用李克特量表的問卷,搞不好曾經在某份自行設計的問卷使用過李克特量表。以下是一條假想的問卷問題:

請從以下五個選項,挑出最符合您對於「所有韓星都很潮」10這句描述的看法?

  1. 完全不同意
  2. 部分不同意
  3. 即非同意也非不同意
  4. 部分同意
  5. 完全同意

這是典型的五點式李克特量表,依數值大小順序排列同意程度,讓受測者選一個數字,通常每個數字旁邊都有文字說明。不過也不必所有數字旁邊都要放文字說明,所以問卷選項也能寫成這個樣子:

  1. 完全不同意
  2. 完全同意

李克特量表是非常好用,但是用途有限的工具。怎麼說?請同學想想用這個問題收集到的回應是什麼樣的資料變項?很明顯應該是間斷變項,因為沒有人能給2.5這種答案。這筆資料也顯然不是名義尺度,因為選項是有順序的;也顯然不是比例尺度,因為沒有自然零點。

那麼這筆資料是次序尺度還是等距尺度?有一種說法是我們無法確定”部分同意”和”完全同意”之間的數值差異,與”部分同意”和”即非同意也非不同意”之間的數值差異是相等的。其實拿日常生活的任何事物做成調查問題,不必有數學知識,任何人都能同意李克特量表的任何一對相鄰數字之間差異是不相等的。所以說我們不應該將用李克特量表收集的資料當成次序尺度變項。另一種說法是假設受測者填答時,會以為選項數字1到5是均等平分的量尺,心理預設五個選項之間的差異如同標示在選項前的數字一樣。經常使用到今天,多數研究者都將李克特量表測得的資料當成等距尺度11。但是嚴格來說又不能算是等距尺度,所以在實務上心理學研究者常將李克特量表當成準等距尺度

2.3 測量的信度

導讀簡報

至此我們已經探討如何操作理論建構,以此創造一種心理測量。使用心理測量收集的資料,就會構成變項,而且測量的尺度決定變項的類型。所以我們可以進入下一個課題:這個心理測量夠不夠好?以下從兩個彼此有關的概念討論這個課題:信度和效度。簡而言之,一種測量的信度表示這種測量的準確度,而測量的效度告訴你這種測量的準確性。這一節的主題是信度;效度是研究的效度的主題。

其實信度是相當容易理解的概念,所指的就是心理測量的可重複性或一致性。像是本人的體重用“體重計”測量通常非常可靠。如果我在一分鐘內不斷地站上去秤重,每次都會給我同樣的讀數。但是本人的智力程度由“問媽媽”來測量通常非常不可靠。有幾天她會說我有點遲鈍,又有幾天她又會說我完完全全是個白癡。請讀者留意,這裡所談的信度與測量結果是否正確,兩者是不同的的問題(測量結果的正確性關乎效度)。如果我扛著一袋馬鈴薯站上體重計,這樣的測量結果仍然是可靠的,重複測量還能給出一致的讀數。然而,如此高度可靠的讀數根本不符合本人的真實體重,因此這樣的測量結果是錯誤的。以心理測量的專業術語來說,這是一種可靠但無效的測量。同樣地,我媽媽給我的智力程度估計雖然有點不可靠,但是她可能是對的,也許我真的不太聰明。所以雖然她每天給我的智力估計起伏不定,綜合起來可能是正確的,這就是一種不可靠但有效的測量。當然,如果我媽媽的估計太不可靠,要弄清楚她給我的智力各種評價,哪一個是真正正確的是非常難的任務。以實用意義來說,一個非常不可靠的測量往往無法有效達到研究目標。所以許多測驗專家會說,有最起碼的信度才是確保效度的必要但非充分條件。

好了,搞清楚信度和效度區別之後,接下來看看各種專家一致認可,用來測量信度的方法:

  • 測試-重新測試法。關乎不同時間測量結果的一致性。如果再次用相同方法測量,我們會得到相同的結果嗎?

  • 評分者間信度。關乎不同評分者給出的測量結果一致性。如果由其他人使用相同的方法再次測量(例如由其他人評估我的智力),其他會給出相同的結果嗎?

  • 複本信度。關乎以理論的等效性所設定的測量一致性。如果我拿另一具體重計來測量我的體重,我會得到相同的讀數嗎?

  • 內部一致性信度。如果一套測量是由許多測量功能類似的量尺組成(例如,由圍繞相同主題的幾個問題加總,所得到的人格問卷結果),每個部分的測量問題能測得相近的數值。我們將在 小單元 15.5 詳細地學習這種評估信度的方法。

並非所有測量工具都要用到以上所有評估方法,才能確認信度。例如,學習評量可以被視為一種測量形式。原作者教授的一門課程「計算認知科學」的評量項目包含一項研究專案和一次考試(包括其他)。考試要評量的知識與研究專案所評量的學習成果並不相同,因此整體評量的內部一致性偏低。然而,考試卷裡有幾道題目,設計的目的都是測量大約相同的知識,這些問題往往會導致相似的評量結果。因此就考試這個部分的評量結果,內部一致性較高,也是很自然的。也就是說,在想要測量相同事物的情況下,我們才要有起碼的信度!

2.4 變項的”角色”: 預測變項與結果變項

結束這個一節之前,我們還需要認識一些專有名稱。通常執行完一項行為科學研究後,都會得到各種變項。研究者分析資料的過程中,通常是嘗試用某些變項來解釋其他某些變項,所以區分“用來做出解釋的變項”和“被解釋的變項”是很重要的,學習統計的基本功之一就是要弄清楚如何區分。同學們首先可以從熟悉描述變項的數學符號開始,因為會一直遇到。以下用 Y 表示“要解釋的”變項,用 X1,X2 等符號表示“進行解釋的”變項。

在各種分析程序, Y 和 Xi 會有各種不同名稱,因為兩種在分析程序裡扮演不同角色。這些角色的經典名稱是依變項(DV)和獨變項(IV)。IV 是您用於進行解釋的變項(即 Xi),DV 是被解釋的變項(即 Y)。然而,本書原作者認為這些名詞很不好使用。它們既難記,也很容易誤導使用者,原作者推薦讀者使用其他替代名稱。在這本書,最稱使用的名稱是預測變項結果變項,理由是分析者的工作是使用預測變項來預測結果變項。12 表2.1整理了以上的所有名稱及意義。

表2.1 變項的各種名稱及意義
變項的“角色” 古典名稱 現代名稱
“要解釋的” 依變項(DV) 結果變項
“推進解釋的” 獨變項(IV) 預測變項

2.5 實驗與非實驗研究

這一節要討論的是“實驗研究”和“非實驗研究”之間的區別。區分這兩類研究的關鍵,在於研究者控制參與研究過程的參與者和研究條件的程度。

2.5.1 實驗研究

實驗研究的關鍵特徵是研究者全面控制研究過程的細節,特別是參與者在研究過程的主觀體驗。具體來說,執行實驗的研究者只會操作或改變預測變項(IV),但是允許結果變項(DV)自然變化。專業研究者的想法是透過改變預測變項條件,查看條件的改變有沒有對結果產生任何直接的影響,確認因果關係的推論。此外,為了確保預測變項之外的其他因素不會影響結果,非預測變項的所有條件都保持不變,或者運用某種方法達到條件之間的“平衡”,確保非預測變項的因素不會影響結果。在真實的研究場域,要認真考慮所有可能的影響實驗結果的因素,幾乎是不可能的任務,更不用說所有非預測變項的條件都要保持不變。公認最有效的解決方法是隨機化,也就是將每位參與者隨機分派到不同的實驗條件組,然後操作每一組的實驗條件(也就是分派不同的預測變項值)。稍後我們會討論更多隨機化方法,現在只要知道隨機化方法的功能是儘可能減少(但不能完全消除)實驗條件之間,任何可能存在的系統化誤差。

現在來看一個非常簡單、不過完全不現實且極不道德的例子。假如你想弄清楚吸菸是否會導致肺癌,一種方法是找來一群吸菸者和一群不吸菸者,然後觀察吸菸者的肺癌發病率是否比不吸菸者高。請注意!這並不是一項合理的實驗,因為研究者無法充分控制誰吸菸誰不吸菸。例如,吸菸者的飲食習慣可能也不會顧慮個人身體健康,或者這類人士可能從事需要高度消耗體力的工作等。也就是說,只以有沒有吸菸分組,其實忽略很多其他能影響個人健康的條件差異。所以,吸菸者的肺癌發病率較高,可能是其他原因引起,並不是吸菸直接造成。這些會影響結果的其他因素(如飲食),專業研究人員稱之為“混淆因素”,稍後會再談到混淆因素的處理方式。

藉著以上的例子,請同學想想看合理的實驗研究應該是什麼樣子。這個例子的研究者面對的課題是,吸菸者和不吸菸者在許多方面可能完全不相同。最合理但不可行的解決方法是,只要研究者沒有道德約束,就可以控制誰吸菸誰不吸菸。具體的作法是,研究者只要將年輕的非吸菸者隨機分成兩組,強迫其中一組吸菸,那麼兩組在吸菸與否以外的任何條件可能都不會有太大差別。如此一來,研究結果真的顯示吸菸組得到癌症的比率確實高於不吸菸組,研究者可以相當有信心地提出兩個結論:(a)吸菸確實會導致癌症,(b)我們是凶手。

2.5.2 非實驗研究

非實驗研究泛指“任何研究者無法依研究目的控制測量條件的研究”。科學研究者顯然喜歡能控制的研究條件,但是正如前一節討論的案例,現實世界有許多狀況是無法或不應該控制的研究條件。為了確定人類是否會得癌症而強迫人吸菸,是完全沒有道德正確當性(幾乎可以肯定是種犯罪),這個案例的情況充分說明什麼是研究者不該為了獲得良好的實驗結果,嘗試控制研究條件的底線。除了道德問題,“吸菸實驗”也存在其他問題。例如,所謂“強迫”一半參與者成為吸菸者時,我是指要求無吸菸習慣的參與者,強迫他們成為吸菸者。雖然這聽起來像是瘋狂科學家會喜歡的那種硬核又充滿惡意的實驗設計,但是調查真實世界的影響時,這可能不是一種合理的方法。例如,假設只有飲食不規律的人們吸菸才會導致肺癌,並且經常吸菸的人確實有不規律的飲食習慣。由於以上案例中討論的“吸菸者”,並不是“自然養成的”吸菸者,而是研究者強迫非吸菸者成為吸菸者,但這些人的生活習慣較一般吸菸者規律,可能有較好的飲食習慣。因此,在這個胡鬧的虛擬案例裡,這些人並不會因為吸菸而得到肺癌,這樣的實驗終將失敗,因為整個實驗的設計違反“自然”世界的規律(技術上這叫做“人為”結果)。

非實驗研究可以區分為兩種類型:類實驗研究(quasi-experimental research)個案研究(case studies)。如同吸菸致癌的研究案例,研究者 試圖不控制誰吸煙或誰不吸煙的條件,檢查吸煙者和不吸煙者的肺癌發生率,就是一種類實驗設計。也就是說,基本設計與實驗研究相同,但是研究者不控制預測變項。我們仍然可以使用統計方法分析結果,但是必須更加小心謹慎。

個案研究則是儘可能詳細描述一個或少數個案。一般來說,任何統計方法都無法分析個案研究的結果,並且通常很難從少數獨立的個案資料,歸納出任何適用“一般人”的通用結論。不過在某些情況,個案研究是有價值的,特別是研究者別無選擇的某些情況。像是神經心理學經常遇到這樣的問題。有時候研究者根本找不到好幾位特定大腦區域有損傷的傷患,所以唯一能做的就是盡可能詳細且謹慎地描述確實有特定損傷的個案狀況。此外,個案研究也確實有一些真正的優點。若是研究者沒有太多研究對象,但是有能力投入大量時間和精力,仔細調查影響每個案例表現的特定因素,就是一件非常有價值的事。因此,個案研究可以補充依賴統計方法檢驗結果的實驗和類實驗設計,無法得出的看法。雖然本書不會細談個案研究,這種研究方法的也可能是你所需要的!

2.6 研究的效度

導讀簡報

除了信度和良好的研究條件控制,科學研究者最希望研究是“有效的”。檢視一項研究有沒有效度非常簡單,只要問研究結果可不可以被相信?如果不能,那麼這項研究就是無效的。然而,雖然講如何讓研究具有效度容易,實際上檢驗效度要比檢驗信度困難得多。老實說,什麼樣的研究結果是有效度的,並沒有精確清晰、研究者一致認同的概念。至今為止,已經出現很多種效度指標,每一種指標都是為了處理某個層面的問題,但是並非所有效度指標是任何研究都要符合的。以下討論五種效度指標:

  • 內在效度(Internal validity)
  • 外在效度(External validity)
  • 建構效度(Construct validity)
  • 表面效度(Face validity)
  • 生態效度(Ecological validity)

這裡提供一個快速指南,說明每項指標的重點。(1)內在效度和外在效度是最基本的,因為兩者都是評估研究結果是否真正有效回答主要的研究問題。(2)建構效度的評估重點是測量結果確實是研究者想要測量的對象。(3)表面效度不是太重要的指標,除非研究者在意測量結果的“外觀”。(4)生態效度是一種特殊的表面效度,特別指研究者非常在意的某種“外觀”。

2.6.1 內在效度

內在效度是指研究者在多大程度上,能正確推論變項之間的因果關係的結論。之所以稱為“內在效度”,是因為特指的是研究“內部”實體或抽象條件之間的關係。我們用一個簡單的例子來說明:假設研究者有興趣了解大學教育能否提高學生的寫作能力,研究者可以找幾位大一學生,指派每個人寫一篇1000字的文章,然後統計每篇文章裡的錯字和錯誤文法。接著再找幾位已經接受較長大學教育的大三學生,每個人也寫篇文章。研究者可以假設,大三學生的錯字和文法錯誤較大一學生少。結果符合假設的話,似乎就能推論大學教育可以提高寫作技巧?然而,這種實驗的最大問題在於,大三學生也更年長,有更多寫作經驗,所以很難確定教育是真正的原因。年長的人寫作能力更好嗎?還是個人寫作經驗? 還是一個人接受過更多教育?大三學生表現更好的真正原因是什麼?年齡?經驗?教育?我們無法從這樣的研究結果區辨出來。這是內部效度失效的一個例子,因為這樣的研究沒有充分拆解不同變項之間的因果關係。

2.6.2 外在效度

外在效度關乎研究結果的普遍性(generalisability)可用性(applicability)。這個指標看重的是,在“現實生活”中觀察到的模式與研究所觀察到的模式之相似程度。更精確地說,心理學研究者進行的任何研究都會涉及發生在特定環境的具體問題,或要表現的行為,而且通常會向特殊群體招募參與者(遺憾的是經常是大學生!)。所以,如果研究結果無法推廣或應用於研究條件之外的人和實際狀況,那麼這樣的研究就會有外部效度不足的問題。

大部分心理學研究只會招募研究者任職機構的學生擔任參與者,是外部效度不足的典型例子。然而,研究者的研究通常不僅是關注機構內的學生,更是關注全體人類。就這一點來說,只招募心理系學生作為參與者的研究,都存在外在效度不足的風險。也就是說,如果心理學系學生在某些條件“與眾不同”,就要擔心缺乏外在效度。

即使如此,心理學研究者也必須要意識到,只用心理系學生的研究也不完全必然存在外在效度問題。稍後會再談到這個問題,不過這是一個現在所有心理學者都會擔心的大問題,所以先在此說明。若是一項研究具有這兩個條件,特殊的參與者群體會對研究的外在效度構成威脅:(a)研究取樣的群體範圍狹窄(例如只找心理系學生);(b)研究取樣的狹窄群體在某些研究所關注的心理特微,與一般人群有系統性的差異。斜體字是研究者常忽略的部分。心理系學生確實有許多“與眾不同”的地方,所以只有心理系學生擔任參與者的研究可能存在外在效度問題。然而,如果這些差異與研究關注的目標關係不大,那麼就沒有什麼可擔心的。為了清楚說明這一點,這裡提供兩個極端的例子:

  • 研究者想評估“大眾對心理治療的態度”,但是所有參與者都是心理系學生。這種研究幾乎肯定存在外在效度問題。

  • 研究者想測量視覺錯覺的有效性,參與者全部都是心理系學生。這樣的研究不太可能存在外在效度問題。

這裡用了幾段文字來討論選擇參與者群體的問題,因為這是所有行為科學研究者都要擔心的大問題,所以務必理解外在效度是一種更廣泛的概念。根據研究的類型,以下的例子也可能對外在效度構成威脅:

  • 參與者可能採取不同於現實生活的方式回答“心理學問卷”。

  • 根據實驗室研究歸納“人類學習”的實驗結果,整理出來的規律可能不同於一般人在現實生活中面臨的學習問題。

2.6.3 建構效度

建構效度的基本概念是評量研究者使用的測量工具是不是真正有效。如果一種測量的條件符合理論設定,可以說這樣的測量工具有良好的建構效度;反之如果條件不符合理論設定,則建構效度不佳。舉一個非常簡單(但是荒謬)的例子,假設有位大學老師試圖調查他的學生在期末考試作弊的比率,測量的方法是讓有作弊的學生考試現場站立,讓老師能計算人數。若是在一堂有300名學生的課堂上這麼做,不會有人公開自己有作弊。那麼這為老師能判斷,這門課作弊的學生比例是0%?這顯然有些荒謬。但是舉這個例子不是要談這種作法有多荒謬,而是說明什麼是建構效度。這位老師的測量方法問題在於,雖然他試圖測量“作弊率”,實際上只有找到“愚蠢到自己承認作弊的人”,或是“自目到假裝自己作弊的人”。很顯然,這兩種人不是這位老師想找出的目標!所以這項研究出錯了,因為這樣的測量方式建構效度非常差。

2.6.4 表面效度

表面效度只注著評估測量工具是否“看起來”正常發揮。如果有研究者設計一份智力測試,其他人看了說“不,這個測試並不能測量智力”,那麼這份測試就缺乏表面效度,評估表面效度就是這麼簡單。不過從嚴格的科學操作來看,表面效度顯然沒有太高價值。畢竟,研究者關注的是這樣的測量工具能否真正發揮出最初設計的功能,而不只是有沒有看起來運作正常。在研究實務,表面效度通常是研究者最不在意的。即使如此,評估表面效度在研究實務具有三種作用:

  • 有經驗的科學家有時候會有一種“直覺”,認為某種測量方式無法起作用。雖然這種直覺在嚴格的科學意義來說,並沒有證據價值,但是聽從這類建議通常是值得的。因為人類通常具有難以用言語表達的智慧,即使說不出為什麼,也可能存在值得擔憂的地方。換句話說,有經驗的研究者聽到所信任的人士批評進行中的研究缺乏表面效度,都會花點時間更仔細地考慮研究設計,找找看是否存在可能出錯的原因。當然,如果找不到任何值得擔憂的原因,那麼可能就不必擔心。畢竟,表面效度其實並不太重要。

  • 完全不明白你的研究在做什麼的人,通常也會有一種你的研究很爛的“直覺”。並且他們會在網路上或其他公開場合發表批評意見。仔細檢視他們的意見,很可能會注意到這些批判其實都是在計較研究的“表面”,而不是更深層的東西。洞察表面效度,能讓研究者用溫和的方式,向其他人解釋他們需要進一步說明自己的論點。

  • 接續前一點,如果非專業人士的看法有重要作用(例如,應用研究通常要說服有決策權的人士贊同研究成果),那麼研究者就必須關心表面效度。只因為關鍵人士喜歡一項研究,表面效度就被很多研究者當成重要的效度替代指標。想想看研究者希望政府能依據科學心理學理由條改某條法律,那麼研究的“真實”品質並不是最重要。如果研究內容缺乏表面效度,立法者是不會理睬研究者的意見。當然,立定政策通常依賴表面而非事實是有點不公平的,但真實狀況就是如此。

2.6.5 生態效度

生態效度是另一種類似外在效度的效度指標,但是重要性較低。研究應該有生態效度的想法是,研究條件的設定應該儘可能合乎所要調查的現實世界場景。就某方面來說,生態效度是一種表面效度。也是就研究的表面“看起來”是否正確地測量要測的對象,不過更為嚴謹。為了有起碼的生態效度,評估一份研究有沒有“看起來”正確,必須根據相當具體的條件。這背後的觀念是,具備生態效度的研究可能有更好的外在效度。當然,這並不是保證。但生態效度的好處在於,與檢驗一項研究是否具有外在效度相比,檢驗是否具有生態效度要容易得多。一個簡單的例子是辨認目擊者的研究。這些研究中大多是在大學校園裡進行,通常參與者要看的臉孔數量較少,而不像警察安排的指認程序。參與者目擊“罪犯”現場,到進行指認程序找出嫌疑犯,場景之間的時間差比實際狀況更短。研究的“犯罪”現場不是真實發生的,所以目擊者不可能感到害怕,也沒有警察在場,所以感到壓力也可能小得多。這些條件設定意味著這樣的研究肯定缺乏生態效度 ,也可能(但可能不會)缺乏外在效度。

2.7 混淆因素、人為反應、以及各種降低效度的因素

如果從最全面的層次看待研究效度的問題,每個研究者最擔心的兩個大問題是混淆因素人為反應。這兩個術語的定義如下:

  • 混淆因素(confounder):混淆因素通常是額外的、非研究需要測量的變項13,最後與預測變項和結果變項有相當程度的相關性。無法排除的混淆因素會降低研究的內在效度,因為有可能無法確定現在的研究結果是預測變項所導致,還是混淆變項所導致的。

  • 人為反應(artifcat):如果研究結果僅在研究測試的特殊條件才能出現,參與者表現在測量尺度的反應就是“人為的”。只要研究結果可能是人為反應,就會降低研究的外在效度,因為這代表將研究結果推廣或應用到研究者所關注的實際群體的可能性不高。

總而言之,採取非實驗研究的研究者更要留意混淆因素的影響,因為非實驗研究不是具備良好控制的研究。按照之前的說明,許多條件都未受到研究者控制,所以非常有可能存在大量混淆因素在非實驗研究項目。實驗研究通常能消除混淆因素的影響,是因為研究者對研究過程的控制越好,越能防止混淆因素影響結果變項。例如,運用隨機分派,混淆因素的影響能隨機且均勻地分散於各條件組之間。

凡事都有利與弊。當研究者首要關切的問題是人為反應而不是混淆因素時,狀況就剛好完全相反,人為反應對實驗研究造成的效度問題多於對非實驗研究。同學想要充分理解為何如此,可以多閱覽非實驗研究的研究程序,因為這些研究是在自然場域裡檢視人類行為。在真實的環境中操作研究條件 ,研究者過會無法做好實驗控制(容易受到混淆因素的影響),但因為關注於在“室外”觀察人類心理,人為反應影響結果的可能性因此減少。或者說,當研究者將心理學研究從室外帶進實驗室(通常必須這樣做才能有良好實驗控制),總是會遇到研究程序與想研究的內容不同的意外。

請注意,以上只是一個粗略的研究設計指引。各種實驗研究絕對存在混淆因素,非實驗研究也可能會引導出人為反應。由於各種原因,這兩種情况都有可能會發生,無法單純歸咎於的是研究設計者或實驗執行者的錯誤。在研究實務,提前考慮到所有條件真的很不容易,就算是非常有經驗的研究者也會犯錯。

儘管可以將可能降低效度的各種問題大致區分為混淆因素或人為反應,但兩者依然是相當模糊的概念。以下介紹一些常見的非研究條件因素。

2.7.1 歷史效應

歷史效應指的是研究過程發生可能會影響測量結果的特定事件。例如,在前測和後測之間發生的事情;在測試第23位參與者和第24位參與者之間發生的事情。或者正在進行的研究是根據先前找過的研究文獻建立效度指標,但是過程中有推翻指標有效性的新文獻發表,導致研究結論不再值得信賴。可歸類為歷史效應的事件像是:

  • 某位澳大利亞研究者為了探討人們如何看待風險和不確定性,於2010年12月開始收集資料。但是需要時間招募參與者和收集資料,直到2011年2月仍在尋找參與者。不幸的是(對於在澳大利亞做研究的人來說),2011年1月昆士蘭洪水導致數十億美元的損失和許多人死亡。造成2011年2月參與測試的參與者,對處理風險的信念與2010年12月參與測試的參與者有很大不同。這兩個時間點之中(如果有的話),哪個反映參與者的“真實”信念?答案可能兩者都是。昆士蘭洪水確實改變了澳大利亞公眾的風險信念,儘管可能只是暫時的。這裡的關鍵是,2月參與者的“歷史背景”與12月參與者的情況截然不同。

  • 某位在常發生有感地震的地區工作的研究者正在測試一種新型抗焦慮藥物的心理效應。在給藥前,研究者收集參與者的自我報告和生理指標來測量焦慮。給藥之後,再實施相同的測量程序。但是,剛好在研究過程中,發生了六級地震,參與者變得更焦慮了。

2.7.2 發展成熟效應

與歷史效應一樣,發展成熟效應根本上與時間的變化有關。然而,成熟效應不是對特定事件的反應。相反,它們與人們隨時間自行變化有關。我們會變老、疲憊、厭倦等。可歸類為成熟效應的事件像是:

  • 在進行發展心理學研究時,您需要意識到兒童成長得相當迅速。因此,假設您想弄清某些教育技巧是否可以幫助3歲兒童的詞彙量。您需要知道的一件事是,僅憑自己,這個年齡的兒童的詞彙量以難以置信的速度增長(每天多個詞)。如果在設計研究時沒有考慮這種成熟效應,那麼您將無法確定您的教育技巧是否有效。

  • 當在實驗室中運行非常長時間的實驗(比如3小時)時,人們很可能會開始感到厭倦和疲憊,並且這種成熟效應會導致表現下降,而與實驗中發生的任何其他事情無關。

2.7.3 重覆測試效應

重覆測試效應是一種要認真看待的歷史效應。假設我想對某些心理特質(例如焦慮感)進行兩次測量。研究者要擔心的是,第一次測量是否會影響第二次測量的結果。也就是說,影響第二次測量的“事件”,就是第一次測量,因此是一種歷史效應!這種狀常見於行為科學研究。可歸類為重覆測試效應的事件像是:

  • 初次學習和複習:由於參與者在第一次測試學會了如何解答“智力測試”問題的一般規則,所以第二次的“智力測試”表現可能比第一次好。

  • 測試場景的熟悉度:例如,如果參與者在第一次測試感到緊張,使得表現水準下降。但是度過了第一次測試之後,他們會變得不再緊張,因為已經熟悉測試場景。

  • 測試導致的次要條件變化:例如,如果評量情緒狀態的問卷施測過程讓人枯燥,第二次測量的報告可能較多報告的情緒是“厭倦”,不過是因為第一次測量帶來的枯燥感。

2.7.4 選擇偏誤

選擇偏誤是一個相當廣泛的專門用語。假設有一項實驗安排兩組參與者,每組參與者會得到不同的“處置”,研究者想了解不同處置能否導致不同結果。然而,儘管研究者已經盡了最大努力,兩組之間仍有性別失衡(例如,A組為80%的女性和B組為50%的女性)。聽起來這種狀況可能不會發生,但請相信,這種狀況並不少見。這就是一個選擇偏誤的例子,被“選擇進入”兩組的參與者各有不同的特點,若是這些特點中的任何一個被證明與實驗條件有高相關(例如,實驗者安排的處置對女性較有利),那麼研究者會遇到大麻煩。

2.7.5 個體特質差異

在考慮淘汰極端參與者時,區分兩種不同個體特質有時候很有幫助。第一種是同質淘汰,造成的淘汰效應對所有實驗組、處置或條件都是相同的。在以上的範例中,如果只有容易感到厭倦的參與者幾乎同時退出實驗,這就是一種同質淘汰。同質淘汰的主要影響通常是降低研究樣本的代表性,造成研究結果不具普遍性,造成研究的外在效度下降。

第二種淘汰類型是異質淘汰,各組的淘汰效應會有所不同。這種類型更常被稱為差異淘汰,是一種由研究設計引起的選擇偏誤。假如我成功找到具備完美平衡特質和代表性的樣本人群,執行心理學史上首次“難以置信的冗長且乏味的實驗”。但是因為研究過程非常冗長和無聊,很多參與者開始退出,而且我無法阻止這種情況,因為參與者有絕對權利在任何時候,無須基於任何理由停止實驗。身為研究人員,我們有義務提醒參與者確實有這些權利。所以,假如“難以置信的冗長且乏味的實驗”有非常高的退出率。您認為參與者決定退出是隨機的可能性有多大?答案是零。幾乎可以肯定,留下來的人比退出的人更盡責、更能忍受無聊等。在某些方面,責任感與我關心的心理現象高度相關,這樣的淘汰效應會降低研究結果的效度。

另外還有一個案例。有研究者設計了一項有兩種條件的實驗。在“治療”條件,實驗者會侮辱參與者,然後給他們一份測量順從性的問卷。在“控制”條件下,實驗者和參與者閒聊了一些無意義的小事,然後給他們問卷。先不考慮這樣的研究有什麼科學價值和符不符合研究倫理,讓我們思考其中可能會造成什麼問題。一般來說,有人當面侮辱我時,我會變得不想合作。所以,非常可能有較多治療組參與者退出研究,這種退出行為顯然不會是隨機的。最有可能退出的參與者,很可能是最不願順從研究目的的人們,由於最無責任感和最不願順從的人都退出了治療組而沒有退出控制組,造成一種混淆因素:治療組裡完成問卷的參與者,責任感和順從性已經高於對照組的參與者。簡而言之,這項研究侮辱參與者的處置並沒有讓他們更加順從,而是造成不順從的參與者退出實驗!這項實驗的內部效度完全被消滅殆盡。

2.7.6 無回應偏誤

無回應偏誤與選擇偏誤及差異淘汰對測量結果的影響異曲同工。首先看一則案例:有項研究向1000人發出調查,只有300人回覆。回覆的300人幾乎肯定不是隨機樣本。回覆調查的人與不回覆的人具有系統性差異。這在嘗試從回覆者的反應歸納的結論,推廣至更廣泛的群眾時會造成問題,因為現在的資料並不是隨機樣本。除了研究結果的普遍性,還有一種無回應偏誤造成更多問題。我們繼續看這則案例的更多內情:收到回覆的300份問卷裡,可能會發現並非所有人都回答了每個問題。比如說其中80人未回答其中一個問題,這會導致混淆嗎?答案同樣是「可能」。如果未回答的問題印在問卷的最後一頁,而那80份問卷的最後一頁剛好遺失了,那這樣的資料漏失可能不是什麼大問題,有可能只是最後一頁沒訂好。然而,如果那80人未回答的是問卷裡最有對抗意識或冒犯意味的個人問題,那麼這項研究幾乎肯定有混淆因素的影響。這裡所描述的是研究實務的資料漏失問題,如果漏失的資料是“隨機的”,那麼這問題還不大。但若是系統性的漏失,那麼問題可能就很難收拾了。

2.7.7 趨向平均數的迴歸

趨向平均數的迴歸指的是研究者根據測量出的極端值,選擇資料的任何判斷。由於資料變項本來就有自然(隨機)變異,幾乎可以肯定第二次測量的結果,會比第一次測量的結果更不極端,純粹是偶然發生。

我們來看這一個案例。假設研究者想了解心理學教育是否對學業表現優異的年輕學生有不良影響,因此找了20位大學心理系一年級,入學前學業成績最好的學生,觀察他們在大學的表現如何。結果發現,他們入學後的學習表現比高於平均水準,但是並非名列前茅,儘管他們在高中曾經是頂尖學生。這是怎麼一回事?第一個會想到的是,這一定是心理學課程對這些學生產生了不良影響。儘管這很有可能是解釋,但是實際上更可能是“趨向平均數的迴歸”的一種現象。為了理解背後的原理,讓我們稍微思考一下在高中或大學課程要獲得最高分需要什麼條件,落是不考慮課程內容,一個班級學生人數很多的話,會聚集很多非常聰明的學生。一名學生想要獲得最高分,必須非常聰明,非常努力用功,還要有一點點運氣。考試必須恰好是特別會回答的題目,而且寫答案卷的時候,也必須避免犯愚蠢的錯誤(每個人學生時代都會有這種時候)。其中的關鍵是,雖然個人智識和努力可以從一門課轉移到另一門課,但運氣沒辦法移轉。高中時期考試運氣好的學生,大學課堂的考試運氣不一定一樣好,這就是“運氣”的真正涵義。對研究結果的影響是,當研究者根據高中成績的極端值(前20名學生)選擇研究對象,其實是選擇努力用功、智識和運氣在高中時期前端的學生。由於運氣不會轉移到第二次測量(只有技能和工作),所以合理預期這些人在大學課程的表現會有下降。因此,他們的分數會稍有下降,趨向所有同學的平均水準。這就是”趨向平均數的迴歸”。

令許多人感到驚奇的是,趨向平均數的迴歸是非常普遍的現象。例如,兩個身材高大的夫妻生的孩子,往往會比同齡人口平均身高還高,但是不如父母高。身材矮小的夫妻情況則相反,生的小孩往往身材矮小,但是這些孩子通常會比父母高。這種現象的作用也非常微妙。例如,曾有研究顯示,一般人從負面回饋獲得的學習效果更好,而不是從正面回饋。然而,一般教師及家長嘗試運用這種學習策略的方式是,在學生表現良好時給予正面回饋,在學生表現不好時給予負面回饋。結果會發現,給予正面回饋後,學生的表現會變差,但是給予負面回饋後,表現反而會變好。請同學注意,這個案例存在選擇偏誤!當一個人在某次試驗表現得好,評分者給的評價會偏高,所以評分者應該預期,由於趨向平均數的迴歸的影響,無論是否給予回饋,下一次試驗的表現都應該會變差。同樣地,經歷一次糟糕的試驗,個人就會有改進的趨勢,負面回饋的優勢作用是由于趨向平均數的迴歸而引起的研究結果偏差(詳見 Kahneman & Tversky (1973) 的討論)。

2.7.8 實驗者偏誤

實驗者偏誤有多種形式。最典型的一種狀況是,實驗者也許有好意,但是可能會不經意地向參與者用微妙的方式傳達“正確答案”或“期望表現的行為”,最終影響了實驗結果。通常是因為實驗者擁有參與者所没有的特殊知識,例如問題的正確答案,或了解參與者所處的實驗條件預期出現的行為。這種狀況的典型案例是 1907年“聰明的漢斯”(Pfungst (1911))個案研究,研究對象是一隻表面上能夠閱讀、算術和表現只有靠人類的智性能力才能完成任務的馬。 聰明的漢斯走紅之後,當時的心理學家仔細地檢查他的行為。令人驚訝地發現是,漢斯其實並不會算術,而是因為照顧他的主人了解如何算術,當主人改變行為時,馬兒學會要改變自己的行為。

實驗者偏誤的一般解決方法是雙盲研究,這個狀況下實驗者和參與者都不知道參與者所處的條件或期望會出現的行為。雖然這是一個非常好的方法,但更重要的是要認識並非完美的解決方法,也很難充分實現。例如,做研究的大學教授經常採用的雙盲研究的方法是讓研究生來執行實驗,而且是不了解實驗細節的學生。唯一知道所有細節(例如問題的正確答案、參與者與條件的分派)的教授,並未與參與者交流,與參與者當面交流的研究生什麼也不知道。這樣安排看起來應該足夠了,除了研究生言部分在現實情况不太可能是真的。為了讓研究生能有效執行研究,他們需要由教授進行指導。而事實上,研究生當然要了解指導教授的想法,還有了解一些教授對於人類和心理學的價值信念(例如,教授認為一般人比心理學家所預期的更聰明)。有此印象的研究生擔任實驗者,幾乎不可能完全避免地知道一點點教授的想法,而且即使是一點點想法也會產生影響。想想看,假如實驗者不經意地向參與者傳遞了教授預期他們在某項實驗條件會有表現良好的想法。有興趣讀者們可以搜尋「比馬龍效應」(Pygmalion effect):只要認為別人期望自己能表現成功,個人就會努力表現達到期望。反過來也是,只要認為別人認為自己會失敗,也會往失敗的方向表現。換句話說,實驗者的期望成為參與者自我實現的預言。

2.7.9 需求效應與反應性

處理實驗者偏誤所要避免的問題,是實驗者將實驗條件的認識或期望傳達給參與者,這些都有可能改變參與者的行為(Rosenthal, 1966)。即使能成功避免實驗者偏誤,也不可能阻止參與者自主意識正在參與的是心理學研究,只要知道有他人正在觀察或研究個人表現,就可能對參與者的行為產生相當大的影響。這通常被稱為反應性(reactiviy)需求效應(demand effects)。最有代表性的案例是霍桑效應(Hawthorne effect):由於參與者了解研究者正在專心觀察他們,因而改變了個人表現。霍桑效應的由來是一項曾在芝加哥市郊的“霍桑工廠”所進行的研究(見 Adair (1984)),這項20世紀20年代的研究觀察工廠照明對工人生產力的影響。給後來研究者的重要啟示是,工人行為的變化是因為他們知道自己是研究對象,而不是工廠照明造成的效果。

為了更具體地說明意識到自己正在被觀察,會如何改變參與者的行為,這裡借用一下社會心理學家的觀點,來看看一般人在實驗中可能會表現出來,但在現實生活中卻不會表現的一些角色特質:

  • 積極參與者嘗試幫助研究人員,他們會試圖找出實驗者的假設並證實之。

  • 消極參與者與積極參與者完全相反。他們會試圖以某種方式破壞或否定研究目的或假設。

  • 忠實參與者異常順從研究者指示。無論真實環境應該遵守的規則是什麼,他們在實驗室裡都會完美遵照指示。

  • 謹慎參與者對於被測試或被觀察會感到緊張,以至於他們的行為會變得非常不自然,或過度符合社會期望。

2.7.10 安慰劑效應

安慰劑效應是任何研究都要非常小心處理的一種特殊需求效應。「安慰劑」是指僅僅因為接受治療,就會導致個人身心狀態的改善,醫學臨床試驗有許多典型例子。如果醫師給患者一種完全不會在體內產生化學反應的藥物,並告訴他們這是某種疾病的特效藥,通常會發現與未接受完整治療的人相比,這些患者的康復速度會更快。換句話說,只要人們認為自己正在接受治療,就是導致結果改善的原因,而不是藥物本身。

然而,現代醫學界的共識是真正的安慰劑效應非常罕見,此前文獻裡被認為是安慰劑效應的大部分事實,其實是自然痊癒(有些人健康狀況會自然好轉)、趨向平均數的迴歸、還有其他混淆因素的怪奇組合。 心理學研究者會感興趣的是,至少有一些安慰劑效應的有力證據,是來自自我報告的結果,最顯著案例的是治療心因性的疼痛感 (Hróbjartsson & Gøtzsche, 2010)

2.7.11 情境、測量、及小群體效應

從某些方面來說,這些專有名詞是“所有其他會降低外部效度因素”的總稱。這些名詞指的是研究者從參與者組成的次群體中選擇、執行研究的地點、時間和研究方式(包括誰收集資料)以及使用的測量工具都可能會影響結果。 具體而言,研究者會擔心的是,這些因素都可能以某種方式影響結果,使得研究結果無法推廣至更廣泛的人群、地點和其他測量方式。

2.7.12 詐欺、欺暪與自我欺暪

當一個人的薪水依賴於他不理解某件事情時,很難讓他理解這件事。
- 厄普頓·辛克萊

最後還有一個主題應該要好好討論。讀過各家教科書介紹如何評估研究效度的單元,讓我很在意為何許多作者似乎都假定全世界的研究人員都是誠實的。儘管絕大多數科學家都是誠實的,但在我的經驗裡,至少有一些不是。14 不僅如此,如同前面所提到的,專業科學家也無法避免因為信念而產生的偏見。研究者很容易欺騙自己相信錯誤的研究結果,可能導致他們做出有缺陷的研究,然後在撰寫的報告裡隱藏這些缺陷。所以讀者不僅需要留意可能性不大的公開詐欺,還需要注意研究內容裡,可能相當常見的“研究者偏見”。好幾本標準教科書都沒有討論這些問題,以下是原作者自行找出的幾項已眾所週知的問題:

  • 資料造假(Data fabrication)。有時候研究人員會捏造資料,而且會覺得是“出於善意”。例如,有研究人員覺得捏造的資料確實呈現事實,並且實際上可能是真實資料“略為清理後”的版本。在其他情況,詐欺則是故意且惡意的。一些被指控或被證明資料造假的著名案例包括:西里爾·伯特 (Cyril Burt,因素分析的發明者之一,據信他捏造了部分智力測驗資料)、安德魯·韋克菲爾德 (Andrew Wakefield、被指控捏造MMR疫苗與自閉症之間聯繫的資料)和黃禹錫 (偽造了大量幹細胞研究資料)。

  • 惡作劇(Hoaxes)。惡作劇與資料造假有很多相似之處,但是行為者的目的不同。惡作劇通常是為了開玩笑,其中許多案例的始作俑者最後都會自已出來坦承。惡作劇的重點通常是為了詆毀某人或某個領域,至今已經發生很多眾所周知的科學惡作劇(例如皮爾當人),有些則是故意抹黑特定領域而發表的研究(例如索卡事件)。

  • 資料不實(Data misrepresentation)。雖然欺詐佔據了大部分頭條,但在我的經驗中,看到資料被歪曲的情況更為常見。我這麼說不是指報紙報導錯誤(他們確實幾乎總是這樣),而是指出事實上資料並不總是研究人員認為它們所說的那樣。我猜,幾乎總是如此,這不是蓄意不誠實的結果,而是由於資料分析缺乏成熟。例如,回想一下我在這本書開頭討論的辛普森佯謬的示例。人們展示某種“匯總”資料非常常見,有時如果你更深入地找到原始資料,你會發現匯總資料與未匯總資料講述了不同的故事。或者,您可能會發現某些資料被隱藏了,因為它們講述了一個不方便的故事(例如,研究人員可能選擇不提及某個特定變項)。這方面有很多變體,其中許多非常難以檢測。

  • “不良”研究設計(Study “misdesign”)。研究設計類的問題相當微妙。這類問題在於研究人員設計了一種研究條件有瑕疵的研究,然而這些瑕疵在論文裡都沒有報告出來。報告的資料是完全真實,並且分析方法正確,不過研究結果是由設計錯誤的研究產生。研究人員是真的想找到符合研究假設的結果,所以研究設計使他們“容易地”觀察到想看到的結果。為了幫助讀者學習其中的詐欺手段,這裡分享一個小技巧,那就是設計一套實驗,然後讓參與者很明顯地知道他們「應該」要做什麼,然後發揮“需求效應”的魔法。如果要做得更天衣無縫,只要做出符合雙盲實驗的表面功夫,但結果並不會有什麼變化,因為研究材料本身就隱藏微妙的提示,讓參與者知道研究人員希望他們做到什麼。當結果發表出來時,讀者並不會馬上察覺到詐欺。身臨其境的參與者能感受明顯的提示,但是只閱讀論文並不會那麼明顯的感受到。當然,我描述這類問題的方式讓這種研究聽起來像是欺詐,確實可能有一些研究人員會故意這樣做,但在我的經驗裡,更值得擔憂的是非故意的瑕疵設計。研究人員確實相信某些事情,所以研究進行到最後恰好出現了內在瑕疵,當研究報告寫好並發表後,這些瑕疵就神奇地消失了。

  • 資料探勘與後設假設檢定(Data mining & post hoc hypothesising)。很多研究者可能曾親身實踐過的另一種歪曲資料手段,就是所謂的“資料挖掘”(更廣泛討論見 Gelman & Loken (2014) ,有關統計分析程序的“歧路花園”)。正如稍後將討論的問題類型,只要研究者不斷嘗試用不同方式分析資料,最終都會找到某種“看起來像”真實結果,實際上什麼都沒有的分析結果,這種手段被稱為“資料挖掘”。由於過去資料分析需要花好幾週才能完成,以前相當罕見,但是現在個人電腦的計算能力越來越強,能執行功能非常強大的統計軟體,所以這類案例變得越來越普遍。資料探勘其實並不是“錯誤的”,但是探勘得越多,風險就越大。對同一批資料做過多探勘,但是未在報告裡完全揭露,我懷疑是很常見的錯誤。也就是說,研究人員做了目前已知的各種可行分析方法,找到了正面結果,然後假裝這是他們唯一做過的分析。更糟糕的是,有些研究者會在分析完資料後,“發明”一個假設來掩蓋資料探勘。這裡我想鄭重說明,看到分析後改變一開始的想法並不是錯誤的,根據新的“後設”假設重新做分析資料也不是錯誤;真正的錯誤是從未承認你是看了資料才重新提出假設,而且我懷疑這種狀況很常見。如果研究人員承認自己這樣做了,其他研究人員就能評估這樣的行為對研究效度的影響。如果不承認,其他人就不能。這造成資料探勘具有欺騙性,非常糟糕!

  • 發表偏誤與自我審查(Publication bias & self-censoring)。最後一種處處可見的偏誤就是多數研究者不會報告負面結果,而這幾乎是不可能阻止的,因為學術期刊不會接受這樣的論文。許多心理學期刊喜歡那些發現了“新事物”的論文。假如有一項實驗是探討閱讀《芬尼根的守靈夜》會不會導致讀者瘋狂,有20組研究人員做了這項實驗,其中19組發現不會,你認為哪一組的論文會被接受?顯然就是那一項報告中發現《芬尼根的守靈夜》會導致瘋狂的研究。15 這是說明發表偏誤的一個案例。由於那19篇沒有發現效應的研究論文從未被正式發表,不知道學術界水有多深的讀者永遠不會知道這些證據。更糟糕的是,大多數研究人員“內化”了這種偏誤,並會自動地審查自我的研究。因為了解負面結果不會被接受發表,就不會想去寫出報告。如同我一位同事的說法“每一項成功發表的實驗,背後有10個失敗沒有看到”。其中關鍵是,雖然沒被發表的一些研究是因為無聊的原因而失敗(例如,研究者搞砸了某些事情),但是其他研究可能是真正的“零”效果,研究者撰寫“良好”實驗計畫時就應該要承認這可能是真實結果,但是區分「失敗的研究結果」與「效果為零的研究結果」是相當難的事情。推薦大家閱讀 Ioannidis (2005) 的論文“為什麼大多數已發表的研究結果是錯誤的”;也建議去看看 Kühberger et al. (2014) 的成果,他們提供了發表偏誤在心理學領域確實存在的統計證據。

關於學術詐欺還有很多問題需要好好思考,但是知道這些案例,對於剛開始學統計的同學來說已經足夠了。這裡想指出的是一個顯而易見的事實,那就是現實世界的科學是由活生生的人進行的,只有最天真的人才會想像每個科學工作者都是誠實和公正的。活生生的科學家通常不那麼天真,由於某些不明的因素,大部分的人被灌輸用天真的觀點看待這個世界,而許多統計學教授編寫的教科書似乎加強了這種刻板印象。

2.8 本章小結

這一章的目的並不是要全面討論心理研究方法。要充分討論這個話題至少需要另外一本同樣長的書。然而,在現實生活中,統計和研究設計緊密交織在一起,所以討論一些關鍵話題非常方便。在這一章中,我簡要討論了以下內容:

  • 認識心理測量。操作化理論構想意味著什麼?變項和測量的意義是什麼?

  • 測量尺度和變項類型。請記住這裡有兩個不同的區分。一是離散資料和連續資料之間的區別,二是四種不同尺度類型(名義、序數、間隔和比率)之間的區別。

  • 測量的信度。如果我“同樣”測量兩次某事物,應該期望看到相同的結果嗎?只有當我的測量是可靠的時候。但是“同樣”的事物意味著什麼?這就是為什麼我們有不同類型的可靠性。請確保您記住了它們。

  • 變項的”角色”: 預測變項與結果變項。變項在分析中扮演什麼角色?您還記得預測變項和結果變項之間的區別嗎?依變項和自變項之間的區別等等。

  • 實驗與非實驗研究設計。是什麼讓一項實驗成為實驗?是好看的白色實驗袍,還是與研究人員對變項的控制有關?

  • 研究的效度。您的研究是否測量了您希望它測量的內容?可能會出什麼問題?我看錯了嗎,還是可能出錯的方式的列表非常長?

所有這些都應該讓您明白,研究設計是研究方法的一個關鍵部分。我以 Campbell & Stanley (1963) 的經典小書為基礎構建了這一章,但當然還有很多研究設計教科書。在您喜歡的搜索引擎上花幾分鐘,您就會找到幾十本。


  1. 節錄自1938年,第一屆印度統計學會主席演講。來源:http://en.wikiquote.org/wiki/Ronald Fisher↩︎

  2. 譯註~英文版提到“測量程序”與”測量值“都是以”measurement”稱呼,中文版根據主題及脈絡以不同名稱區別。↩︎

  3. 譯注~根據名詞解說,此處中譯為”測量程序“。↩︎

  4. 譯注~本書的多數單元將variable翻成”變項”,除了統計理論的單元大多會翻成“變數”。因為”變項”是資料的,“變數”是數學的。↩︎

  5. <原作者的補充>其實曾有物理學大神告訴我,溫度嚴格來說不是等距尺度變項,因為只要環境溫度至少有3\(^{\circ}\) ,任何物體都可以加熱。雖然在物理學來說,這並不是一個講解等距尺度好例子,不過為了方便說明,這裡暫且無視物理事實。↩︎

  6. 譯註~原著並未提供變項符號,表內符號取自jamovi說明文件↩︎

  7. 譯註~原文的表2-4並未說明jamovi符號,改編是為了幫助讀者了解後續章節的操作說明,建議下載示範檔案並搭配中文版示範影片閱讀。↩︎

  8. 譯註~中文化作者認為還有第三個理由。由於有些統計教程混淆測量尺度與間斷/連續變項的切換關係,造成學習者低估機率論在學習統計的重要性。在第7章,我們會了解間斷/連續變項的數學意義。↩︎

  9. 譯註~到本書最新版上線的時間,還沒有一種有效的應用程式或人工智慧程序能幫助人類判斷適用分析任務的資料變項型態,請參考這份示範檔案中文版示範影片↩︎

  10. 譯註~原文的題目不是這一句,中文版改成接地氣的範例。↩︎

  11. 唉,心理學的問題從來沒有一種能簡單回答的方式!↩︎

  12. 然而讓像我一樣的老師氣惱的是,不同行為科學領域會使用各自習慣的名稱。本書不會列出所有領域的名稱,因為知道了也沒有意義。在此只舉一例:有時你會看到“反應變項”,就是本書所稱的的“結果變項”。唉,未來讀越多報告,你會遇到各式各樣搞混你的變項名稱。(這段附註強調的是現實情況中會出現許多不同的變項名稱,可能造成概念和術語的混淆。作者列舉了“反應變項”有時也會用來指稱“結果變項”,但沒有羅列所有可能的名稱變體,因為這沒有意義。最後表達了這類術語混亂現象很常見的無奈。)↩︎

  13. 雖然有些混淆因素通常沒有被正式測量,是因為如果測量尺度的紀錄包含其影響,那麼我們可以使用一些高深的統計技巧來處理混淆因素的效果。因為有這些用來解決混淆因素影響的統計方法,研究者經常在報告裡稱呼經過測量和處理的混淆因素為調和變項。處理調和變項是更高一層的課題,這裡只是順便提一下,因為知道這些會激勵學習動機。↩︎

  14. 有人可能會認為,如果不夠誠實就不可能成為真正的科學家。這在某種程度上確實是真的,但並不是完全正確(請搜尋“非真正的蘇格蘭人”謬論)。事實上,有很多人被僱用來充當科學家,他們的履歷表有科學訓練經歷,但是做的事是徹頭徹尾笉欺詐。只說他們不是科學家,裝作他們不存在只是鴕鳥心態。↩︎

  15. 很明顯,真實狀況是只有缺乏穩定心理狀態的人才會讀完整本《芬尼根的守靈夜》↩︎