1.必須開放的資料

公開的資料足以讓他人完整重製刊登於論文的圖表及數據,並在保持內容意義不變的條件下,他人可以適度修改,就是符合狹義可重製的基本要求。除了產生圖表數據的資料檔以及程式碼,也要提供他人可查找變項屬性的資料編碼簿(codebook)。以下示範從RP:P的開放網址下載,並顯示前6行的內容。讀者可以看到編碼簿的必備訊息有資料變項名稱變項內容描述、以及資料型態。懂得處理資料的讀者,可以從資料編碼簿掌握處理對應變項的程式碼,以及處理變項的數值方法。

info <- GET('https://osf.io/bhcsf/?action=download', write_disk('rpp_data_codebook.csv', overwrite = TRUE))
codebook <- read.csv("rpp_data_codebook.csv")
head(codebook[,c(1,2,5)])
##          Variable                                Description Data.Type
## 1 Study Title (O)                  Title of original article Open text
## 2     Authors (O)            Authors of the original article Open text
## 3     Journal (O) Journal in which original article appeared Open text
## 4      Volume (O)  Volume in which original article appeared   Integer
## 5       Issue (O)   Issue in which original article appeared   Integer
## 6       Pages (O)   Pages on which original article appeared     Range

只要讀者知道網址,已公開的資料檔以及程式碼都可以用相同的方法下載與檢視內容。現在只要在osf.io設定為公開的專案,都可以運用上述的程式碼,透過R下載檔案。如果讀者能熟悉前一章介紹的Git版本控制系統,就能有系統管理自已有興趣追蹤的資料。

2.為何要開放這些資料

許多著名的學術研究造假案件是發表於論文的圖表數據過於美好,被有心的讀者抓包所致,近期知名的案例是日本STAP幹細胞研究。推動所有實驗研究的發表,要達成狹義可重製的條件,不只是打擊個人美化數據圖表的意圖,更是促進有效研究的規劃。能讓他人迅速取用,並檢視內容的資料檔程式碼,都是研究計畫形成時一起規劃的,格式與內容完整的資料編碼簿,更是撰寫計畫書與論文報告的良伴。其它研究者能有效地檢視數據圖表之間的訊息正確性,減低過度追求統計顯著結果的人為主觀偏誤。

3.重製圖表~以RP:P為例

RP:P刊登於Science網頁版的摘要,附上一張呈現整份專案成果的統計圖。為避免部分讀者無法直接瀏覽Science網頁,我從孫學軍的博客轉載這張統計圖。
OSF_RPP_FIG3

圖內每個圓圈的座標,代表一項實驗的原始研究與再現研究的效果量,對應兩個座標軸上的同色刻線。藍色圓圈代表該項實驗的原始與再現研究都得到統計顯著的結果,紅色圓圈代表該項實驗的原始與再現研究沒有得到一致的顯著結果。圓圈大小代表該項實驗的再現研究檢定力。與多數藍色圓圈交集的直線,是原始與再現研究效果量相等的情況。這篇論文最重要的結果:只有38%的原始研究成果能被再現,呈現在座標軸上的著色刻線密度,以及散佈圖邊的機率密度分配圖。

這張圖的來源資料彙整於rpp_data.csv的資料,原始程式碼來自RPP_figures.R。為了讓讀者了解如何重製,這份文件以Rmarkdown撰寫,再製原圖於下方,並將圖中的標示文字改為中文。讀者可以點此檢視產生下圖的R程式碼,我在程式碼中加入的中文註解,是能完整重製這張圖要做的準備。

RPP_FIG3