SELECTION BIAS AND CASE SELECTION
三篇文獻的對話:King, Keohane & Verba (1994, ch.4)、Geddes (1990)、Collier, Mahoney & Seawright (2004, ch.6)。
從統計直觀,到質性反思,再到有限的辯護——一個方法論問題如何被三代學者反覆磨亮。
選樣偏誤(selection bias)是質性比較研究最常被量化學者質疑的方法學問題。本週把三篇代表性文獻合讀,看同一個問題如何在不同立場下被提出、接收、修正。
首次把「在依變項上選樣」寫成方法學通則,提出三種典型錯誤;對比較政治學影響深遠。
把選樣偏誤放進統計推論的框架,主張無變異設計「甚麼都學不到」。
質性研究者的回應:DSO vs CPO,為「無變異設計」做有限但穩健的辯護。
為何對社會政策研究格外重要?我們研究的對象多是「已經發生政策改革」的國家、「已採行某制度」的地方政府。這正是 Geddes 口中最容易出問題的選樣方式。
DSI 所謂的選樣偏誤指的是:「依變項的取值影響了案例是否進入樣本」。常見三種樣態:
依變項某值以上或以下的觀察值全部被排除。
研究對象自行決定是否被觀察到(如政策計畫的參與者)。
觀察到特定狀態才進入分析(如只看「已發生緊縮」的案例)。
三種樣態統計後果相似:X 與誤差項 ε 出現相關,因果係數被壓平。
假設真實關係是 Y = α + βX + ε,β > 0。若僅保留 Y 高於某值的觀察值,樣本中 X 與 ε 出現負相關,迴歸係數被壓平、甚至反轉符號。
觀察重點:把截尾線拉高,樣本數變少,紅線逐漸變平;極端時,紅線甚至可能呈現反符號的斜率。
DSI 最反直覺的結論:如果只「隨機地」從依變項高值區段抽樣,案例數再多偏誤也不會消失。截尾改變的不是代表性的機率,而是結構性的 X 與誤差相關。
對社會政策研究的具體意涵:研究長照改革時多數只看「已建立制度的國家」;研究年金改革時只看「已發生緊縮」的個案;研究貧窮方案時只看「參與者」。若要談改革成敗的原因,這些樣本的設計本身就讓我們無法回答問題。
最常見的錯誤:只研究「成功轉型的國家」、「推動改革成功的政府」、「脫貧的家戶」,然後從中歸納「成功的原因」。這類研究不可能告訴我們「為什麼其他案例沒有成功」——因為那些案例根本沒被觀察到。
社會政策範例
Holliday (2000) 與 Kwon (2005) 依台、日、韓案例提出「生產主義福利資本主義」。Peng & Wong (2008) 納入泰、馬、菲後發現,「生產主義」特徵在東亞內部的差異遠大於先前宣稱。這是典型的「只看成功工業化案例」所產生的選樣偏誤。
Jim Collins《Good to Great》(2001)研究 11 家「從平庸躍升卓越」的美國公司,歸納 7 個成功要素(如「第五級領導」「飛輪效應」)。書賣四百萬本、影響全世界 MBA。
但 Phil Rosenzweig《The Halo Effect》(2007)指出致命漏洞:Collins 只挑「事後看起來成功」的公司——這正是 Geddes 講的在依變項上選樣。如果同時也有失敗的公司具備那 7 項特質呢?這個書根本沒查。
更難堪的:Collins 書出版後 5 年,11 家「卓越」公司中有 5 家股價跌破市場、2 家瀕臨破產。「成功學」的方法論破綻是同一回事——看不到反例的研究,學不到因果。
台灣健保研究汗牛充棟,多數結論:1995 上路的成功歸功於「強單一保險人+政府議價力+家戶共擔」。看起來一切合理。
但這類研究幾乎沒有納入同時期未成功建立全民健保的國家(如菲律賓 1995、印尼 1990s)。如果這些國家也試過類似制度卻失敗,台灣的「成功要素」就需要被重新審視。
Wong (2004) 的 Healthy Democracies 才認真做了這個比較——納入韓國(成功)、台灣(成功)、泰國(部分成功)、菲律賓(失敗),結果發現「民主競爭強度」才是關鍵變項,而非單一保險人設計。這是把樣本拉開後才看得到的因果。
美軍二戰時要決定戰機應該加強裝甲哪些部位。工程師統計「返航戰機」的彈痕分布:機翼、機尾彈痕最多,於是建議加強這些地方。
數學家 Abraham Wald 推翻:你看到的是能飛回來的戰機。彈痕集中在機翼機尾,正說明這些位置就算被打中也能飛回——真正應該加強的,是「沒有彈痕」的位置(引擎、駕駛艙),因為打中那裡的飛機根本飛不回來、沒進你的樣本。
同樣的邏輯:研究「成功的福利改革」時,沒被研究的失敗案例,可能正是真正的因果關鍵。
第二種錯誤:選「極端案例」對照常模。譬如研究「福利國家慷慨程度的成因」,卻只選瑞典、挪威、丹麥與美英對照。這種對比雖有啟發,但容易把地理相近、語言相近、歷史相近等額外變項也同時固定,造成自變項與誤差項共變。
社會政策範例
常見的福利國家文獻:以北歐三國對照美英兩國,得出「左派執政→慷慨福利」的結論。但這五國同時也共享了完全不同的歷史路徑、語言文化、人口規模——這些都是潛在的混淆變項,被研究設計直接忽略。
Paul Pierson《Dismantling the Welfare State?》(1994)只比較柴契爾的英國與雷根的美國——兩個都是新右派政府上台、都試圖砍福利的案例。結論:「責難規避」(blame avoidance)是緊縮政治的核心策略。這個命題影響了後續 30 年的福利國家研究。
方法學批評:英美兩國同時是「自由主義福利體制」「多數決選舉制度」「盎格魯薩克遜文化」。Pierson 看到的「責難規避」可能來自任何一個共同變項,不見得是新右派意識型態。
Green-Pedersen (2002) 與 Starke (2006) 補上北歐(丹麥、瑞典)的緊縮案例後發現:責難規避只是策略之一,社會民主國家的緊縮反而走「協商共識」路線。Pierson 沒錯,但他的命題範圍被高估了。
2000 年代 PISA 評比後,芬蘭成為全球教育研究的「聖杯」。教育學者紛紛取經:「為什麼芬蘭能?」答案總是繞回「教師地位高」「不分流」「不考試」。
但 Pasi Sahlberg 自己(芬蘭教育學者)指出方法學陷阱:芬蘭跟它鄰近的瑞典、挪威其實在制度上很像,但 PISA 表現差距很大。如果只研究芬蘭,看不到「同樣的制度為什麼在不同國家結果不同」。
更慘的是:2015 年後芬蘭 PISA 排名一路下滑。如果當年的「成功要素」是真的,為什麼 10 年後就不靈了?這提醒我們:抓著明星案例做歸納,是一種反覆會被打臉的研究設計。
台灣社會科學常出現「以台灣對照美國(或瑞典、或日本)」的研究——這幾乎全部踩在 Geddes 第二類錯誤上。
典型例子:「台灣健保 vs. 美國醫療」的比較研究,得出「台灣勝在政府介入」。但這兩國同時還差人口規模、政治制度、移民構成、種族異質性、地理範圍——任何一個都可能是真正的因。要做有效比較,至少需要納入「同樣有國家健保」的韓國、日本,與「同樣是市場主導」的瑞士、德國,才能把「政府介入」這個變項真正分離出來。
建議:碩論若要做「台灣 vs. 某國」,務必在文獻回顧明確處理混淆變項,並把命題範圍寫死。
第三種錯誤:從一個「高峰」寫到另一個「谷底」。事件本身的高峰與谷底是被選擇出來的。若起點與終點都是研究者刻意挑選,因果趨勢很可能是看圖說故事。
社會政策範例
僅以 2008–2015 年為觀察區間,貧窮率下降的證據看似強;但這段期間跨過 2010 年緊縮與 2013 年稅改,起點與終點都是研究者刻意挑選。若擴展到 2020 年疫情加碼與 2022 年通膨侵蝕,同一工具的「效果」會呈現完全不同的面貌。
GEDDES 的警語
不是所有問題都能用小樣本比較研究回答。有些問題必須擴大樣本、甚至借用量化資料,才能避免把極端值當成通則。2010–2018:台灣健保安全準備金穩定、年年小幅盈餘。當時很多研究結論:「健保財務穩健、無立即破產風險」(行政院 2017 報告)。
2020–2024:疫情後醫療使用量激增、人口老化加速、新藥納入支出爆增。研究風向轉為:「健保財務岌岌可危、需大幅調漲費率」。
同一個健保、同一批資料庫,選不同時間端點,得到相反結論。這就是 Geddes 警告的時間端點選樣陷阱——做政策研究的學者要常自問:「為什麼我選這段時間?換成另一段呢?」
美國犯罪率從 1990s 中期到 2014 年大幅下降。各派學者爭功:
每個解釋都有「對的時間端點」可以支持自己。但 2014 年之後犯罪率又回升——上述任何單一理論都解釋不了這個轉折。這顯示:選對時段可以講通任何因果故事,跨越時段就破功。
Collier, Mahoney & Seawright (2004) 的核心貢獻:引入「資料集觀察」(DSO)與「因果過程觀察」(CPO)的區別。
填入資料表格的「列列欄欄」。每個觀察值都是同質的、可加總的——這是迴歸分析的標準資料形式。
例:18 個 OECD 國家、2000–2020 年、每國每年的工會密度與社會支出。
研究者對特定案例「內部機制」的深入理解:關鍵人物的動機、制度轉折點上的非慣例文件、行動者當時的認知。
例:1995 年台灣全民健保立法時,李登輝政府如何擺平醫師公會反對、勞委會內部關於費率的攻防文件。
關鍵:CPO 無法化約成表格列,但對假說檢驗的貢獻可能非常大。一篇關鍵的會議紀錄、一個轉折點的見證敘述,可以推翻整個理論。
Theda Skocpol《States and Social Revolutions》(1979)只比較三個案例:法國(1789)、俄國(1917)、中國(1949)。N=3,量化標準下這是「不能做推論」的研究。
但 Skocpol 用大量 CPO 證據建立因果機制:每個案例都有「國家危機 + 農民起義 + 國際軍事壓力」三個條件同時出現。她拿出來的是:
這些不是「資料表的一列」,而是「機制如何運作」的厚實證據。對於 N=3 的研究,CPO 的厚度可以彌補案例數的薄弱——這就是 Collier 等人的核心辯護。
1995 年 3 月健保上路前 6 個月,勞委會(今勞動部)和衛生署(今衛福部)為「保費由誰負擔」打了一場硬仗。DSO 看不到這個過程——資料表上只有「1995 年 3 月健保上路、保費分擔比例 6:3:1」這一列。
但 CPO 可以看到:
有了這些 CPO,研究者可以說:「健保的成功,不是因為李登輝有遠見,而是 1994–95 年的政商博弈裡,哪些行動者的什麼算計讓特定方案勝出」。這種因果機制的厚實,是純跨國迴歸永遠看不到的。
Stephen Van Evera 把 CPO 證據分強弱:
例:研究「健保立法是因為李登輝個人意志」這個假說。箍環測試:李登輝 1994 年的講稿、日記、與幕僚會議紀錄裡,必須有他主動推動健保的具體證據;如果完全沒有,這個假說就被推翻。CPO 的強度,決定了一個案例研究能不能取代多案例迴歸。
DSI 主張無變異設計「甚麼都學不到」。Collier 等人則主張:在某些情境下,單看一組依變項同值的案例仍可以做機制檢驗。
關鍵在於:研究者不是想估計平均因果效果,而是檢驗一個特定機制是否在案例內存在。Skocpol (1979) 對法、俄、中三場革命的機制拆解便是經典例子——三個案例的依變項都是「成功的社會革命」,但她要回答的是「這個機制是否運作」,而非「這個自變項的平均效果」。
| 議題 | DSI (1994) | Collier et al. (2004) |
|---|---|---|
| 無變異設計 | 沒有因果槓桿,甚麼都學不到。 | 可做機制檢驗,但不能做平均效果估計。 |
| 在依變項上選樣 | 幾乎總是偏誤;擴大樣本再說。 | 視研究問題而定;若問機制,仍可接受。 |
| 資料型態 | 以 DSO 為主,CPO 僅是軼事。 | DSO 與 CPO 並列,都能對假說做出貢獻。 |
| 方法策略 | 增加觀察、隨機化、控制變項。 | 過程追蹤、關鍵見證、文獻交叉比對。 |
| 對台灣研究的意義 | 研究「為何台灣建健保」,要納入未建健保的國家做對照。 | 研究「健保立法時,政策企業家的動員機制」,可單看台灣,但要厚描證據。 |
Esping-Andersen (1990) 以 OECD 18 個高所得國家為對象,提出自由主義、保守主義、社會民主三種體制類型。這是比較社會政策最具影響力的分類。然而後續研究發現:當分析擴展到東亞、拉美、後共時,三分類即不再完整。
Pierson (1994, 1996) 以英、美兩案例提出福利國家緊縮時期的「責難規避」(blame avoidance)理論,主張緊縮政治下決策者的動機與擴張時期截然不同。這個命題影響力極大。
但批評者(Green-Pedersen 2002;Starke 2006)指出:Pierson 的兩個案例恰好是「改革艱難、政黨競爭激烈」的情境。若納入北歐(丹麥、瑞典)的大型退休金改革,責難規避只是眾多策略之一。
歐洲自 1990 年代後期大量採行活化政策(activation policies),Bonoli (2010) 稱之為社會投資轉向。
許多早期研究僅以成功案例(丹麥、瑞典)為證,主張活化能降低貧窮;然而後續將樣本擴及德國 Hartz IV 改革與英國 New Deal,發現活化若搭配低保給付的削減,反而可能加深工作貧窮(Jessoula et al. 2010;Knotz 2020)。
比較長照改革常見的問題:我們傾向只研究「已建立長照保險或長照體系」的國家。台灣長照 2.0、日本介護保險、德國 Pflegeversicherung、韓國老人長期療養保險看似走了相似的路,但「為什麼這四國先走」與「為什麼其他國家沒走」這個問題,幾乎沒有被處理過。
Campbell, Ikegami & Gibson (2010) 指出:若要回答後者,就必須納入未建立長照保險的國家(如義大利、西班牙)作為對照。
想像你有一份研究計畫想送出去。回答下面三個問題,看看你的設計會不會被審查人挑出選樣偏誤。三題只需 30 秒。
每筆連結到 Google Scholar 搜尋結果(可查證、找全文、找後續引用)
點選任一條目跳到該頁