Home
探索 Uedu
學生控制台
註冊會員/登入
研究知情同意中心
問卷中心
教師控制台
課程設定
支援與訊息
Uptime 數據

UeduGPTs

--

Jupyters

2

UG26 CISOSE26
虎尾科技大學 AQI 23 28°C PM2.5 6

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

生物統計

為什麼「同一份資料」會講出兩個故事?

生物統計如何在偏差、干擾與機運中,把流行病學觀察翻譯成可決策的健康證據。

為什麼「同一份資料」會講出兩個故事?

某縣市衛生局發布一份新聞稿:去年推動的社區篩檢計畫,參與者的大腸癌死亡率比未參與者低了 30%。聽起來像是篩檢的勝利。但在隔壁的公衛系研討室裡,一位研究生看著同一張表,皺起了眉頭:參與篩檢的人本來就比較注重健康、比較常運動、比較少抽菸——這 30% 究竟有多少來自篩檢本身,又有多少只是因為「會去篩檢的人本來就比較健康」?

這就是生物統計(biostatistics)真正要回答的問題。它不只是把數字算出來,而是要在充滿雜訊、偏差與機運的真實世界裡,判斷一個健康現象到底是「真的」還是「碰巧」,並且把不確定性老老實實地量化出來。對公共衛生來說,這件事攸關政策資源該往哪裡投、哪個族群該優先介入、一項介入措施值不值得推廣到全國。換句話說,生物統計是把臨床與流行病學的觀察,翻譯成可以決策的證據的那道橋。

生物統計概念示意圖

從個體到族群:生物統計的提問方式

在優統計裡,你已經熟悉了平均數、標準差、抽樣分布與假設檢定這些工具。生物統計並沒有發明全新的數學,它的特殊之處在於研究對象與提問方式:我們關心的不是單一個人,而是一個族群(population)的健康狀態,以及暴露(exposure)與結果(outcome)之間的關聯。

一個典型的公衛問題長這樣:「居住在主要幹道 100 公尺內的居民,氣喘發生率是否高於距離較遠的居民?」這裡有幾個生統的核心元素:

  • 暴露變項:是否住在幹道附近(空氣污染代理指標)。
  • 結果變項:是否罹患氣喘。
  • 族群:某地理區域的所有居民,而我們只能觀察到其中一個樣本(sample)
  • 目標:從樣本推論回族群,並評估這個關聯有多可靠。

因為公衛資料幾乎都來自觀察而非實驗(你不可能隨機指派某些人「住在污染區」),所以生物統計從一開始就必須與偏差(bias)干擾(confounding)正面交鋒。這也是它和一般統計學最大的氣質差異:純統計問「這個關聯在資料裡是否顯著」,生物統計則進一步追問「這個關聯是否反映了真實的因果機制,還是被其他因素污染了」。

描述健康:率、比與測量尺度

在做任何檢定之前,公衛人要先學會「正確地描述」一個族群的健康狀態。這裡有三組常被混淆的概念。

盛行率(prevalence)與發生率(incidence)。 盛行率是某一時間點,族群中「現有」病例的比例,像是「2025 年某市成年人糖尿病盛行率為 11%」——它回答「現在有多少人病著」。發生率則是一段期間內「新發生」病例的速率,像是「每千人年新增 5 例」——它回答「疾病產生的速度有多快」。盛行率受病程長短影響(病人活得久,盛行率就高),發生率才真正反映風險。把兩者混用,是公衛報告中最常見的錯誤之一。

相對風險(relative risk, RR)與勝算比(odds ratio, OR)。 這兩個是流行病學量化關聯的主力指標。相對風險是暴露組的發生率除以非暴露組的發生率:RR = 2 代表暴露讓風險變成兩倍。勝算比則是用「勝算(odds)」相除,常見於病例對照研究(case-control study),因為在這種設計下無法直接算發生率。當疾病罕見時,OR 會近似 RR;但當疾病常見時,OR 會把效應誇大,這是解讀時必須警覺的陷阱。

測量尺度決定方法。 變項是類別(性別、血型)、順序(教育程度)、還是連續(血壓、BMI),直接決定你能用哪種統計方法。把連續血壓硬切成「高/正常」兩類,雖然方便溝通,卻會丟失資訊、降低檢定的統計檢力(statistical power)。這是初學者常踩的雷:分類不是免費的,它有資訊代價。

機運的角色:信賴區間與 p 值

回到開頭那個 30% 的故事。假設我們已經(暫時)排除了偏差,剩下一個問題:這 30% 的差距,會不會只是抽樣的機運造成的?

這正是統計推論(statistical inference)要處理的。公衛裡有兩種互補的表達方式:

p 值(p-value) 回答:「假如暴露與結果其實毫無關聯(虛無假設成立),那麼我們觀察到目前這麼極端、甚至更極端的結果的機率有多大?」p 值小(慣例上 < 0.05),代表「在沒有關聯的假設下,這個資料很難出現」,於是我們傾向拒絕虛無假設。但請特別注意:p 值不是「關聯為真的機率」,也不是「效應大小」。一個 p = 0.001 的關聯可能在臨床上微不足道;一個 p = 0.06 的關聯也可能極其重要卻因樣本太小而未達顯著。

信賴區間(confidence interval, CI) 則更受現代流行病學青睞,因為它同時傳達了效應大小精確度。一個「RR = 1.8(95% CI:1.2–2.7)」告訴你:點估計是 1.8 倍風險,而且這個區間不包含 1(無關聯的值),所以達到統計顯著;區間頗寬,反映樣本還不夠大。95% CI 的正確詮釋是:「若以同樣方法重複抽樣多次,約 95% 的區間會涵蓋真值」——它描述的是程序的長期表現,而非「真值有 95% 機率落在這個區間」。

公衛實務上有一個重要原則:不要只看 p 值的星號,要看效應大小與區間。 一個達到顯著但 CI 緊貼著 1(如 1.01–1.05)的關聯,對族群健康的實質意義往往有限。

看一個例子:兩個社區的腸道感染率

假設你在調查兩個社區的某腸道感染。社區 A 自來水加氯,社區 B 使用未處理的井水。一年下來:

  • 社區 A:2000 人中有 40 人感染,發生率 = 40 / 2000 = 2.0%。
  • 社區 B:1500 人中有 90 人感染,發生率 = 90 / 1500 = 6.0%。

相對風險 RR = 6.0% / 2.0% = 3.0。井水社區的感染風險是加氯社區的 3 倍。

接著我們想知道這個差距是否可能只是機運。對兩組比例做卡方檢定(chi-square test),或計算 RR 的 95% 信賴區間。假設算出 95% CI 為 2.1–4.3。這個區間不包含 1,所以在 α = 0.05 的水準下達到統計顯著——我們有合理證據認為水源處理與感染風險有關。

但生物統計的訓練會讓你立刻多問三句:

  1. 兩個社區除了水源,還有什麼不同?年齡結構、衛生習慣、人口密度——這些都可能是干擾因子。
  2. 病例是如何被偵測的?如果社區 B 剛好有一間診所更積極通報,會不會高估了 B 的發生率(偵測偏差)?
  3. 這個關聯有沒有生物學上的合理性?水媒病原透過未處理井水傳播,機制清楚——這支持因果解讀。

換句話說,RR = 3.0 與顯著的 CI 只是「故事的開頭」,不是結論。

對付干擾:分層與調整

干擾(confounding)是公衛資料分析的核心難題。一個干擾因子,是同時與暴露和結果有關、又不在因果路徑上的第三變項。經典例子:研究「喝咖啡與肺癌」,可能會發現正相關,但真正的元兇是抽菸——抽菸者比較常喝咖啡(與暴露相關),抽菸也致癌(與結果相關)。咖啡只是揹了黑鍋。

生物統計處理干擾有兩條主要途徑:

分層分析(stratification)。 把資料依干擾因子分層,在每一層內各自看關聯。如果在抽菸者與非抽菸者各自的層內,咖啡與肺癌的關聯都消失了,那原本的關聯就是抽菸造成的假象。Mantel-Haenszel 方法可以把各層的估計加權合併成一個調整後的估計。

多變項迴歸(multivariable regression)。 當干擾因子很多時,分層會把資料切得太碎。這時改用迴歸模型,把多個變項同時放進去,估計每個變項在「其他變項固定」下的獨立效應。公衛最常用的兩種是:

  • 邏輯斯迴歸(logistic regression):結果是二元(生病/沒病),輸出調整後的勝算比。
  • Cox 比例風險模型(Cox proportional hazards model):用於存活分析(survival analysis),處理「事件發生的時間」資料,輸出風險比(hazard ratio, HR)。它能優雅地處理設限資料(censoring)——也就是追蹤期間內還沒發生事件、或中途失聯的個案。

存活分析在公衛特別重要,因為我們常關心的不只是「會不會發生」,而是「多快發生」。Kaplan-Meier 存活曲線就是描述族群隨時間「存活比例」變化的標準工具。

動手試試:辛普森悖論的陷阱

請看這組虛構但典型的腎結石治療資料。兩種療法 A、B,整體成功率:

  • 療法 A:整體成功率 78%(273/350)
  • 療法 B:整體成功率 83%(289/350)

乍看 B 比較好。但如果我們依「結石大小」分層:

小結石 大結石
療法 A 93%(81/87) 73%(192/263)
療法 B 87%(234/270) 69%(55/80)

分層後,在小結石和大結石中,療法 A 都比較好

為什麼整體反而是 B 贏?因為療法 A 被優先用在更難治的大結石(263 例 vs B 的 80 例),而大結石本來成功率就低,把 A 的整體平均拉低了。這就是辛普森悖論(Simpson's paradox)——結石大小同時影響「分到哪種療法」與「成功率」,是個強力干擾因子。如果只看整體數字,你會做出完全相反的臨床建議。

這個例子的教訓很直接:整體聚合的數字可能說謊;不調整干擾因子的關聯,可能指向錯誤的方向。 這也是為什麼公衛論文裡,你幾乎總會看到「調整後(adjusted)」的估計值。

樣本要多大?檢力與型一、型二錯誤

在規劃一項公衛研究時,「要收多少樣本」是繞不開的問題。樣本太小,就算真有效應也檢測不出來,浪費資源與受試者的善意;樣本過大,則可能把毫無實質意義的微小差異也判為顯著。

這裡有兩種會犯的錯:

  • 型一錯誤(Type I error, α):虛無假設其實為真,卻被我們錯誤地拒絕——也就是「無中生有」,宣稱有關聯但其實沒有。慣例上控制在 0.05。
  • 型二錯誤(Type II error, β):虛無假設其實為假,我們卻沒能拒絕它——「視而不見」,真有關聯卻沒檢測到。

統計檢力(power)= 1 − β,是「當效應真的存在時,研究能成功偵測到它的機率」。公衛研究設計通常要求檢力至少 80%。檢力受四個因素拉扯:效應大小、樣本數、變異程度、與顯著水準。在規劃階段做樣本數估算(sample size calculation),就是在這四者間取得平衡,確保研究「值得做」。

一個常被忽略的觀念是:未達顯著(p > 0.05)不等於「沒有效應」。它可能只代表「這份資料的檢力不足以偵測到效應」。把「沒有證據顯示有差異」誤讀成「有證據顯示沒有差異」,是公衛溝通中相當危險的一種誤解。

重點回顧

  • 盛行率反映「現在病著的比例」,發生率反映「疾病產生的速度」;前者受病程長短影響,混用會誤導。
  • 信賴區間比 p 值資訊更豐富:它同時告訴你效應大小與精確度。p 值小不代表效應大,未達顯著也不代表沒有效應。
  • 干擾因子是觀察性研究的頭號敵人;透過分層、Mantel-Haenszel、或多變項迴歸來調整,才能逼近真實關聯。
  • 辛普森悖論提醒我們:整體聚合數字可能與分層後的結論完全相反,不調整干擾就下結論很危險。
  • 充足的統計檢力(通常 ≥ 80%)是研究值得做的前提;樣本數估算應在研究開始前完成,而非事後補算。

深入探討(研究所視角)

走到研究所層級,生物統計的重心會從「方法的操作」轉向「因果推論(causal inference)的邏輯基礎」。觀察性公衛資料的核心困境,可以用 Rubin 的潛在結果框架(potential outcomes framework)精確表述:對每個人,我們想比較「他暴露時的結果」與「他未暴露時的結果」,但現實中每人只能觀察到其中一種——這就是因果推論的「根本問題」。族群層次的因果效應,只有在某些可辨識性假設(identifiability assumptions)成立時才能從觀察資料估計:no unmeasured confounding(無未測量干擾)、positivity(每個人都有非零機率接受各種暴露)、與 consistency。

當這些假設成立時,現代方法如傾向分數(propensity score)逆機率加權(inverse probability weighting, IPW)、以及處理時變干擾的邊際結構模型(marginal structural models),能在標準迴歸失效之處估計族群層次的因果效應。有向無環圖(directed acyclic graphs, DAGs)則提供了一套圖形語言,讓研究者在資料分析「之前」就釐清該調整哪些變項、又該避免調整哪些——例如對撞變項(collider)若被錯誤調整,反而會憑空製造出偏差(collider bias),這正是某些「肥胖悖論」爭議的根源。

另一條重要延伸是多重比較(multiple comparisons)與可重複性危機。當一項全基因組關聯研究同時檢定數十萬個位點,沿用 α = 0.05 會產生海量的偽陽性;Bonferroni 校正過於保守,於是發展出控制偽發現率(false discovery rate, FDR)的 Benjamini-Hochberg 程序,在大規模檢定時取得更合理的平衡。這也連結到近年對 p 值的廣泛反思——美國統計學會(ASA)2016 年的聲明明確指出,p 值不應被當作科學結論或政策決策的唯一門檻。

跨領域來看,生物統計正與機器學習因果機器學習深度融合:targeted maximum likelihood estimation(TMLE)、causal forests 等方法,試圖在保留因果解釋的同時,利用彈性模型捕捉高維資料中的複雜關係。對公衛而言,這意味著能在電子健康紀錄、穿戴裝置、環境感測等多模態資料上,估計更個人化的介入效應——這也正呼應了 Educational Omics 與健康資料整合的精神:當資料的維度與密度都在爆炸式成長,把關聯翻譯成可信因果結論的統計素養,比以往任何時候都更關鍵

最後值得思考的是生態謬誤(ecological fallacy)與其反面原子謬誤(atomistic fallacy)的張力:族群層次觀察到的關聯(如「人均收入越高的國家平均壽命越長」)不能直接套用到個人,反之亦然。多層次模型(multilevel / hierarchical models)正是為了同時容納個體層次與族群層次的變異而生——它提醒我們,公共衛生的本質,始終是在「個人」與「群體」這兩個尺度之間,謹慎地來回對話。

AI 共讀助教正在陪你讀:為什麼「同一份資料」會講出兩個故事?
嗨!我是這篇文章的共讀助教,只根據〈為什麼「同一份資料」會講出兩個故事?〉的內容回答。可以問我「解釋某段」「舉個例子」「出題考我」,或反白文中段落後點下方「解釋選取段落」。