嗨,歡迎來到「統計急診室」,我是你的統計救星。

今天,我們要來拆解一個在學術研究、商業分析甚至日常決策中都超級有用的統計工具:「相依樣本 t 檢定」(Paired Sample t-test)。

你是不是一聽到「統計」和「檢定」就頭皮發麻,覺得自己回到了被數學課本支配的恐懼中?別擔心!這篇文章的使命,就是帶你從「完全聽不懂」到「可以教別人」。

我們將會用一種「深入淺出」的極致方式來學習。我會先用一個連國小小朋友都能聽懂的故事開始,建立你最核心的「直覺」;然後,我們再慢慢穿上統計學的「專業裝備」,一步步探索它的原理、計算、假設,甚至是如何在軟體中操作。

這是一篇終極指南。是的,你沒看錯。我保證,只要你跟著我的思路走,讀完這篇,你對「相依樣本 t 檢定」的理解將會超越 90% 的人。

準備好了嗎?泡杯咖啡,讓我們開始這趟旅程!


Part 1:【超簡單版】給國小學生的「神奇長高藥水」故事

我們先忘掉所有複雜的名詞。

想像一下,你是一位超厲害的科學家,你剛剛在實驗室裡發明了一種閃閃發光的「超級長高藥水」。

你超興奮的!你覺得這個發明可以讓你得諾貝爾獎!

但是,身為一個負責任的科學家,你不能「你覺得」有用就有用。你必須證明它。

你該怎麼辦呢?

你的實驗計畫

你決定找 10 個好朋友來幫忙測試。(就叫他們 A、B、C...J 同學)

  1. 第一步:『之前』
    在大家喝藥水之前,你拿出尺,非常非常仔細地量了 A、B、C...J 這 10 個朋友的身高,然後把數字一個一個工整地寫在你的筆記本上。
    • A 同學:150 公分
    • B 同學:145 公分
    • C 同學:160 公分
    • ...(以此類推)
  2. 第二步:『喝藥水』
    你給大家一人一瓶「超級長高藥水」,然後說:「乾杯!喝下去!」
  3. 第三步:『之後』
    大家回家,過了一個月...
    你把同一批 10 個朋友(還是 A、B、C...J)全部找回來。你拿出同一把尺,用同樣的方法,再把他們 10 個人的身高量一遍,記在筆記本上。

你怎麼知道「有沒有用」?

現在,你的筆記本上有兩排數字:「喝之前的身高」和「喝之後的身高」。

你開始思考,我要怎麼「比較」?

你不會笨到把「A 喝之前的身高」拿去跟「B 喝之後的身高」比,對吧?那沒意義。

你最想知道的,是每個人自己「改變了多少」

於是,你開始在筆記本上畫第三欄,叫做「改變的量」:

  • A 同學:(喝之後 152 公分) - (喝之前 150 公分) = 長高了 2 公分
  • B 同學:(喝之後 146 公分) - (喝之前 145 公分) = 長高了 1 公分
  • C 同學:(喝之後 160.5 公分) - (喝之前 160 公分) = 長高了 0.5 公分
  • ...
  • J 同學:(喝之後 155 公分) - (喝之前 155 公分) = 長高了 0 公分(可憐的 J)

你把這 10 個「改變的量」全部算出來了。

真正的問題:這只是「運氣好」嗎?

你把這 10 個「改變的量」全部加起來,除以 10,得到了「平均改變量」。

假設,你算出來的「平均改變量」是長高 1.5 公分

這時候,你心裡一定會冒出兩個小惡魔在打架:

  • 興奮的你:「哇!1.5 公分!我的藥水真的有用!我要發財了!我要得諾貝爾獎了!」
  • 懷疑的你:「...等等。會不會只是『運氣好』啊?」

「懷疑的你」說的很有道理。

  • ...會不會 C 同學只是剛好這個月睡得比較好,才長高 0.5 公分?
  • ...會不會 J 同學根本沒變,代表藥水沒用?
  • ...會不會 A 同學長高 2 公分,根本跟藥水無關,他就算不喝也會長高?

你怎麼知道這個「平均長高 1.5 公分」,是一個「真的」效果,而不是「純屬巧合」或「運氣爆棚」?

「相依樣本 t 檢定」,就是那個「超級裁判」!

它就是一個數學工具,專門用來幫你回答這個問題:

「你算出來的這個『平均改變量』,到底是真的有用,還是只是運氣好?」
  • 如果 t 檢定告訴你:「P 值 < 0.05」(你之後會學到),意思就是:「這不是運氣!你的藥水真的有用!」
  • 如果 t 檢定告訴你:「P 值 > 0.05」,意思就是:「這很可能是運氣!你算出的 1.5 公分沒什麼了不起,很可能只是巧合,你的藥水大概沒效。」

「國小版」總結

  1. 主角: 相依樣本 t 檢定。
  2. 目的: 看「同一群人」,在「做一件事之前」和「做一件事之後」,他們身上的數字(身高、體重、成績)有沒有「真的改變」。
  3. 關鍵字:相依」=「相關的」,因為「之前的你」和「之後的你」是同一個人,這兩筆資料是綁在一起的。
  4. 功能: 幫你判斷這個「改變」是真的有效,還是純屬巧合

Part 2:【正常版】深入理解「相依樣本 t 檢定」

好,故事說完了。讓我們把「神奇藥水」收起來,戴上學術的眼鏡。

我們剛剛用「長高藥水」故事所描述的整個邏輯,就是「相依樣本 t 檢定」的核心。

什麼是「相依樣本 t 檢定」(Paired Sample t-test)?

相依樣本 t 檢定(也常被稱為 Paired t-test 或 Dependent t-test)是一種「推論統計」方法。

它的核心目的是:用來檢驗「單一組」受試者(或緊密配對的兩組)的兩筆「相依」的連續變項,其「平均數」是否存在統計上的顯著差異。

...我知道,這句話聽起來很饒口。我們來拆解它:

  • 「單一組」受試者: 就像故事中的 10 個小朋友。
  • 「兩筆相依的變項」: 就像「喝藥前的身高」和「喝藥後的身高」。它們是「相依」的,因為它們都來自同一個小朋友。
  • 「平均數」: 我們關心的是「平均身高」有沒有改變。
  • 「是否存在顯著差異」: 我們想知道這個改變是「真的」,還是「巧合」。

你什麼時候「必須」使用它?

這是最關鍵的問題。你必須在你的「資料結構」符合以下情境時,才能使用這個檢定:

情境一:重複測量(Repeated Measures)

這是最常見的,也就是我們故事中的「前測-後測」(Pre-Post)設計。

  • 範例 1(教育): 一班學生在接受「新教學法」之前的英文成績 vs. 接受教學之後的英文成績。
  • 範例 2(醫療): 20 位高血壓病患在服用「新藥」之前的收縮壓 vs. 服用之後的收縮壓。
  • 範例 3(心理): 一群人在接受「正念冥想」訓練之前的焦慮分數 vs. 訓練之後的焦慮分數。
  • 範例 4(行銷): 50 位消費者在看廣告前對 A 品牌的好感度 vs. 看廣告後對 A 品牌的好感度。

情境二:配對樣本(Matched Pairs)

有時候,你的受試者不是「同一個人」,而是「天生一對」或「被人為配對」的兩個人。

  • 範例 1(天生一對): 研究 30 對夫妻,比較「丈夫」的年收入和「妻子」的年收入。
  • 範例 2(基因配對): 研究 20 對同卵雙胞胎,其中一個(隨機)吃 A 飼料,另一個吃 B 飼料,比較他們的體重。
  • 範例 3(人為配對): 研究 A、B 兩種工廠作業流程。你找了 100 個工人,但你知道「年資」會影響效率。於是你找出「年資 1 年」的 A、B 兩人配對,「年資 10 年」的 C、D 兩人配對...然後一組用 A 流程、一組用 B 流程,比較他們的生產力。

情境三:兩種不同情境(Within-Subjects Design)

對「同一群」人,測量他們在「兩種不同情況下」的反應。

  • 範例: 讓 15 個人「戴著耳塞」(情境 A)和「聽著吵雜音樂」(情境 B)的情況下,分別完成同一個拼圖,比較他們花費的時間。

為什麼不直接用「獨立樣本 t 檢定」?

新手最常問:「我手上有『之前』和『之後』兩組數據,為什麼我不能用『獨立樣本 t 檢定』(Independent Sample t-test)來跑就好?」

答案是:絕對不行!而且你損失大了!

「獨立樣本 t 檢定」是「相依樣本 t 檢定」的兄弟,它是用來比較「兩組完全不相干的人」。

  • 例如:比較「A 班(用新教法)」和「B 班(用舊教法)」的期末成績。
  • A 班的小明和 B 班的小華是獨立的。

為什麼不行?

  1. 違反假設: 「獨立樣本 t 檢定」的大前提就是兩組樣本「互相獨立」。但「喝藥前的你」和「喝藥後的你」根本不是獨立的,你還是你啊!
  2. 損失檢定力(Power): 這是最關鍵的。使用「相依樣本 t 檢定」威力更強大!

為什麼「相依」威力更強大?

讓我們回到「長高藥水」的例子。

假設 B 同學(145 公分)和 C 同學(160 公分)都長高了 1 公分。

  • B 同學:145 -> 146(長高 1)
  • C 同學:160 -> 161(長高 1)

如果你用「獨立 t 檢定」,它會看到什麼?
它會看到一組「之前」的數據(145, 160...)和一組「之後」的數據(146, 161...)。它會發現「之前」這組數據本身就差很多(145 vs 160,差了 15 公分!),它會認為這組數據的「變異(Noise)」超級大。

在統計學上,「變異(雜訊)」是「效果(訊號)」的敵人。

當「雜訊」太大,你那個 1 公分的「訊號」就很容易被淹沒。獨立 t 檢定會跟你說:「我看不到什麼明顯的效果,因為你這兩組人本來就亂七八糟的。」

但「相依 t 檢定」會看到什麼?
它會先做「(之後) - (之前)」這個動作。

  • B 同學的改變: +1
  • C 同學的改變: +1

「相依 t 檢定」會看到一組「改變量」的數據(+2, +1, +0.5, ... , 0)。
完全無視 B 同學本來是 145 還是 160 公分!它只在乎 B 同學「自己跟自己比」改變了多少。

這就是「相依樣本 t 檢定」最偉大的地方:它「消除」了每個受試者之間「天生的差異」。

它把「A 同學天生就高」、「B 同學天生就矮」這種「個體差異」的雜訊全部過濾掉了。它只專注在「藥水(或教學法)本身」所帶來的改變。

這使得它在偵測「微小但真實」的改變時,比「獨立樣本 t 檢定」靈敏 100 倍


Part 3:【核心原理】t 檢定到底是如何運作的?

好,我們已經知道「為什麼」要用它。現在,我們要來拆解「它怎麼算」。

如果你是文科生,別怕。我保證用「國小版」的邏輯帶你走一遍。

核心思想:把「兩個問題」變成「一個問題」

相依樣本 t 檢定的天才之處,就在於它根本不是在比較「兩組」數據。

它透過一個簡單的減法,把「比較兩組(之前 vs. 之後)」這個複雜問題,降維成「檢驗一組(改變量)」這個簡單問題。

步驟一:計算「差異分數」(Difference Scores, $D$)

這就是我們在「國小版」做的事。

$D = X_{之後} - X_{之前}$ (或 $X_2 - X_1$

受試者 $X_{之前}$ (Before) $X_{之後}$ (After) $D$ (差異分數)
A 150 152 +2
B 145 146 +1
C 160 160.5 +0.5
D 155 155 0
... ... ... ...
J 148 149 +1

步驟二:把「之前」和「之後」兩欄忘掉!

是的,你沒看錯。一旦你算出了 $D$ 這一欄,你就再也不需要前面那兩欄了。

你所有的分析,都將只針對 $D$ 這一欄(+2, +1, +0.5, 0, ..., +1)來進行。

步驟三:問題轉換

原本的問題是:「『之前』的平均數 $\mu_1$」和「『之後』的平均數 $\mu_2$」是否相等?

現在,新問題變成:
「『差異分數 $D$』這一欄,它的總體平均數 $\mu_D$ 是不是 0 ?」

  • 如果 $\mu_D = 0$:代表(之後 - 之前)= 0,也就是「之後 = 之前」。→ 藥水沒效
  • 如果 $\mu_D \neq 0$:代表(之後 - 之前) $\neq$ 0。→ 藥水有效

你看!這不就變成了一個「單樣本 t 檢定」(One-Sample t-test)嗎!

我們只是想知道 $D$ 這一欄的平均數,是不是 0 而已!

計學的「儀式」:建立假說

在我們計算之前,要先擺好「儀式」,也就是建立「虛無假說」和「對立假說」。

  • 虛無假說 $H_0$(Null Hypothesis):
    • 統計語言:$\mu_D = 0$
    • 白話文:沒效。藥水是騙人的。那個 1.5 公分的平均差異只是運氣。總體(所有人)的平均改變量根本就是 0
  • 對立假說 $H_1$(Alternative Hypothesis):
    • 統計語言:$\mu_D \neq 0$ (這叫「雙尾檢定」,最常用)
    • 白話文:有效!藥水真的有用!總體的平均改變量絕對不是 0

進階註:如果你「非常確定」藥水只會讓人長高,不會讓人變矮,你可以用「單尾檢定」 $H_1: \mu_D > 0$。這會讓檢定力更強一點,但你必須有很強的理論支持。)

最終的「t 統計量」公式

t 檢定的核心,就是要算出一個數字,叫做「t 值」(t-statistic)。

這個 t 值,你可以把它想像成一個「訊號 / 雜訊」的分數

$t = \frac{\text{訊號 (Signal)}}{\text{雜訊 (Noise)}}$

在「相依樣本 t 檢定」中,這個公式長這樣:

$t = \frac{\bar{D} - \mu_D}{\frac{s_D}{\sqrt{n}}}$

別怕,我們把它翻譯成白話文:

  • 分子(訊號):$\bar{D} - \mu_D$
    • $\bar{D}$ 是你算出來的「樣本平均差異」(例如:+1.5 公分)。
    • $\mu_D$ 是你虛無假說($H_0$)的「總體平均差異」(我們假設它是 0)。
    • 所以,分子其實就是 $\bar{D} - 0$,也就是 $\bar{D}$
    • 白話: 你在樣本中觀測到的「平均效果」有多大?(1.5 公分)
  • 分母(雜訊):$\frac{s_D}{\sqrt{n}}$
    • 這整坨東西,有個名字,叫做「平均差異的標準誤」(Standard Error of the Mean Difference)。
    • $n$ 是你的「樣本數」(例如:10 個小朋友)。
    • $s_D$ 是「差異分數 $D$ 的標準差」(Standard Deviation of D)。
    • $s_D$ 是什麼? 它代表你的受試者反應的「一致性」
    • 如果 $s_D$ 很小:代表大家(A, B, C...)長高的量都「差不多」(例如:1.4, 1.5, 1.6 公分)。這代表你的藥水效果很穩定,雜訊很低
    • 如果 $s_D$ 很大:代表大家長高的量「差很多」(例如:A 長高 10, B 矮了 7, C 長高 2)。這代表藥水效果很不穩定,雜訊很高
    • 白話: 你的實驗結果「有多混亂」或「有多不一致」?

所以,t 值到底在算什麼?

$t = \frac{\text{你觀測到的平均效果 (例如 +1.5 公分)}}{\text{這個效果的「不穩定/混亂」程度}}$
  • 如果 t 值很大:代表你的「訊號」遠遠大於「雜訊」。(例如:$1.5 / 0.1 = 15$)。你的數據非常乾淨,效果非常明顯
  • 如果 t 值很小:代表你的「訊號」快被「雜訊」淹沒了。(例如:$1.5 / 2.0 = 0.75$)。你的數據非常混亂,這個 1.5 公分可能只是運氣

拿到 t 值後,然後呢?(p 值)

你算出 t 值(例如 t = 3.5)之後,統計學家會做最後一步:查表(現在都用電腦)。

他們會去查一個叫做「t 分布」的圖。

然後,他們會看:「在『藥水根本沒效』($H_0$ 為真)的世界裡,你還能靠運氣拿到 t = 3.5 這麼極端(這麼大)的分數,機率有多高?」

這個「機率」,就是鼎鼎大名的「p 值」(p-value)。

  • p 值很小(例如 p = 0.001):
    • 翻譯: 「如果藥水沒效,你想靠運氣拿到 t=3.5 這麼好的成績,機率只有 0.1%。」
    • 結論: 「你太看得起運氣了!我不相信這是運氣。我拒絕『藥水沒效』的說法。」
    • 統計術語: 拒絕虛無假說 $H_0$。結果「顯著」。
  • p 值很大(例如 p = 0.450):
    • 翻譯: 「如果藥水沒效,你想靠運氣拿到 t=0.8 這種成績,機率高達 45%。」
    • 結論: 「這根本超常發生的。你這數據完全可能是運氣。我無法拒絕『藥水沒效』的說法。」
    • 統計術語: 無法拒絕虛無假說 $H_0$。結果「不顯著」。

那條「線」在哪裡?
科學家們約定俗成,把「判斷的標準線」設在 5%(也就是 0.05)。這個標準線叫做「顯著水準 $\alpha$」。

  • p < 0.05: 判為「顯著」(太不可能發生了,我拒絕 $H_0$)。
  • p > 0.05: 判為「不顯著」(很有可能只是運氣,我保留 $H_0$)。

Part 4:【實戰演練】我們來手算一個例子!

光說不練假把戲。我們來用一個真實(我編的)數據,從頭到尾手算一次。

情境: 一家公司舉辦了「正念冥想 8 週」課程,他們想知道這對員工的「工作焦慮感」有沒有幫助。
他們找了 10 位員工,在課程(Before)和課程後(After),分別用一份「焦慮量表」(分數 1-100,越高越焦慮)進行評估。

數據如下:

員工 焦慮 (Before) 焦慮 (After)
1 85 75
2 90 82
3 70 65
4 75 70
5 80 78
6 95 85
7 88 80
8 65 60
9 78 75
10 92 88

我們要檢驗: 冥想課程是否顯著降低了員工的焦慮分數?(我們使用 $\alpha = 0.05$)

步驟一:建立假說

  • $H_0$: $\mu_D = 0$ (冥想課程沒效,焦慮分數的改變平均為 0)
  • $H_1$: $\mu_D \neq 0$ (冥想課程有效,焦慮分數的改變平均不是 0)

註: 這裡我們用雙尾檢定。如果我們非常篤定只想知道「有沒有降低」,可以用 $H_1: \mu_D > 0$,因為我們的 D 是 Before - After)

步驟二:計算差異分數 $D$

我們定義 $D = \text{Before} - \text{After}$ (這樣「降低」就會是正數,比較直觀)

員工 焦慮 (Before) 焦慮 (After) $D$ (差異分數)
1 85 75 +10
2 90 82 +8
3 70 65 +5
4 75 70 +5
5 80 78 +2
6 95 85 +10
7 88 80 +8
8 65 60 +5
9 78 75 +3
10 92 88 +4

步驟三:計算 $D$ 欄位的「平均數」與「標準差」

1. 樣本數 (n):
$n = 10$

2. 差異平均數 ($\bar{D}$):
$\bar{D} = \frac{10 + 8 + 5 + 5 + 2 + 10 + 8 + 5 + 3 + 4}{10}$
$\bar{D} = \frac{60}{10} = \mathbf{6.0}$

解讀: 在我們的樣本中,焦慮分數平均降低了 6 分。這就是我們的「訊號」。)

3. 差異標準差 ($s_D$):
警告:數學計算開始
標準差公式:$s_D = \sqrt{\frac{\sum (D_i - \bar{D})^2}{n-1}}$

  • 先算 $D_i - \bar{D}$(每個 D 減掉平均 6):
    (10-6)=4, (8-6)=2, (5-6)=-1, (5-6)=-1, (2-6)=-4, (10-6)=4, (8-6)=2, (5-6)=-1, (3-6)=-3, (4-6)=-2
  • 再算平方 $\sum (D_i - \bar{D})^2$:
    $16 + 4 + 1 + 1 + 16 + 16 + 4 + 1 + 9 + 4 = 72$
  • 除以 $n-1$($10-1=9$),這叫做「變異數」(Variance):
    $s_D^2 = \frac{72}{9} = 8$
  • 開根號,得到標準差 $s_D$:
    $s_D = \sqrt{8} \approx \mathbf{2.828}$

解讀: 焦慮分數的「降低量」的變異程度是 2.828 分。這就是我們的「雜訊」。)

步驟四:計算 t 統計量

公式:$ t = \frac{\bar{D} - 0}{\frac{s_D}{\sqrt{n}}} $

  • $n = 10$
  • $\bar{D} = 6.0$
  • $s_D = 2.828$

1. 先算分母(標準誤 $SE_D$):
$SE_D = \frac{s_D}{\sqrt{n}} = \frac{2.828}{\sqrt{10}} = \frac{2.828}{3.162} \approx \mathbf{0.894}$

2. 再算 t 值:
$t = \frac{\bar{D}}{SE_D} = \frac{6.0}{0.894} \approx \mathbf{6.71}$

解讀: 我們的 t 值高達 6.71!這代表我們的「訊號」(平均降低 6 分)是「雜訊」(標準誤 0.894)的 6.7 倍!這聽起來...非常顯著!)

步驟五:查表,找出 p 值並下結論

1. 自由度(Degrees of Freedom, df):
$df = n - 1 = 10 - 1 = 9$

2. 找出 t 臨界值(或直接查 p 值):
我們拿著 $t = 6.71$ 和 $df = 9$ 去查「t 分布表」(或用軟體)。

我幫你查了:
對於 $df = 9$,雙尾檢定 $\alpha = 0.05$ 的「t 臨界值」是 $\pm 2.262$。

  • 意思是: 你的 t 值只要大於 2.262小於 -2.262,p 值就會小於 0.05。

3. 比較:

  • 我們算出的 t 值 = 6.71
  • 臨界值 = 2.262
  • 6.71 遠遠大於 2.262

4. 找出精確 p 值:
我用軟體(Excel 的 T.DIST.2T(6.71, 9))算出的精確 p 值是:
p = 0.00013

步驟六:撰寫結論(APA 格式)

這是在論文中你必須寫的「標準答案」。

「我們使用相依樣本 t 檢定,來檢驗 10 位員工在參加正念冥想課程前後的焦慮分數。 結果顯示,課程之後的焦慮分數($M = 74.8, SD = 8.64$)顯著低於課程之前的焦慮分數($M = 80.8, SD = 9.91$)。 此差異在統計上達到顯著水準,$t(9) = 6.71, p < .001$。」

註:M 是平均數,SD 是標準差,t(9) 的 9 是自由度

白話文結論:
有效! 我們的研究發現,這個冥想課程真的顯著降低員工的焦慮感。這個結果不是運氣!」


Part 5:【進階討論】魔鬼藏在細節裡

恭喜你!你已經學會了 90% 的核心知識。

但是,統計學家是「嚴謹」的(龜毛的)。使用 t 檢定,你必須先檢查你的數據是否滿足了「基本假設」(Assumptions)。

如果你不滿足這些假設,你算出來的 t 值和 p 值可能是錯的

相依樣本 t 檢定的三大假設

假設一:依變項(你量的東西)必須是「連續變項」

  • 白話: 你量的東西必須是「數字」,而不是「類別」。
  • 可以: 身高(公分)、體重(公斤)、焦慮分數(1-100)、反應時間(毫秒)。
  • 不行: 喜歡的顏色(紅、藍、綠)、教育程度(國小、國中、高中)。
  • 檢查: 這個在實驗設計時就要想好,通常不會錯。

假設二:樣本必須是「相依」或「配對」的

  • 白話: 「之前」和「之後」的數據必須能「一對一」兜起來。
  • 檢查: 這也是實驗設計的一部分。你不能拿「A 班的 30 人」和「B 班的 30 人」跑相依樣本 t 檢定。

假設三(最重要): 「差異分數 $D$」必須呈現「常態分佈」

  • 注意!注意!注意!
  • 這是一個天大的誤區
  • 相依樣本 t 檢定並不在乎「之前」的數據($X_1$)是否常態,也不在乎「之後」的數據($X_2$)是否常態。
  • 只在乎你算出來的那一欄「差異分數 $D$」是不是常態分佈!

如何檢查「差異 $D$」是否常態?

  1. 目測法: 畫「直方圖」(Histogram)或「Q-Q 圖」(Q-Q Plot),看看它長得像不像「鐘形」。
  2. 統計檢定:
    • Shapiro-Wilk 檢定(小樣本 < 50 人時,最推薦)。
    • Kolmogorov-Smirnov (K-S) 檢定(大樣本時)。
    • 這兩種檢定的 $H_0$ 是「數據常態」。所以你不希望它們顯著!(你希望 p > 0.05)

如果「差異 $D$」不常態,怎麼辦?

這時,你就不能使用「相依樣本 t 檢定」。你必須改用它的「無母數(Non-parametric)」版本。

  • 替代方案:Wilcoxon 符號等級檢定(Wilcoxon Signed-Rank Test)
  • 優點:完全不需要常態假設。
  • 原理: 它不是用「原始分數」去算,而是把「差異 $D$」拿去「排序」(Rank),然後看「正的排名總和」和「負的排名總和」是否差很多。
  • 缺點: 檢定力通常比 t 檢定稍弱一點(如果數據是常態,t 檢定更靈敏)。

一個重要的「但是」:t 檢定的「強健性」(Robustness)

  • 根據「中央極限定理」(Central Limit Theorem):
  • 如果你的樣本數 $n$ 夠大(例如 $n > 30$ 或 $n > 40$)...
  • ...那麼,就算你的「差異 $D$」長得不太常態(例如有點歪斜),你算出來的 t 檢定結果通常還是可信的
  • 結論:
    • $n < 30$:務必檢查常態性。不常態就用 Wilcoxon。
    • $n > 30$:可以稍微放寬心,t 檢定通常很「強健」。

報告結果時,光有 p 值是不夠的

你剛剛在 Part 4 學會了報告 $t(9) = 6.71, p < .001$。

但現代統計學認為,這還不夠。p 值只告訴你「有沒有效」(Yes/No),但它沒告訴你「效果有多強」。

在我們的「焦慮」例子中,p < .001 當然很好,但「平均降低 6 分」...

  • ...到底是很厲害,還是還好?
  • 如果總分是 1000 分,降低 6 分根本沒屁用。
  • 如果總分是 10 分,降低 6 分簡直是奇蹟。

(我們的例子是 100 分量表,降低 6 分,感覺還不錯!)

你需要提供兩個「p 值的好兄弟」:

1. 效果量(Effect Size):Cohen's $d_z$

  • 功能: 衡量這個「改變」的實際重要性強度
  • 公式: $d_z = \frac{|\bar{D}|}{s_D}$ (註:是 $s_D$,不是 $SE_D$
  • 我們例子:
    • $\bar{D} = 6.0$
    • $s_D = 2.828$
    • $d_z = \frac{6.0}{2.828} \approx \mathbf{2.12}$
  • 判斷標準(Cohen's rule of thumb):
    • $d \approx 0.2$:小效果
    • $d \approx 0.5$:中效果
    • $d \approx 0.8$:大效果
  • 結論: 我們的 $d_z = 2.12$!這是一個超級大的效果量!代表冥想課程的效果非常非常強烈

2. 信賴區間(Confidence Interval, CI)

  • 功能: p 值告訴你 $\mu_D$ 是不是 0。CI 告訴你 $\mu_D$ 最可能落在哪個範圍
  • 公式: $\bar{D} \pm (t_{\text{critical}} \times SE_D)$
  • 我們例子:
    • $\bar{D} = 6.0$
    • $SE_D = 0.894$
    • $t_{\text{critical}}$ for 95% CI, df=9 是 $2.262$
    • 下限: $6.0 - (2.262 \times 0.894) = 6.0 - 2.02 = 3.98$
    • 上限: $6.0 + (2.262 \times 0.894) = 6.0 + 2.02 = 8.02$
  • 結論:
    • 95% 信賴區間(CI)= [3.98, 8.02]
    • 白話: 雖然我們樣本的平均改變是 6 分,但我們可以 95% 肯定,真正的(總體的)平均改變量,是落在「降低 3.98 分」到「降低 8.02 分」之間。
    • 重點: 你發現了嗎?這個區間 [3.98, 8.02] 並不包含「0」!
    • 這就再次證明了我們的 $H_0$($\mu_D = 0$)是錯的。這就是 CI 和 p 值的完美連結!

一份「專業」的結論報告(最終版):

「相依樣本 t 檢定顯示,冥想課程顯著降低了員工的焦慮分數,$t(9) = 6.71, p < .001$。平均降低分數為 6.0 分(95% CI [3.98, 8.02]),且效果量非常大(Cohen's $d_z = 2.12$)。」

完美!這份報告無懈可擊!


Part 6:【軟體操作】不要再手算了!

你學會手算,是為了「理解」原理。
你在實戰中,是為了「效率」。

沒有人真的在論文中手算 t 檢定。你只需要把數據餵給軟體,3 秒鐘,所有答案(t, df, p, CI, d)全部給你。

情境一:如果你只有 Excel

Excel 也可以做!有兩種方法。

方法 A:T.TEST 函數

  • =T.TEST(array1, array2, tails, type)
  • array1:你「之前」的那一欄數據(例如 A2:A11
  • array2:你「之後」的那一欄數據(例如 B2:B11
  • tails:1(單尾)或 2(雙尾)。我們通常用 2
  • type1(相依樣本)、2(獨立樣本, 假設變異數相等)、3(獨立樣本, 假設變異數不相等)。

所以,你只要在隨便一個格子輸入:
=T.TEST(A2:A11, B2:B11, 2, 1)

  • 它會直接回傳 p 值(0.00013)。
  • 缺點: 它只給你 p 值,t 值和自由度要自己算。

方法 B:資料分析工具箱(推薦)

  1. 到「檔案」->「選項」->「增益集」->「分析工具箱」打勾。
  2. 到「資料」標籤頁,最右邊會出現「資料分析」。
  3. 點下去,選擇「t 檢定:成對二樣本平均數」(Paired Two Sample for Means)。
  4. 輸入「變數 1 範圍」(之前)、「變數 2 範圍」(之後)。
  5. 「假設平均數差異」輸入 0
  6. 「Alpha」輸入 0.05。
  7. 按「確定」。
  8. 它會吐出一個超級完整的報表,包含 t 值、P(T<=t) 雙尾(p 值)、t 臨界值(雙尾)...所有你需要的一切!

情境二:如果你用 SPSS

這是統計軟體的王者之一。

  1. 「分析」->「比較平均數法」->「成對樣本 T 檢定
  2. 它會跳出一個視窗,左邊是你的變數。
  3. 把「Before」和「After」兩個變數,「成對」選到右邊的「成對變數」框框裡(變數 1, 變數 2)。
  4. 按「確定」。
  5. 在「選項」裡可以順便要求 95% CI
  6. 在 SPSS 27+ 版本,可以順便要求「效果量」
  7. 它會吐出三張表,最後一張「成對樣本檢定」就是你要的,t、df、p (雙側) 一目了然。

情境三:如果你用 R(免費且強大)

R 是統計的未來。
假設你的數據在一個 data frame 叫 my_data,有 beforeafter 兩欄。

你只需要一行程式碼:

t.test(my_data$after, my_data$before, paired = TRUE)

注意:paired = TRUE 是關鍵!

它會回傳所有資訊:

    Paired t-test

data:  my_data$after and my_data$before
t = -6.71, df = 9, p-value = 0.00013
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -8.0218 -3.9782
sample estimates:
mean of the differences 
                     -6 
        

(*註:因為我是用 After - Before,所以 t 值和 CI 是負的,不影響結論*)


結論:你已經是「相依 t 檢定」專家了

讓我們回顧一下這趟超過 7000 字的旅程。

  1. 國小版: 我們用「長高藥水」理解到,相依 t 檢定是看「同一群人」的「改變」是真實還是運氣
  2. 核心概念: 它的強大之處在於「消除個體差異」,只看「自己跟自己比」。它比獨立 t 檢定更靈敏
  3. 適用時機: 「前測-後測」、「配對樣本」、「重複測量」是它的主場。
  4. 運作原理: 它透過計算「差異分數 $D$」,把「雙樣本問題」降維成「**單樣本 t 檢定**」(檢驗 $\mu_D$ 是否為 0)。
  5. t 值公式: 它的本質是 $t = \frac{\text{訊號 (平均差異)}}{\text{雜訊 (標準誤)}}$。
  6. 實戰演練: 我們手算了「焦慮冥想」的例子,算出 $t(9) = 6.71$,p < .001,得到「顯著有效」的結論。
  7. 進階細節: 我們學會了檢查最重要的「差異 $D$ 呈常態」假設,以及如果不常態,就改用「Wilcoxon」檢定。
  8. 完整報告: 我們學會了 p 值是不夠的,必須加報「效果量 $d_z$」(看效果多強)和「**信賴區間 CI**」(看真實範圍)。
  9. 軟體操作: 我們學會了如何在 Excel, SPSS, R 裡面一鍵搞定。

你可能花了 30 分鐘甚至 1 小時才讀完這篇。但相信我,你對這個檢定的理解,已經超越了許多研究生。

統計不是背公式,它是「思考的邏輯」。

相依樣本 t 檢定,就是一種「在雜訊中找出真實改變」的優美邏輯。

希望這篇文章對你有幫助!

免責聲明:本文所提供的資訊僅供參考,不構成任何專業建議。讀者應自行判斷資訊的準確性與適用性,並對自己的行為負責。

文章標籤
全站熱搜
創作者介紹
創作者 小黃老師 的頭像
小黃老師

小黃老師嘿技術

小黃老師 發表在 痞客邦 留言(0) 人氣(62)