Idea Transcript
Logistic
xd歸模生 — —方法及應用 Logistic Egression ^Models ; MetHocfs and JippRcation
王濟川、郭志剛著
國 臺北市立
rffi書館藏書 K1 1琴藿龙分館
[:
五南圖書出版G司印行
前
言
在過去的20年中,由於計算機技術和統計軟體的迅速發展,量化分析已經成為社會
科學各個學科領域中廣為應用的技術方法。在社會科學諸如社會學、心理學、人□學、
政治學、經濟學以及公共衛生學當中,logistic迴歸模型是對二元因變數(dichotomous dependent variable)(即y = 1或y=0)進行迴歸分析時最為普遍應用的多元量化分析方
法。根據Hosmer及其同事的統計(1991 ),在1985〜1989年間,國際知名刊物《美國 公共衛生雜誌》上發表的文章中約有20% (579篇文章中的113篇)應用了 logistic迴歸
模型。雖然logistic迴歸已經達到3如此流行的程度,但不少使用這一模型的人對於該模 型的性質和原理仍無法充分理解,在實際應用中常有困惑的問題,對於模型結果的闡述也
不一致。並且|在很多應用該方法的研究中連模型擬合優度(goodness of fit)的評估也被 忽略3。比如,在上述所統計的113篇文章中,只有5% (6篇文章)涉及到模型擬合優
度的評估①。 在現有的統計教科書中,一般都有logistic迴歸模型的內容。然而,在這些教科書中,
logistic迴歸往往不是作為中心内容,也缺乏關於這種方法的詳盡討論。有關專著在國外 很少,國內尚無。國外的一些專著中對於logistic迴歸模型的實際應用,特別是結合統計
軟體執行模型並對模型結果進行解釋方面較為欠缺。本書的主要目的是提供對於logistic
迴歸模型的深入專題介紹,專注於這一方法本身的討論,以及模型結果的詳細闡述。作者 儘量以深入淺出的手法,旁徵博引,理論聯繫實際,大量運用例題並結合計算機統計軟體 的使用,介紹和討論診模型的原理及運用。讀者在學習本書內容之前應對多元迴歸和統計
推斷的基礎知識有所瞭解。 本書將採用國際上廣泛使用的統計軟體SAS (Statistics Analysis System)和SPSS
(Statistics Package for Social Sciences)來分析書中的例題。本書將提供用這兩種軟體進 ① Hosmer. Taber, and Lemeshow. 1991.
2 □前言
行具體例題分析的計算機程序’並對於這兩種軟體的模型估計結果進行詳細的解釋和對比 分析。本書中例題的主要資料是由作者模擬設計的’其原始資料可從下列網址下載:
http:// www.hep.com.cn;http:"www.wright.edu/~jichuan.wang http: //www.disa.pku.edu.cn / 課程
本書共由8章組成。
在第1章中,我們將首先討論分析二元因變數時所產生的問題,並討論經典的線性機
率模型(linear probability model, LPM)及其侷限性。然後介紹logistic迴歸模型。 在第2章中,我們將介紹logistic迴歸模型估計所用的最大概似估計法(maximum
likelihood estimation, MLE)、模型估計的假設條件,以及最大概似估計的性質。此外1 還將介紹對分組資料進行logit分析的加權最小平方法(weighted least squares, WLS) °
第3章介紹logistic迴歸模型的評估,討論各種擬合優度(goodness of fit),預測準 確性(predictive accuracy)和模型卡方統計(model chi-square statistic)。
第4章關注於logistic模型迴歸係數意義的闡釋。除了討論發生比率(odds ratio)、 預測機率(predicted probability)和互動影響(interactions)外,這一章還要討論使用各
種不同編碼時分類自變數迴歸係數的意義和解釋。
第5章討論logistic迴歸係數的統計推斷(statistical inference)。 第6章的內容涉及模型的選擇,討論建立模型過程中的策略。 第7章關於模型的診斷,討論多元共線性(multicollinearity)、有問題的資料架構 (problematic data configuration)、極端值(outliers)、特異影響案例(influential obser
vations) 和過離散分佈(overdispersion)等問題,以及這些問題的補救對策。 在最後一章中,我們將介紹與logistic迴歸類似的另外一種分析二元因變數的備選模
型— —probit模型。然後,將logistic迴歸模型擴展到次序logistic迴歸模型(ordered logistic regression model)和多項式 logit 模型(multinomial logit model),這些模型分別
用以解決次序變數和多分類名義變數為因變數的問題。
二元因變數與logistic迴歸模型
1
1.1引言/2
1.2
線性機率模型(Linear Probability Model, LPM) / 3
1.3
Logistic 迴歸模型/^ 7
Logistic迴歸模型估計----------------------------- 15 2.1
最大概似{拓十(Maximum Likelihood Estimation, MLE ) / 16
2.2
Logistic迴歸模型估計的假設條件/ 20
2.3
最大概似估計的性質/ 21
2.4模型估計的樣本規模/ 21 2.5
擬合logistic迴歸的示範模型/ 23
2.6
用分組資料作logistic迴歸分析/ 40
Logistic迴歸模型評價---------------------------- 61 3.1 擬合優度(Goodness of fit)/ 68 3.1.1
皮爾遜 %2 (Pearson/2) / 68
3.1.2
離差(Deviance) / 73
3.1.3
Hosmer-Lemeshow 擬合優度指標/ 77
3.1.4 訊息測量指標(Information Measures )/80
2 □目錄
3.2
Logistic迴歸模型的預測準確性Z 86
3.2.1
類 7?2指標(Analogous7?2) / 86
3.2.2預測機率與測量值之間的關聯/ 90 3.2.3
3.3
4
分類表(Classification Table) / 96
模型 %2統計(Model Chi-Square Statistic) / 106
Logistic迴歸係數解釋-----------------------4.1
109
發生比和發生比率(Odds and Odds Ratio)/ 111
4.2按發生比率來解釋logistic迴歸係數/ 114
4.2.1連續自變數的發生比率/ 115
4.2.2二元自變數的發生比率 / 119 4.2.3分類自變數的發生比率 / 121 4.3用機率來解釋自變數的作用/ 133
0時,
乃=1,
在其他情況下,
乃=0。
這裡,乃是實際觀察到的反應變數"y,=l表示事件發生’ .v,=o表
示事件未發生。如果假設在反應變數W和自變數々之間存在一種線 性關係,即
y* =a+ pXi + 8i
1.3.1
由公式1.3.1,我們得到 P( >>, = 1 |x, ) = P [ (a+y5x, + e,)>0]
1.3.2
= P[e,>(-a-y9x,)]
通常,假設公式1.3.1中誤差項*有logistic分佈或標準常態分佈。 為了取得一個累積分佈函數(cumulative distribution function, CDF) ’ 一 個變數的機率需要小於一個特定值 。所以,我們必須改變公式1.3.2中 不等號的方向 。由於logistic分佈和常態分佈都是對稱的 ’因此公式
1.3.2可以改寫為: P{yt = 1 |x,■)=/*[£,+ = (a+y?x,)]
1.3.3
= F{a+pxi) 其中F為e,•的累積分佈函數。分佈函數的形式決定於公式1.3.1中心的
假設分佈。如果假設&為logistic分佈,就得到logistic迴歸模型;如果 假設&•為標準常態分佈,就得到probit模型(Long,1997)"因為< 不
能直接觀察,其量度既不能由logistic迴歸模型來決定,也不能由probit
二元因變數與logistic迴歸模型□ 9
模型來決定。在probit模型中,誤差項&的變異數為1。而在logistic迴 歸模型中,誤差項&的變異數為;r2/3«3.29。在本書中,我們將主要
介紹logistic迴歸模型,然後在第7章對probit模型作一簡要介紹。標 準logistic分佈的平均值等於0,變異數等於;?/3«3.29。選擇這樣一個
變異數是因為它可以使累積分佈函數取得一個較簡單的公式:
(a+Pxi)}
1.3.4
1
這一函數稱為Logistic函數,它具有S型的分佈,圖1.2中給出它 的圖形。
如果我們將&在負無窮至正無窮區間變化時的函數值標示出來, 就得到了圖1.2中的圖形。注意在這一圖形的左側 ,當•趨近於負無 窮時,logistic函數有 Ay,=l|x,)=l/(l+e-(-°o))
= l/(l+ex)
=0
圖1. 2
logistic函數的曲線圖
10 D Logistic迴歸模型----方法及應用
當心趨近於正無窮時,logistic函數有 尸Cv,= l|x,)=l/(l+e-(co)) = l/(l+e 一 °°)
=1
正如圖形所示,無論&為任何值,logistic函數P(y:=lk,)=l/(l+e_e‘) 的值域範圍均在0至1之間。logistic函數的這一性質保證了由 logistic 模型估計的機率決不會大於 1或小於0。logistic函數的另一個性質也
是很有用的,即這個函數的形狀對於研究機率也很合適。如圖1.2所
示,如果我們從-〜開始向右移動,當&增加時,這一函數的值 先是很緩慢地增加,然後轉向迅速増加,之後增加的速度又開始逐漸 減緩,最後當~趨近於時,函數值趨近於1。logistic函數的S型曲 線顯示,&的作用對於某個案例發生某一事件的機率是變化的,在&
值很小時其作用也很小,然而在中間階段對應的機率增加很快,但是 在&值增加到一定程度以後,機率就保持在幾乎不變的水準了 。這 說明,&在P(y/=lk)接近於0或1時的作用要小於當P(y/=lk)處於中
間階段時的作用。這種非線性函數的形式有助於解決線性機率模型所
不能解決的問題。比如,就前面例題中提到的家庭購買 VCD的機率 問題而言,並不是家庭收人每增加一定量,購買VCD的機率就固定 増加一定值。實際情況是,家庭收人在某一段水準內變化時對購買機
率的變化影響較大,而較低或較高收人對購買機率的變化影響都不
大。因為前者多買不起,後者則差不多都有了。 現在讓我們從logistic函數轉向logistic迴歸模型,它才是我們真正 的興趣所在。為了根據logistic函數取得logistic迴歸模型,我們將公式
1.3.4重寫為:
n'M’r/二元因變數與logistic迴歸模型□ 11
尸(乃=
13-5
其實,這就是當&為(《+脚,)時的累積分佈函數 。在這裡,&被 定義為一系列影響事件發生機率因子的線性函數,即
ei = a-irpXi
1.3.6
其中々為自變數,^1和卩分別為迴歸截距和迴歸係數 。為了簡化,這
裡以一元迴歸為例。然而,同樣的原則也適用於多元迴歸 。 將事件發生的條件機率標記原則定為汽乃=1|々)=於,我們就能得
到下列logistic迴歸模型 1
P「l+e_(a+^Q) 夕a+知 =I^
i3J
其中,A為第i個案例發生事件的機率 ,它是一個由變數x,•構成 的非線性函數(non-linear function)。然而這個非線性函數可以被轉換
為線性函數(linear fiinction )。 首先,定義不發生事件的條件機率為
1-凡:
=1+:雌 那麼,事件發生機率與事件不發生機率之比為
13-8
O Logistic迴歸模型--- 方法及應用
-^- = e(«+A.)
1.3.9
1-A
這個比被稱之為事件的發生比(the odds of experiencing an event),
簡稱為odds。我們將在第4章討論odds及其有關概念。odds 一定為正 值’因為0
Odds
DF
Estimate
Error
INTERCPT
1
-1.7575
0.1587
122.7106
0.0001
GENDER
1
0.8661
0.1821
22.6201
0.0001
0.237677 2.378
KEYSCH
1
0.9130
0.2411
14.3335
0.0002
0.170465 2.492
MEANGR
1
0.4245
0.0305
193.8485
0.0001
1.006257
Variable
Chi-Square Chi-Square Estimate
Ratio
1.529
Association of Predicted Probabilities and Observed Responses Concordant
=86.8%
Somers’D
= 0.737
Discordant
=13.0%
Gamma
= 0.739
Tied
=0.2%
Tau-a
=0.329
(222775 pairs)
c
=0.869
在內定條件中,輸出中「Model Fitting Information and Testing Global
Null Hypothesis: BETA=0 j 欄目提供四項指標:AIC、SC、-2LogL、和 Score。前兩項是關於模型擬合程度的指標,後兩項是零假設檢驗情況
的指標(零假設即所有迴歸係數均為0的假設)。輸出在「Analysis of
Maximum Likelihood Estimates」欄目下提供各參數的估計值及其標準誤 差、標準化參數估計值、顯著性檢驗情況以及相對的發生比率(odds ratio )。在「Association of Predicted Probabilities and Observed Responses」 欄目中列出了若干關於logistic迴歸模型的評估指標。表2.5.2中的模
型擬合及評估各項指標的意義將在第3、4、5章中分別加以說明。 在SPSS中,logistic迴歸分析可以用LOGISTIC REGRESSION指令 或LOGIT LOGLINEAR ANALYSIS指令來完成。這兩個指令的前者執 行的分析過程與SAS的PROC LOGISTIC程序過程十分類似:而後者
32 D Logistic迴歸模型--- 方法及應用
所提供的結果可以像對數線性模型(LoglinearModel)那樣來解釋。在 本書,我們採用SPSS的LOGISTIC REGRESSION程序來做與SAS的
PROC LOGISTIC程序同樣的工作。 PC版的SPSS 5.0及後來的新版本均為視窗版 。也就是說,絕大部 分操作工作可以使用滑鼠游標點擊完成。在視窗版SPSS環境下統計
分析的基本步驟為:第一,選擇資料文件’可以選用已有的SPSS系
統文件,或輸人其他類型的資料文件,如資料庫’資料表或ASCII格 式的文件。第二,從選單上選擇要用的統計程序,然後在對話視窗中
選擇要分析的變數或其他統計設定(SPSS,Inc.,1997a)' 下面是在SPSS視窗中將一個ASCII類型資料選到SPSS工作資料
視窗的步驟=
⑴啟動SPSS,於是自動出現一個空的SPSS資料編輯視窗。 ⑵點擊主選單中的File指令。 ⑶點擊File選單中的Read ASCII Data (新版改為Read Text Data)。
⑷點撃對話視窗中的BROWSE以選擇資料文件D: \ LOGIT \ COLLEGE.DAT o ⑸定義資料格式 :比如自由格式選擇Freefield :或定義每個變數
在資料中的具體位置 ,如第5列到第8列為變數GRADE。
⑹定義變數:比如四個變數(即GENDER、KEYSCH、GRADE、
COLLEGE)。 ⑺點擊OK鈕或按ENTER鍵,可執行所選擇或設定的指令,於是
取得的資料便顯示在 SPSS資料視窗中。
⑻點撃主選單中的Transform >再繼續點擊子選單中的Compute, 以建立新變數MEANGR。
⑼新變數產生之後,點擊主選單中的File,然後再選擇Save,便 可以將資料視窗中的資料存成SPSS系統文件D: \ LOGIT \ COL-
Logistic迴歸模型估計□ 33
LEGE.SAV。亦可選擇Save As將資料視窗中的資料另存為別的 文件名。SPSS for Windows的資料文件的擴展(extension)名為 SAV (SPSS for Windows之前的資料文件的擴展名為SYS)。
在讀人SPSS資料之後,便可以執行logistic迴歸分析了。這時的 操作步驟為:
⑴選擇logistic迴歸程序:
① 點擊主選單中的Statistics (新版本改為Analyze) ② 然後點擊Statistic選單中的Regression ③ 再點擊Logistic...(新版本改為Binary Logistic),螢幕上便出 現Logistic迴歸對話視窗
⑵設定模型: ① 選擇COLLEGE作為二元因變數 (Dependent Variable) ② 選擇GENDER、KEYSCH、MEANGR作為共變數(Covariates)
(3)點撃OK鈕或按ENTER鍵,執行所選指令 在視窗版SPSS中,上述操作雖然十分簡單,但在本書中我們則
採用執行SPSS程序指令形式來完成模型估計。首先,這樣做有利於 比較SPSS和SAS的程序指令。其次,這些程序指令可以專門存為一 個指令文件,以後再執行該程序或修改原程序較為方便。
視窗版的SPSS能夠讓我們將在對話視窗所做的選擇和設定方便 地透過點擊「PASTE」鈕而貼到指令編輯視窗(Syntax Window)。在 這個視窗中,前面所做的模型設定都完全以指令程序的格式出現 。並 可以將它存為一個 SPSS程序文件,以供將來需要時使用。SPSS程序
文件的擴展名為SPS。 轉人指令視窗(Syntax Window)後,我們就可以看到對例題資料
執行logistic迴歸分析的指令已經存在於這個視窗中了,它處於前面所 選擇的資料處理程序之後。透過在主選單上點擊FILE,再點撃Save
34 D Logistic迴歸模型--- 方法及應用____________________________________________
As -再指定文件位置和文件名’比如D: \ LOGIT\LOGIT.SPS ’便可以
將這些程序指令存成專門的指令文件°將這個程序文件存入磁碟以 後,將來就可以隨時叫用這個文件’並且可以在指令視窗修改和執行 文中的指令。
此外,所有SPSS實際完成的操作所對應的指令還自動存人特定子
目錄下的名為SPSS.JNL的臨時文件(如果視窗系統是安裝於計算機的
C碟上,那麼這一文件的內定位置是C: \ WINDOWS\TEMP子目錄)。 注意,每次我們退出SPSS系統時,新執行的程序指令便會自動替代這 一文件的原有內容或附接在原有内容之後 ,成為供查詢的工作檔案。
下列的SPSS程序指令中既包括在Read ASCII Data視窗選擇的對應
指令,也包括在Logistic Regression對話視窗選擇的對應指令。這些程
序指令在我們實際執行之後還會自動存人C: \ WINDOWS \ TEMP \ SPSS.JNL 文件。 ★SPSS PROGRAM EXAMPLE 1: LOGISTIC REGRESSION MODEL. SET UNDEFINED = WARN. DATA LIST FILE =' D:\LOGIT\COLLEGE. DAT
/GENDER 1 KEYSCH 3 GRADE 5-8 COLLEGE 10. COMPUTE MEANGR = GRADE-83.7.
EXECUTE. SAVE OUTFILE = ' D:\LOGIT\COLLEGE. SAV'
/COMPRESSED.
LOGISTIC REGRESSION VAR = COLLEGE /METHOD = ENTER GENDER KEYSCH MEANGR
/CRITERIA PIN(.O5) POUT(.IO) ITERATE(20) CUT (.5).
Chapta2
Logistic迴歸模型估計□ 35
在這個程序中,第2〜3行是將ASCII格式文件COLLEGE.DAT中
的資料讀人SPSS系統的指令。注意,在SPSS程序指令中,是以英文
句號(而不是像SAS那樣以分號)來結束每一指令的。如果一行指令 之後接斜線符號「/」所引的子指令時,便不需要句號,但這一指令 的全部終了之處仍須用句號表示結束 。以上SPSS程序中的第2行和
第3行實際上是執行同一指令。而第1行的SET指令行是要求SPSS在 讀人數字型變數時遇到任何非數字或非空格的情況都顯示警告訊息。
關於變數的定義是在DATA指令中的斜線符號「/」之後。按照內 定方式(即沒有特別設定的條件下所執行的設定),資料輸人時按固
定格式(FIXED)處理。所有變數都以內定方式定義為數字型變數 ,並
設定這四個變數分別在文件的第1、3、5〜8、10列中。當選用「自由格
式」讀取資料時,在DATA指令行中,需使用FREE LIST子指令。 當原始資料輸人SPSS後,SPSS系統又按照指令將其存成名為COL-
LEGE.SAV的系統文件,並存於子目錄D: \ LOGIT \中。 在LOGISTIC REGRESSION程序指令中,子指令VAR是變數VARI
ABLES 的縮寫,它設定了因變數為COLLEGE。還可以以另一種方式
定義變數,即在因變數名之後加指令 WITH,再加人所有自變數名。 下列指令將與前面的變數定義完全等效 :
LOGISTIC REGRESSION VAR = COLLEGE WITH GENDER KEYSCH MEANGR /METHOD = ENTER GENDER KEYSCH MEANGR /CRITERIA PIN (.05) POUT (.10) ITERATE (20) CUT (.5).
子指令METHOD用來設定自變數如何載人模型。在上述示範程序
中的設定方法即為內定方式ENTER,這種方式是將所選自變數一次全
部納人模型。子指令CRITERIA控制執行迴歸分析時的統計標準 。前
36 D Logistic迴歸模型--- 方法及應用
兩個標準為自動篩選顯著自變數的内定方式。標準PIN設定自變數自
動進人模型時的F值對應的機率值為0.05 '標準POUT設定自變數自 動被排除出模型時的F值對應的機率值為0.10。因為我們設定的自變
數納人方式為強制納人’不是逐步納人或排除方法 ’因此實際上這兩 個標準在此不起作用。
子指令ITERATE設定在最大概似估計時最多疊代20次。子指令
CUT設定了計算案例分類表時的機率界限值為0.5。這一子指令只存 在於SPSS 7.5或更高版本中,它在檢查logistic迴歸模型的預測準確性 時是十分有用的(我們將在第3章討論這個問題)。以上SPSS程序
中CRITERIA子指令中的統計指標皆為内定值 。如果我們認同這些内 定值,我們在編程時則不需要這一子指令 。
要是我們在子目錄D: \ LOGIT處已有SPSS系統資料文件COLLEGE.
SAV的話,我們便可以透過下列步驟來直接使用這一文件的資料: (1)啟動 SPSS ⑵選擇資料文件
① 點擊主選單中的File ② 點擊File選單中的Open ③ 點擊Open子選單中的DATA ④ 在OpenDataFile視窗中選擇文件位置及文件名 D: \ LOGIT \ COLLEGE.SAV
⑤ 按下該視窗的OK鈕或按ENTER鍵 ⑶選擇logistic迴歸程序 ① 點擊主選單中的Statistics (或Analyze) ② 然後點擊Statistic選單中的Regression
③ 再動擊 Logistic...(或 Binary Logistic ),螢幕上便出現 Logistic
Regression對話視窗
Logistic迴歸模型估計□ 37
⑷設定模型 ① 選擇COLLEGE作為二元因變數 (Dependent Variable) ② 選擇GENDER、KE.YSCH、MEANGR作為共變數(Covariates) ⑸點撃OK鈕或按ENTER鍵,執行所選指令
相對的SPSS指令為:
*SPSS PROGRAM EXAMPLE 2: LOGISTIC REGRESSION MODEL. GET
FILE = ’ D:\ LOGIT \ COLLEGE. SAV’.
EXECUTE.
LOGISTIC REGRESSION VAR = COLLEGE /METHOD = ENTER GENDER KEYSCH MEANGR
/CRITERIA PIN (.05) POUT (.10) ITERATE (20) CUT (.5).
這一程序從子目錄D: \ LOGIT讀人SPSS系統文件COLLEGE.SAV 的資料,其中包括變數 GENDER、KEYSCH、MEANGR、COLLEGE :
然後執行與前面同樣的logistic迴歸模型。 執行的輸出結果在表2.5.3中,它們與SAS的PROC LOGISTIC程序
得到的結果相同。
38 □ Logistic迴歸模型— —方法及應用
表2 5. 3
SPSS的LOGISTIC REGRESSION程序的輸出結果
Total number of cases;
1000 (Unweighted)
Number of selected cases:
1000
Number of unselected cases;
0
Number of selected cases;
1000
Number rejected because of missing data:
0
Nuber of cases included in the analysis:
1000
Dependent Variable Encoding:
Original
Internal
Value
Value
.00
0
1.00
1
Dependent Variable.. COLLEGE
Beginning Block Number 0. Initial Log Likelihood Function —2 Log Likelihood 1275. 3263
^Constant is included in the model. Beginning Block Number 1. Method: Enter
Variable (s) 1.
Entered on Step Number
GENDER KEYSCH MEANGR
Logistic迴歸模型估計□ 39
SPSS的LOGISTIC REGRESSION程序的輸出結果(續)
表2 5. 3
Estimation terminated at iteration number 5 because parameter estimates changed by
less than. 001 839.965
-2 Log Likelihood
Goodness of Fit
1417.363
Gox& Snell-RA2
.353
Nagelkerke—RA2
.490
Chi-Square
d. f.
Significance
Model
435.361
3
.000
Block
435.361
3
.000
Step
435.361
3
.000
Classification Table for COLLEGE The Cut Value is. .50 Predicted
Observed
•00
1.00
0
1
.00
0
589
1.00
1
i 117
i
Percent Correct
76 ;
88.57%
218 i
65.07%
Variables in the Equation
Variable
B
S.E.
Wald
GENDER
.8661
.1821
KEYSCH
.9130
MEANGR Constant
d. f.
Sig
R
Exp(B)
22.6201
1
•0000
• 1271
2.3776
.2411
14.3335
1
.0002
•0983
2.4971
.4245
.0305
193.8484
1
.0000
.3879
1.5289
-1.7575
.1587
122.7106
1
•0000
註:spss輸出中的分塊(Block)和逐步(Step)回歸的卡方統計將在第6章中討論'
40 □ Logistic迴歸模型— —方法及應用
2.E用只組資料作logistic迴歸B斫 建立統計模型通常所涉及的是個案資料。然而’看看如何從分組
資料來進行logistic迴歸分析也是十分有益的"在本節中 ’我們討論以分
組資料(groupeddata)或交互表(contingencytable)來進行logistic迴歸分析。 為了示範目的,我們從現有的大學升學資料中將所有案例按性
別、學校類型、學習成績進行分組匯總。學習成績分為三個檔次’即
GRADE值小於80的為一檔次,GRADE值在80至85以下的為一檔次 ,
GRADE值大於等於85的為一檔次。於是,匯總成交互組以後形成了 匯總水準的12個觀測案例(參見表2.6.1)。
表2. 6.1大學升學的分組資料 GENDER 0
KEYSCH 0
GRADE2 1
nj
fj
123
0.0244
0
0
2
181
0.1160
0
0
3
102
0.4216
0
1
1
12
0.0833
0
1
2
20
0.1500
0
1
3
12
0.4167
1
0
1
36
0.0278
1
0
2
197
0.1980
1
0
3
229
0.7205
1
1
1
12
0.0833
1
1
2
35
0.5143
1
1
3
41
0.8537
註:GENDER: 1-男生;0-女生 KEYSCH: 1一重點高中;0-非重點高中 GRADE2: 1- (Grade Critetion
DF
Value
Value/DF
Chi-Square
Deviance
408
378.0
0.9266
0.8537
Pearson
408
632.6
1.5506
0.0001
Number of unique profiles: 412 SPSS輸出: -2 Log Likelihood
839.965
Goodness of Fit
1417.363
在SPSS輸出中(表3.1.4的下半部),擬合優度r Goodness of Fit j 即Z2統計量,而「-2 Log Likelihood j可以理解為是在案例基礎上的
「離差」,它與SAS在共變類型基礎上計算的 D統計量不同,兩者都
顯示擬合不好,顯然,這是一種誤導 。 表3.1.4的意義在於說明,模型中如有連續變數作為預測變數時, 應該採用一種特殊的擬合優度指標 。這將是第3.1.3節討論的題目 。
簡而言之,SAS的PROC LOGISTIC程序所提供的離差指標和皮爾
Logistic迴歸模型評價□
77
遜Z2統計量是擬合優度估計的重要指標。然而,當模型中有連續自變
數時或共變類型的數目太多時 ,它們又不能適當地用於同一目的。但
是,不管共變類型的數量如何,離差指標在比較巢狀模型(nested
models)(即一個模型在原有模型變數的基礎上再加人與減少某些變 數)時仍是重要的指標 。兩個有巢狀關係的模型之間的差別可以用來
判斷特定變數的重要性 ,但皮爾遜/卻不能應用於這一目的。這個問
題將在第5章中討論。
3.1.3
Hosmer-Lemeshow 擬合優度指標
當自變數數量增加時,尤其是連續自變數納人模型之後 ,共變類 型的數量便會很大,於是許多共變類型只有很少的觀測案例。結果,
指標D和皮爾遜/不再適用於評估擬合優度。Hosmer和Lemeshow
(1989)研發了一種對logistic迴歸模型擬合優度的檢驗方法 。這種檢 驗根據預測機率值將資料分成大致相同規模的 10個組,而不管模型
中有多少共變類型。將觀測資料按其預測機率做升序排列。第一組包
括估計機率最小的那些觀測案例,而最後一組包括估計機率最大的那
些觀測案例。在實際應用中,因為很多觀測案例有同樣的預測機率, 而具有相同預測機率的所有觀測案例都要放在同一組中 ,所以通常組
的規模不可能完全相同。 Hosmer-Lemeshow指標(記為HL)是一種類似於皮爾遜f統計量
的指標。它可以從觀測頻數和預測頻數構成的 2xG交互表中求得。其 統計公式如下 :
3.1.5
78
□ Logistic迴歸模型— —方法及應用
其中G代表分組數,且GS10 ;七為第g組中的案例數 :&為第g組事
件的觀測數量;么為第g組的預測事件機率;么為事件的預測數, 實際上它等於第g組的預測機率之和(參見公式2.1.6)。
透過皮爾,遜Z2來概括這些分組中事件結果的觀測數和預測數 ,然 而將其與自由度為G-2的z2分佈進行比較。Z2檢驗不顯著表示模型擬
合資料。相反,/2值統計顯著表示擬合不好。SAS的PROC LOGISTIC
程序在其輸出的最下方提供HL指標。在應用包括連續自變數的logistic 迴歸模型時,HL是被廣為接受的擬合優度指標。
SAS 6.10和SPSS for Windows 7.0及以後版本的logistic迴歸模型程
序提供了 HL指標。在SAS的PROC LOGISTIC程序中,備選(option)
指令LACKFIT調用HosmerLemeshow擬合優度檢驗,而SPSS中則需要 調用備選指令「Goodfit」。SAS的程序指令如下:
PROC LOGISTIC DESCENDING : MODEL COLLEGE = GENDER KEYSCH MEANGR
/ LACKFIT SCALE = NONE AGGREGATE : RUN :
SPSS 中相對於 LOGISTIC REGRESSION 的指令是 GOOD-FIT,其 格式如下所示 :
LOGI STIC REGRESSION VAR = COLLEGE / METHOD = ENTER GENDER KEYSCH MEANGR / PRINT = GOODFIT.
W’Ar: Logistic迴歸模型評價□
79
表3.1.5顯示,示範模型的觀測案例被分為十組 ,每組大約100案
例。HL指標值為7.21,其自由度等於8。將這一指標與%2分佈相比 較,得到的機率值為p = 0.5142,說明統計不顯著。因此,我們不能
拒絕關於模型擬合資料很好的假設。換句話說,模型很好地擬合了資 料。SAS和SPSS所計算的HL指標有微小差別,但是兩者都表示這
個模型很好地擬合了資料。
表3. 1. 5
Hosmer-Lemeshow擬合優度指標
SAS輸出
Hosmer and Lemeshow Goodness-of-Fit Test
COLLEGE = 1
COLLEGE = 0 Obesrved
Expected
1.05
99
98.95
3
3.58
97
96.42
102
8
7.34
94
94.66
4
101
16
12.31
85
88.69
5
100
22
20.45
78
79.55
6
100
27
30.63
73
69.37
7
101
40
43.43
61
57.57
8
102
52
57.38
50
44.62
9
100
82
74.02
18
25.98
10
94
84
84.82
10
9.18
Group
Total
Observed
1
100
1
2
100
3
Expected
Goodness-of-fit Statistic = 7.21 with 8DF (p = 0.5142)
SPSS輸出 Hosmer and Lemeshow Goodness-of-Fit Test COLLEGE = .00
Group
Observed
Expected
1
99.000
98.948
COLLEGE =1.00 Observed
1.000
Expected
Total
1.052
100.000
80
D Logistic迴歸模型— —方法及應用 表3. 1. 5
Hosmer-Lemeshow擬合優度指標(續)
2
97.000
96.424
3.000
3.576
100.000
3
94.000
94.660
8.000
7.340
102.000
4
85.000
88.687
16.000
12.313
101.000
5
78.000
79.555
22.000
20.445
100.000
6
73.000
69.368
27.000
30.632
101.000
7
61.000
57.568
40.000
43.432
99.000
8
49.000
43.557
50.000
55.443
100.000
9
19.000
26.535
81.000
73.465
97.000
10
10.000
87.000
87.302
Goodness-fit test
9.698
Chi-Square
d. f.
6.8034
8
Significance
•5580
HL指標也存在一些缺點。首先,它是一種保守的檢驗,它在揭 示擬合不好的具體類型方面(比如,解釋變數中的非線性問題)的功 效很低。其次,這一指標高度依賴於觀測資料是如何分組的 。第三,
如果根據預測機率只能將觀察案例分成很少幾個分組(比如5個或更
少的分組)來計算這一指標,這一指標的計算值會總是顯示模型很好 擬合資料(SAS Institute Inc., 1995)。儘管如此,HL指標仍然是估計 logistic迴歸模型的擬合優度方面最為廣泛應用的指標。
3. 1. 4
訊息測量指標(Information Measures)
另一種估計logistic迴歸模型的擬合優度的指標是訊息測量類的指 標。這些指標也可以用來比較不同模型的優劣 。其中一種著名的訊息 測量指標是 Akaike 訊息標準(Akaike’s information criterion, AIC )。
(Akaike, 1973)它的定義為:
Logistic迴歸模型評價□ AIC = (_2江:2 ⑽'幻)
81
3.1.6
其中K為模型中自變數的數目;8為反應變數類別總數減1 (對於log
istic迴歸有S = 2-l = l) : »是觀測數量;71,是所設模型的估計最大概 似值的自然對數,其值較大表示擬合較好。的值域為0至+〜,
其值越小說明擬合越好。
當模型中的參數數量越大時,概似值也就越大,-271,值就變得
很小。因此,將2 (K + S)加到AIC公式的分子中抵銷參數數量產生 的影響。此外,由於我們知道觀測數也會影響概似值 ,所以公式3.1.6 中利用除以《來取得每一觀測對於調整的-2ZI的貢獻。在其他條件 不變的情況下,較小的AIC值表示擬合模型較好。AIC指標還常常應 用於比較不同樣本的模型 ,或應用於比較非巢狀關係的模型,而這些
模型的比較不能採用概似比(L.R.)檢驗。請讀者注意,SAS的PROC LOGISTIC程序所提供的AIC指標不同於公式3.1.6的定義。在SAS的 PROC LOGISTIC程序中,AIC指標所用的定義如下:
AIC = -2Z£J + 2 (K+S)
3.1.7
其中,調整的-272、沒有被觀測數所除。換句話說,它不能視為每一 觀測對調整的-271,所做的貢獻。因此,這種定義只能用於比較對同 一資料的不同模型 (SAS Institute Inc., 1990 )。
在SAS的PROC LOGISTIC程序中,還提供另一種訊息指標 SC。
它與 AIC —起在 SAS 列印輸出中的「The Testing Global Null Hypothesis: BETA = 0j欄內提供。SC指標是對AIC指標的一種修正,代表Schwarts
標準(Schwarts criterion)的意思(SAS Institute Inc., 1990) 0 這—'指標 根據自變數數目和觀測數量對-2Z厶值進行另外一種調整。SC指標的
82 D Logistic迴歸模型— —方法及應用
定義為: SC = -2LLs+ (AT+5) xin («)
3.1.8
其中In («)是觀測數量的自然對數。儘管在公式3.1.8中加人In («) 項,在某種程度上已對觀測數量變化的影響進行了調整,SC仍然不 是每個觀測對調整的-2/2,所做貢獻的測量。所以,這一指標也只能
用於比較對同一資料所設的不同模型(SASInstituteInc.,1990)。 在其他條件相同時,一個模型的AIC或SC值越小說明模型擬合 越好。在應用這些指標比較模型時 ,包括非巢狀關係的模型,我們可
以將不同模型按其AIC或SC指標值排序,選擇AIC或SC指標值最小 者。
還有一種使用得越來越多的訊息指標,就是貝葉斯訊息標準 (Bayesian information criterion, BIC ) (Raftery, 1996)。BIC有兩種不同的 類型。在假設所設模型是與飽和模型相比較時 ,第一種BIC指標定義
BIC = -2£2,-d. f.sxin («)
3.1.9
其中,-2;!,是-2乘以所設模型的對數概似值;d.f.s為模型的自由度,
它等於樣本規模與模型估計係數數目之差(即d.f.,=A7-/C-l) ; In O)
為樣本規模總數的自然對數。應該記住,在以案例為基礎的情況下 ,
飽和模型的估計係數數目等於樣本觀測數。正因為如此,飽和模型的 自由度等於0。此外,飽和模型的-2/2/也等於0。因而,飽和模型的 5/Q等於0。所以,BIC,>0表示所設模型比飽和模型差,而BIC,0表示所設模型比零假設模型要差,而BIC'510
非常強
84 D
Logistic迴歸模型— —方法及應用
最後,要想知道BIC指標與其他擬合指標之間的關連,可以參看 Raftery (1996,P19)提出的計算線性迴歸模型的BIC1值的公式: BIC' = nxln (l-7?2)+d. f. xln («)
3.1.12
其中7?2為所設定的OLS模型的確定係數。這對於計算線性迴歸模型的
BIC指標是一個非常方便的計算公式。 SAS的PROC LOGISTIC程序只提供指標AIC和SC (見表3.1.7)。 SPSS的LOGISTIC REGRESSION程序對這四種訊息測量指標都不提
供,但是這四種指標可以根據模型的-2/1指標計算出來 。現在,我 們比較兩個示範模型的這四種訊息測量指標。 模型 1: ln^/(l-j9)] = a+^i GENDER+/?2KEYSCH
模型 2: ln[/?/( 1 -p)} = a +
GENDER + ^2KEYSCH + ^3MEANGR
模型的值以及SAS提供的這兩個模型的AIC和SC指標值列 在輸出表3.1.7中。根據公式3.1.8至公式3.1.10,計算出兩個模型的 AIC、SC、BIC和BIC1四個指標,並列在表3.1.8中。模型2的所有四
個訊息測量指標值都分別小於模型1的相應值,並且兩個模型在BIC
和BIC1指標上的絕對差距都大大超過 10,說明模型2比模型1要好得
多。換句話說,模型2更有可能產生已經觀測到的資料 。
比較模型1和模型2,我們發現:^^與131(32之間的差別等於BIC, 和BIC2之間的差別(見表3.1.8)。實際上,可以從理論上證明 (Raftery,
1996; Long, 1997): BIC, -BIC2 = BIC, - BIC:
Logistic迴歸模型評價□
85
這說明,選擇使用哪一種BIC指標只不過是方便和偏好問題。重 要的是,我們還可以用這一等式驗算BIC和BIC1的計算是否正確。
表3. 1. 了
SAS的PROC LOGISTIC程序估計的訊息指標的部分輸出結果
模型1:
Model Fitting Information and Testing Global Null Hypothesis BETA = 0
Intercept Intercept Criterion
Only
and Covariates
AIC
1277.326
1167.172
SC
1282.234
1181.895
-2LOG L*
1275.326
1161.172
Score
Chi-Square for Covariates
114.154 with 2 DF (p = 0.0001
109.227 with 2 DF (p = 0.0001
模型2:
Model Fitting Information and Testing Global Null Hypothesis BETA = 0
Intercept Intercept Criterion
Only
and Covariates
Chi-Square for Covariates
AIC
1277.326
847.965
SC
1282.234
867.596
-2LOG L
1275.326
839.965
435.361 with 3 DF (p = 0.0001 )
•
344.873 with 3 DF (p = 0.0001)
Score
*在「Intercept and Covariates」一欄的-2LOG L 就是模型的-2/2,而在「Chi-Square for
Covariates」一欄的-2 LOG L就是模型的Gs»
86
D Logistic迴歸模型--- 方法及應用 表 3. 1. 8
兩個示範模型的AIC、SC、BIC和BIC'指標
Measure
Model 1
-2LLS
1161.17
839.97
Gs
114.15
435.36
d. f.
997
996
d. f;
2
3
K+S
3
4
AIC*
1.1672
0.8479
SC
1181.90
867.60
BIC
-5725.86
一 6040.64
BIC'
-100.33
-414.64
1000
1000
N
Model2
*這裡報告的AIC指標是用SAS所提供的AIC值除以觀測數量所得到。
3.Z
Logistic迴歸艏型的預測華確牲
對logistic迴歸模型的另一種評估是模型的預測準確性。通常有三
種不同的方法符合這一目的。
3. 2. 1
類尺2指標(Ana I ogous 及2)
除了擬合優度之外,應用迴歸分析的研究人員往往對確定係數 (coefficient of determination ),即的值感興趣。線性迴歸中的R2有一
種十分誘人的解釋特性,即它描述因變數的變動中由模型的自變數所 「解釋」的百分比。但是,在logistic迴歸分析中卻沒有相應的統計指
標。不過,在模型概似值對數的基礎上,可以為logistic迴歸模型計算
Logistic迴歸模型評價□ 某種類似F的指標,如概似比指數(likelihood ratio index, LRI)
87
(Greene,
1990; Hosmer and Lemeshow, 1989)。 在線性迴歸中,擬合模型的殘差平方和(residual sum of squares)
與這一模型的概似值對數成比例(HosmerandLemeshow,1989)。按照 這一觀點,可以將-27l0 (其中720為零模型的最大概似值對數)類比
於線性迴歸中的總平方和(total sum of squares, TSS )。另一方面,-2/ls 又類似於誤差平方和(ESS)(在第3.1.2節中,我們提到離差D=-2
(.LL-LLf)可以被看作類似線性迴歸中的誤差平方和(ESS)。因為飽 和模型的-27^ = 0,所以-2;!,即可被視為ESS)。於是,logistic迴歸 也可以有一個類似於&的指標,表示為: LRj= -2/0.5 THEN PREDICT =1 :
ELSE PREDICT = 0 :
PROC FREQ : TABLES COLLEGE*PREDICT / NOROW NOCOL NOPERCENT :
RUN :
98
D Logistic迴歸模型----方法及應用 表3.2.5是由SAS的PROC FREQ程序列印的分類表。從這一表中,
可以看到1000個案例中有589 + 218 = 807個被logistic迴歸模型所正確
分類,因此,總正確率(percentage of correct -即被正確分類的案例數 和案例總數之比)為807 / 1000 = 80.7%。在335個事件實際發生的觀測 中有218個被正確地預測為事件發生,因此,敏感度(sensitivity,即
正確預測事件發生的案例數與觀測事件發生的總數之比)為
218/335=65.1%。在665個事件未發生的觀測中有589例被正確預測為 事件未發生,因此,其指定度(specificity,即正確分類的事件未發生
數與觀測事件未發生的總數之比)為589/665=88.6%。在294個分類 為發生的案例中,有76個分類不正確,因此錯誤肯定率(falsepositive rate,即錯分類為發生事件的實際未發生事件數與觀測事件發生數之
比)為76/294 = 25.9%。在706個分類為事件未發生的案例中 ,有117 個為錯分類,所以錯誤否定率 (false negative rate,即錯分類為未發生 而實際為發生事件的案例數與觀測未發生事件的總數之比)為117 / 706 = 16.6%。綜上所述,在分類表中我們可以計算出正確率、敏感度、
指定度、錯誤肯定率、錯誤否定率等五個指標來估計logistic迴歸模型 的預測準確性。
表3. 2.5有偏(Biased)分類表(SAS輸出) PREDICT
COLLEGE
;
Total
665
117
76 i 218 i
706
294
Frequency
0
0
589
1 Total
1
335 1000
(初仆,Logistic迴歸模型評價□ 99
SPSS的LOGISTIC REGRESSION程序也自動輸出分類表 ,其格式 與表3.2.5中的SAS輸出完全相同。實際上,這種分類表是有偏的,
原因是同一套資料被用來擬合模型並產生預測的分類表 。這裡,我們 介紹兩種方法來建立無偏的分類表 。
第一種方法:將樣本資料隨機地平分為兩半 。一半作為預測樣本
(prediction sample ),另一半作為確認樣本(validation sample )。這種
方法稱為交叉確認(cross-validation ),是鑑別分析中常用的一種方 法。在這裡我們所要做的是,先根據預測樣本來估計logistic迴歸模 型;然後再將所預測的模型應用於確認樣本,計算其所有案例的事件
機率;最後,根據由確認樣本所估計的事件機率來建立分類表 。整個 工作都可以應用 SAS或SPSS來完成。
第二種方法:在原始資料中省略一個案例,然後執行logistic迴歸
模型,計算這一省略案例的預測機率 ,並根據測量值和預測值進行分
類。重複上述過程〃次(〃為樣本大小)。即一次省略一個案例 ,直 至每個案例都得到分類。這一方法通常稱為刀切法(jacknife method )。 它能夠避免分類表的離差 ,但是這種方法非常費時,尤其是原始資料
包含大量觀測案例時。 下面我們先應用第一種方法來示範我們的模型。相應的SAS程序 指令如下:
*SAS PROGRAM: GENERATE UNBIASED CLASSFICATION TABLES ; ♦PROGAM 1 :
OPTIONS NOCENTER PS = 500 LS = 150 ; LIBNAME LIB’ D: \ LOGIT’ ;
DATA DATA 1 ; SET LIB. COLLEGE :
RANDOM = RANUNI (6):
100 □ Logistic迴歸模型一方法及應用
♦PROGRAM 2 ; DATA SPLIT ;
SETDATA1 ; COLLEGE1=. : COLLEGE2 = .; IF RANDOM(^,7(l —/>i))KEYSCH=0 =a+灼GENDER+々2x0+灼 MEANGR
4.2.5
從KEYSCH = 1的logit式中減去KEYSCH = 0的logit式後,我們發
現兩個logit式的差別正好為變數KEYSCH的係數灼,這可以從下面推 導中獲得:
Aln(odds)(KEYSCH=l vsKEYSCH=0) =ln(p/(l—p))keysch=i — ln(p/(1 — p))keysch=o
120 D Logistic迴歸模型--- 方法及應用
=(i-o)A
=Pi
4.2.6
其中Ain (odds)為控制其他自變數條件下,實驗高中與普通高中
之間對數發生比的差。其實,它就是發生比率的對數’那麼#即為
控制GENDER和MEANGR條件下KEYSCH = 1對比KEYSCH=0的發生 比率,其估計值為: AOR=exp(Aln(odds)KEYscH=i vs KEYscH=o)=e^2
4.2.7
我們又一次看到調整發生比率就是變數 KEYSCH的logistic迴歸係
數的指數冪。 在這一例題中,實驗高中對比普通高中的調整發生比率為 #=2.492
(見表2.5.2)。這表示實驗高中學生在畢業後考人大學的發生比約為 普通高中學生的2.5倍。此外,對GENDER的調整發生比率為#=2.378, 這表示在控制了變數KEYSCH和MEANGR的條件下,男生的發生比 約為女生的2.4倍。 有必要指出,將發生比率看作事件發生可能性或機率的倍數是不
正確的。比如,我們不能說男生考入大學的可能性是女生的2.4倍’
因為這意味著男生考入大學的機率是女生的2.4倍。為什麼呢?比方 外„為男生考入大學的機率,/V為女生考人大學的機率 ,那麼男生對女
生的考人大學的發生比率為:
4-2-8
上述錯誤解釋只能應用於式4.2.8中右側的第一項(An/外)’它被稱
Logistic迴歸係數解釋□
121
為考人大學的相對風險(Hosmer and Lemeshow, 1989)。然而,這並不 等於發生比率,除非和值都非常小,在這種情況下式4.2.8右側第 二項(l-P/)/(l-p„,)接近於 1。
4.2 3分類自變數的發生比率 當分類自變數多於兩個類別時,我們就需要建立一組虛擬變數來 代表類型的歸屬性質。如果一個分類變數包括w個類別,那麼可以產 生州個相應的虛擬變數。但是,建立模型需要的虛擬變數的數目應等
於分類總數減1。這就是說,如果變數包括w個類別,那只需要建立
w-i個虛擬變數即可。我們不能同時在模型中包括w個虛擬變數,因 為其中的每一個虛擬變數都是其餘虛擬變數的線性組合 ,這會違反迴
歸的基本假設條件。 從建立模型中省略的那個類別(omittedcategory)稱作參照類(referencecategory)。比如,學校的類型是個名義變數,如果我們定義它 有三個類別:實驗高中,城市普通高中,農村普通高中。我們將在模
型中設定兩個虛擬變數SCH1 (表示實驗高中)和SCH2 (表示城市普 通高中)。模型中沒有包括表示農村普通高中的虛擬變數,所以農村
普通高中這個類別就作為參照類了。分類變數的哪一類別應為參照類 是隨意的,通常取決於研究人員的偏好 ,或解釋上的方便。在省略農 村普通高中虛擬變數的情況下,當一個學生屬實驗高中時 ,虛擬變數 SCH1 = 1,否則,SCH1=O :當屬城市普通高中時,虛擬變數SCH2 = 1,
否則,SCH2 = 0。這時,我們的模型如下:
=a+灼GENDER+々2SCH1 + 灼SCH2 + /?4MEANGR
4.2.9
122
D Logistic迴歸模型----方法及應用 如同在線性迴歸中一樣,係數凡代表實驗高中與農村普通中學
(參照類)在因變數上的差別。所以, 々2 = ln(odds)schi
vs sch3
並且#為實驗高中對農村普通高中的發生比率 。在同樣的基礎 上,#為城市普通高中對農村普通高中的發生比率 。 有時,我們還將連續變數值分段改為分類變數來使用。比如,對 於學習成績(GRADE),可以不用其實際值,而將其分成三個檔次:
低、中、高。因此,建立模型需要產生兩個虛擬變數,如85SGRADE'= 1 |x,x*)
4.4.2
這可以解釋為隨變數知從值&變化到值(々+△)時,事件發生的預 測機率的變化 。隨A變化產生的機率變化量依賴於的變化量、&的
初始值,以及決定這一機率的所有其他變數值 。
我們在實際研究中計算預測機率變化的時候,需要選擇適當的自 變數值。例如,我們需要瞭解在來自實驗高中和普通高中的具有平均
成績水準的男生之間的升學方面的預測機率的差別 。這等於是要計算
在GENDER=1和MEANGR = 0的條件下當變數KEYSCH的值從0變為 1時預測機率的變化。
從上面的計算中我們已經知道,當GENDER =1
KEYSCH = 0 >
MEANGR = 0時,預測機率為0.29。要瞭解預測機率的變化 ,就要在
模型中設定GENDER =1 ' KEYSCH =1 ' MEAN GR = 0。那麼,估計的 logit 為:-1.76 + 0.87x1+0.91x1+0.42x0 = 0.02。 於是,推算出odds為60,02= 1.02,並進一步推算出機率為1.02 /
(1 + 1.02) = 0.51。那麼,來自實驗高中和普通中學的具有平均成績水準 的男生之間的升學方面的預測機率的差別為:0.51-0.29 = 0.22。
同樣,離散變化法也可以用於一個連續自變數值變化時的機率變 化。 最後,在解釋發生比率和預測機率時有兩點必須注意 : ⑴式4.4.2所表現的預測機率變化是離散變化 ,它不等於式4.3.1所
表現的機率上的偏變化,除非A的值為無限小。
138 D Logistic迴歸模型— —方法及應用
⑵發生比乘以一個常數因子產生的變化不等於相應機率乘以同一 常數因子產生的變化。這可以從表4.4.1中看到。當發生比乘以一個 常數因子2時,發生比變化的倍數是個常數2,而相應的機率變化卻
不是一個常數。表4.4.1中,在「Original」欄下,是原有的發生比和相 應機率;在「Changed」欄下,是乘以一個常數因子2以後的發生比和 相應機率;r Factor Change j欄的值是「Changed」欄的值與「Original」
欄的值的商。我們可以看見,當發生比非常小時,機率變化的倍數約 等於發生比變化的倍數。當發生比很大時,機率變化的倍數約等於
1,而發生比的變化倍數仍然是 2。 表4. 4. 1發生比乘以一個常數因子產生的變化與相應機率乘以同一 常數因子
Odds
Factor Change
Changed
Original
Odds
Prob.
Prob.
Odds
Prob.
1/1000
0.001
2/1000
0.002
2.000
1.998
1/100
0.010
2/100
0.020
2.000
1.980
1/10
0.091
2/10
0.167
2.000
1.833
1/2
0.333
2/2
0.500
2.000
1.500
1/1
0.500
2/1
0.667
2.000
1.333
2/1
0.667
4/1
0.800
2.000
1.200
10/1
0.909
20/1
0.952
2.000
1.048
100/1
0.990
200/1
0.995
2.000
1.005
1000/1
0.999
2000/1
0.999
2.000
1.000
註:此表引自Long (1997,p.82)的表3.10。
’I叫,■/
Logistic迴歸係數解釋□
139
4.5縹準圯係數 通常在線性迴歸模型中的自變數是以不同尺度測量的。比如,收 人的單位是元,年齡的單位是歲,長度單位可用厘米、分米或米,如
此等等。有時一個變數是按Likert標度(Likert scale)測量的,比如5 級尺度(5-pointscale)
(0-強烈反對;1-反對;2-中立;3-支持;4
-堅決支持)。於是,某個自變數中的一個單位的變化並不等效於另 一個自變數上一個單位的變化。如果我們要比較因變數與不同自變數
之間關係的強度,通常採用標準化迴歸係數 。出於同樣的原因,在 logistic迴歸分析中也可以考慮使用標準化係婁女(standardized coefficients )。
什麼是標準化係數?標準化係數表示自變數一個標準差的變化所 導致的因變數上以其標準差為單位測量的變化 。在線性迴歸中,標準
化迴歸係數,可以由未標準化的迴歸係數々和;V及知的標準差(即〜 和來計算:
P*=p{sxlsy)
4.5.1
另外一種取得標準化係數的方法是,在迴歸前先將因變數和自變 數轉換為標準化變數,即將每個原始變數值分別減去其平均值,然後
再除以其標準差,得到〜和/ =
然後再對標準化變
數進行迴歸,也能得到同樣的標準化迴歸係數。 在應用標準化因變數和多個標準化自變數的模型中,所有自變數
與因變數的關係都是以同樣的單位(標準差)測量的。所以,雖然其 原始變數是以不同尺度測量的,但透過標準化後自變數對因變數的作
140
D Logistic迴歸模型一-方法及應用
用便具可比性。 應該注意的是 ,對分類變數如性別、種族等,變數的標準化沒有
意義,因而標準化係數也就無意義了。通常,標準化係數是用來比較 不同尺度的連續自變數的作用幅度的 。尤其是Likert標度是帶隨意性
的,比如,5檔尺度可以是:0, 1,2,3和4 ;也可以是:1,2, 3, 4和5。 因而,將Likert標度測量標準化,使之具有可比性,是很有意義的。
在logistic迴歸中,標準化係數的計算較為複雜。因為logistic迴歸 中的因變數不是觀測二元變數 •V,而是logit或稱對數發生比,對於它
不能直接計算其平均值和標準差。然而,我們可以透過估計的logit和
類炉來間接計算其標準差。在迴歸分析中通常用RSS表示迴歸平方
和,用TSS表示總平方和,而模型確定係數7?2=RSS/TSS。將其分子 分母同時除以各自的自由度*和(《-1)(其中是自變數個數,《為
樣本規模),有:
A2 = [RSSM]/[TSS/(»-l)]
=s2-l sj,
4.5.2
將式4.5.2變形以求解$,有
s2 y = sjlR2
4.5.3
對logistic迴歸來說,式4.5.3便為。我們可以根據估 計的logit的變異數和模型的類計算logit的變異數。這樣,logistic迴
歸的標準化係數可以估計為:
-
p*= . PSx V^ogit/^2
Jl咖
4.5.4
Logistic迴歸係數解釋□
141
其中,女為lgistic迴歸的標準化係數,》為未標準化係數,心為自變數
x的標準差,〜卽為估計的logit的標準差,7?為模型確定係數7?2的平方 根(Menard,1995)。
我們來計算模型2.4.1中自變數MEANGR的標準化迴歸係數,其 計算步驟為:
!.用SAS或SPSS對模型2.5.1進行logistic迴歸
2. 估計A、R和預測機率彡
3. 計算估計的 logit ln^/Cl-p)]
4. 計算力啦(即估計的logit的標準差)和smeangr (即MEANGR的 標準差)
5. 根據$1。纟it、秦、^MEANGR和穴計算禽 相應的SAS和SPSS程序指令如下: *SAS PROGRAM: STANDARDIZED LOGISTIC REGRESSION COEFFICIENT; OPTIONS NOCENTER PS = 500 LS = 150;
LIBNAME LIB ’D: \LOGIT’;
DATA DATA 1;
SET LIB. COLLEGE; PROC LOGISTIC DESCENDING;
MODEL COLLEGE = GENDER KEYSCH MEANGR / RSQ; OUTPUT OUT = PRED P=PHAT; RUN;
DATA DATA2;
SET PRED; LOGIT = LOG (PHAT/(1 -PHAT));
142 D Logistic迴歸模型— —方法及應用
PROC MEANS; VAR MEANGR LOGIT; RUN;
*SPSS PROGRAM: STANDARDIZED LOGISTIC REGRESSION COEFFICIENT. GET FILE = ’D: \LOGIT\COLLEGE. SAV\ LOGISTIC REGRESSION VAR = COLLEGE
/ METHOD = ENTER GENDER KEYSCH MEANGR
/SAVEPRED. COMPUTE LOGIT = LN(PRE_1/(1 -PRE_1)).
EXECUTE. DESCRIPTIVES VARIABLES = LOGIT MEANGR
/ STATISTICS = MEAN STDDEV MIN MAX.
SAS程序輸出中的變數PHAT即預測機率,可以根據其計算估計
的logit。用PROCMEANS指令可以輸出描述性統計,從中能夠得到新 變數LOGIT和自變數MEANGR的標準差。
與此對應,在SPSS程序中指令SAVE PRED是為了將預測機率 PRE1 (内定變數名)儲存為新變數 ,而指令DESCRIPTIVES可以提
供變數LOGIT和MEANGR的描述性統計指標。
在計算標準化係數時需要的訊息有:
fi 3=0.4245 j
$meange=4.2990 ;
R=0.5941 ;
⑽尸2.0514 o *註:SPSS 程序中指令 LN(PRE 都是取自然對數。
1/(1-PRE
1))和 SAS 程序中指令 LOG(PHAT/(1-PHAT))
Logistic迴歸係數解釋□
143
於是logistic迴歸的標準化係數和便可以按下列公式計算:
o»_ ^3^MEANGR-^
_0.4245x4.2991x0.5941 2.0514
= 0.5285
按上述方法計算的logistic迴歸標準化係數稱為完全標準化係數 。
DeMaris ( 1995)建議了另一種計算logistic迴歸標準化係數的方法。 在本書第1章提到,/=«+^ + £>其中/為非觀測的因變數,e被假設
為符合logistic分佈。如同標準常態分佈,這種分佈的平均值為0 ;但
其變異數為,其中7!值約為3.1416。那麼,父的變異數估計為: Var (y*)=Var( a +Z^x) + Var( e)
=Var(a+2;3x) + 3.290
其中,我們假設誤差項與自變數無關 ,因此上式中沒有共變異數 項。誤差項的變異數V^r⑷,即;^/3,且VSr(£+2^)的估計變異數可以 由SAS程序取得。方法為,在PROC LOGISTIC程序的OUTPUT指令之
後加人備選項XBETA,便能在執行中將一個線性預測變數(linear predictor variable,如Z)加人輸出資料,然後再用PORC MEANS指令
取得它的估計變異數VSr(Z) = Var(5+2^)。於是,我們便可以根據上述
公式計算V^r(/) 了。
Var(/) = Var(a+2^x) + 3.290
144
D Logistic迴歸模型--- 方法及應用 然後,再根據因子(么/&)來調整未標準化的logistic迴歸係數么’
取得標準化係數K。 對模型2.4.1用SAS得到線性預測變數並計算其變異數的程序指令
如下: *SAS FILE: GENERATE THE LINEAR PREDICTOR VARIABLE; OPTIONS NOCENTER PS = 500 LS = 150; LIBNAME LIB’D: \LOGFT;
DATA DATA1; SET LIB. COLLEGE;
PROC LOGISTIC DESCENDING; MODEL COLLEGE=GENDER KEYSCH MEANGR/ RSQ; OUTPUT OUT = PRED XBETA = Z;
RUN;
DATA DATA2; SET PRED; PROC MEANS; VAR MEANGR Z; RUN;
由這個程序可以取得線性預測變數的變異數為VSr(Z)=4.2082,因 此有: Var (/) =4.2082 + 3.290 = 7.4982
和
Logistic迴歸係數解釋□
l45
,»^MEANGR/Jy) = 0.4245(4.2991/2.7383) = 0.6665
注意,DeMaris公式中VSr(5+2^x)部分與Menard公式中的V^r(lo会it) 相同。這就是說,由以上SAS程序估計的VSr(Z)與前面用SAS和SPSS
分別估計的VSr(logit)相同。然而,DeMaris標準化係數與Menard標準 化係數有一定差別。將他們的公式變形,就可以看到差別所在:
Menard 公式:
^^MEANGR VVar(logit)/7?:
DeMaris 公式:fj\=
^meangr— —
7Var(logit)//?2+3.290
完全標準化係數的缺點是logit的變異數會因模型預測變化而變 化,即隨logit的變異數估計值變化而變化。這意味著,即使一個變數
在不同模型中的非標準化的作用保持不變時,其在不同模型中的標準 化的作用卻可能發生變化。這並不是標準化估計的理想性質。 用SAS的PROC LOGISTIC程序計算的標準化係數沒有上述問題,
因為計算時所用的公式為(SAS Institute Inc.,1995):
^=^8138
其中的分母tiA/J為標準logistic分佈的標準差。很明顯,SAS提供 的標準化係數是偏標準化(partiallystandardized)的,而不是完全標準
化的。偏標準化係數的計算不受 logit的變異數估計值的影響,而是在
用同一個常數;t/aA作為式4.5.5的分母。 對logistic迴歸標準化係數的解釋與線性迴歸時相同 。也就是說,
它是々變化一個標準差導致logit (y)上,個標準差的變化。
146
D Logistic迴歸模型--- 方法及應用 因為示範模型中只有一個連續變數(即MEANGR),只計算一個
標準化係數,所以這一模型中沒有其他標準化係數可供比較 。如果在
模型中有多個連續自變數,我們就可以根據標準化的logistic迴歸係數 來比較有著不同量度的自變數對事件發生比及機率作用的強度了。
4.6
偏組關(Partial Correlation)
在上一節中,我們討論了自變數對發生比和事件機率的偏作用。
有時,我們還想瞭解某一個變數對 logistic迴歸的貢獻。在多元迴歸 中,每一個自變數的貢獻都依賴於其他自變數,尤其是當自變數之間
高度相關時。 SPSS的LOGISTIC迴歸程序能提供一個統計指標R (注意,它不 是確定係數的平方根!),用來檢查因變數與每一個自變數之間的 偏相關(SPSS Inc., 1997b; Atkinson, 1980)。7?表示在控制其他變數的情
況下,該自變數對因變數的作用。這個A的值域為-1至+ 1,其為正
值時表示當自變數值增加時事件發生的可能性也增加 ,其為負值時則
相反。當其絕對值很小時表示對應自變數對模型的偏貢獻(partial
contribution)很小,而其絕對值很大時則表示該自變數對模型的偏 貢獻很大。A指標的計算公式為=
A= /(Wald^-2d.f.)
V
4.6.1
-2LL0
其中,d.f.為變數的自由度。分母為-2倍的截距模型(即只有截
距的模型,或稱零模型,即nullmodel)的對數概似值。7?的符號與相
Logistic迴歸係數解釋□
147
應係數相同。式4.6.1中的值2d. f.用來對估計係數的數目進行調整 。 如果Wald統計量小於2,SPSS輸出中的R將被設定為0。
讓我們用式4.6.1計算幾個R值來檢查表4.2.3第3部分中的結果。
當-2倍的截距模型的對數概似值-2££Q=1275.33時,變數GENDER的 偏相關7?為: _
n 八GENDER
—
/(Wald/-2xl) /
V
a
-2LL0
/(41.00-2) 1275.33 = 0.1749
式4.6.1不僅可以對分類變數的每一個類型(除了參照類)計算偏
相關,還可以計算分類變數作為整體的偏相關。下面,我們對示範模
型的分類變數CGRADE作為整體來計算偏相關: /(Wald/-2x2j
^CGRADE
V
-2LL0
/(194.48-4) 1275.33
= 0.3865
這裡的計算結果與表4.2.3中第三部分的SPSS輸出結果相同。我
們還可以根據SAS的PROC LOGISTIC程序的輸出結果用式4.6.1來計
算變數的偏相關。
148
D Logistic迴歸模型--- 方法及應用
附註:
在新版的SAS 6.12的PROC LOGISTIC程序中,分類自變數可由CLASS
指令定義後納入模型°如果該分類變數有⑺個類別’ SAS程序將使用效應 編碼(effect coding )自動產生w-1個設計變數(design variables )。它們作 為一組變數,同時被納入模型。程序對每一類別單獨進行顯著性檢驗’也
提供對這一分類變數整體顯著性的檢驗 ° SAS程序的指令如下:
PROC LOGISTIC DESCENDING ;
CLASS CGRADE ;
MODEL COLLEGE = GENDER KEYSCH CGRADE ; RUN ;
原數的統計推騮
, ,
Logistic迴歸係數的顯著性檢驗
Logistic迴歸參數的可信區間
150
!J Logistic迴歸模型-方法及應用 如果模型滿足假設條件,我們可以由樣本模型的結果對總體參數
進行統計推斷。統計推斷有兩個含義,即假設檢驗和參數估計。假設 檢驗涉及的一系列工作最後導致接受或拒絕關於總體參數所作假設陳
述的結論;參數估計便是估計出總體參數的值(包括點估計和可信區
間估計)。本章將討論如何進行logistic迴歸的假設檢驗和計算迴歸係
數、發生比率、機率的可信區間(confidence intervals, C.I.) °
5.1
Logistic迴歸係數的顯碧牲輥輥
本節討論在logistic迴歸模型中自變數對logit作用的顯著性檢 驗。這涉及到一個自變數是否與反應變數顯著相關的統計假設 ,以及
如何建立和檢驗這一假設並做出結論。
Logistic迴歸係數的最大概似估計是總體參數的漸近無偏和有效 (asymptotically unbiased and efficient)的點估計。對係數的估計標準誤 差提供了在換用不同樣本時估計係數的可能變化範圍。在第2章的2.3 節已經討論過,logistic迴歸係數的MLE估計近似符合常態分佈,所以 我們可以直接對迴歸係數進行顯著性統計檢驗。
假設零假設HQ為:凡=0 (表示自變數對事件發生可能性無影響 作用)。如果零假設被拒絕,說明事件發生可能性依賴於A的變化。
要檢驗這一假設,我們需要先選擇顯著性水準,即通常所說的《水 準。顯著性水準就是在零假設為真時錯誤地拒絕它的機率 ,也稱為第 一類錯誤(type I error)或棄真錯誤。選擇的《水準由研究者自行決
定,選擇的依據為我們願在多大程度上接收可能犯拒絕一個真的零假
設的錯誤。願意冒的風險越大,則可選的《值越大。常用的《水準為
:Logistic迴歸係數的統計推斷□
151
0.05,也稱為在0.05水準統計性顯著(另一常用的cc水準為0.01)。
在a = 0.05水準上,100次拒絕零假設中零假設為真的情況不超過5次。
由於c(是犯第一類錯誤的機率,為什麼不能選擇一個更小的6(值 呢?這是因為,當《減小時,我們接受一個實際為假的零假設的錯誤
機率便同時增大。未拒絕一個實際為假的假設稱為第二類錯誤(type II error)①或取偽錯誤。上述這兩類錯誤的機率是此長彼消、相輔相
成的。
5.1.1
Wald 檢驗
選擇CC水準以後,我們就可以計算檢驗統計量了 。所謂檢驗統計
量就是根據樣本資料所統計出的決定是否拒絕零假設的判斷值。對於
規模很大的樣本,檢驗其總體係數是否為0可以採用Z統計量:
SEpk
5.1.1
其中,SE&為么的標準誤差。當零假設為真時(即Hd = 0),Z 為標準常態分佈。可以按常規根據Z計算值查標準常態分佈表中單側
或雙側檢驗的直(當樣本規模較小時,式5.1.1所示Z檢驗值便成為 檢驗值)。
常用統計軟體中,對logistic迴歸係數進行顯著性檢驗時,通常使 用Wald檢驗,其公式為: ①第一類錯誤是當拒絕零假設而其實際為真的錯誤;這類錯誤機率通常用《表示。第二類錯誤 是當未拒絕一個零假設而其實際為假的錯誤,第二類錯誤的機率通常用表示。對第二類錯
誤的表現中,通俗的說法是接受假設,而未拒絕假設則是在方法論上更確切的表述方法。
152 □ Logistic迴歸模型--- 方法及應用
FF=(^/SE^)2
5.1.2
它實際上就是式5.1.1中Z統計量的平方。在零假設條件下’每
一個迴歸係數都等於0,那麼這個單變數Wald統計量為自由度等於1 的漸近Z2分佈。於是,這個統計量的值可以表示相應的模型自變數 是否顯著。在自由度等於1條件下,«=0.05的%2臨界值為3.841 ; a=0.01的z2臨界值為6.635 ; a=0.001的/臨界值為10.828②。因此’ 決策的規則為:如果Wald在a=0.05水準的/值大於3.841,便拒絕零
假設Ho:沟=0。 Wald統計量的一般形式為:
QP = r
5.1.3
其中,/?為待檢驗的模型參數向量 ,2為常數矩陣(通常’各元素 值為0或1),r表示常數矩陣(其元素為0)。例如,當檢驗氏:凡=馬=0
時,實際上等於檢驗下列假設:
Ho:
上述假設可以使用Wald統計量來檢驗 : W=[Qp-r}' [QVaT(p)QT\Qfi-r]
②用SAS或SPSS程序可以計算任意顯著水平和自由度的/值,具體操作見附註。
5.1.4
Logistic迴歸係數的統計推斷□
153
其中F為/分佈,其自由度為約束的數目(即2中的行數)。
Wald統計量由兩部分組成:一是[以-r],測量的是估計值和假設值 之間的差別:二是[2V&(知g’r1,表示估計值的變化範圍。
SAS的PROC LOGISTIC程序對每一個自變數係數提供Wald/2值, 而不是提供丨統計量或Z統計量的值。SPSS的LOGISTIC REGRESSION
程序同時提供檢驗單個係數和檢驗有w類的分類變數整體的Wald統 計值。
對例題模型2.5.1來說,所有自變數(GENDER, KEYSCH, MEANGR) 都有Wald/2值大於3.841,所以它們都在《 = 0.05水準上統計性顯著(見
表2.5.2中的SAS輸出和表2.4.3中的SPSS輸出)。對帶有分類變數 CGRADE (其中分/» = 3類,見第4章4.2.3小節),SPSS對於分類變
數提供了整體的顯著性檢驗 ,同時對代表各類的每一個設計變數(模
型中有1個設計變數)也提供了單獨的檢驗。新版SAS也提供同
樣的檢驗(見第4章附註)。 根據常態分佈理論,Wald統計量很容易計算。但是它有一個不太 好的性質,即當迴歸係數的絕對值很大時,這一係數的估計標準誤差
就會膨脹,於是會導致Wald統計值變得很小,以致第二類錯誤的機 率增加。也就是說,在實際上會導致應該拒絕零假設時卻未能拒絕 。 所以在硏究中,如果發現迴歸係數的絕對值很大 ,就不要再用Wald
統計值來檢驗零假設,而應該使用概似比 (L.R.)檢驗法來代替。
5.1.2概似比檢驗 統計學已經證明,在大樣本時,如果兩個模型之間有巢狀(nested)
關係,那麼兩個模型之間的對數概似值乘以_2的結果(簡標為-2££)
之差近似符合Z2分佈。這一檢驗統計量稱為概似比 (likelihood ratio,
154 □ Logistic迴歸模型--- 方法及應用
L. R.)
(Hanushek & Jackson, 1977; Aldrich & Nelso, 1984; Greene, 1990;
Long, 1997 )。 用一個例子加以說明。一個模型姊中有自變數々,另一個模型
M2包含妯中所有其他自變數但沒有自變數;Q,我們就說恥為M'
的巢狀模型。也就是說,姊中包含著A/2。如果要進行L. R.檢驗的 話,兩個模型的-2ZZ之間的差為: L. R =(-2zZm2) - (-2£Ami) = -21npbM
5.1.5
其中為我們所設定原模型(包括所有自變數)的最大概似函 數的對數;/im2為省略模型(省略了自變數;q)的最大概似函數的對
數。兩者之間的差乘以 -2近似符合於y分佈,其自由度等於省略自 變數的數目(此處為d.f. = l)。
現在,我們用L. R.統計量來檢驗模型2.5.1中變數MEANGR的顯 著性(等於零假設HQ:灼=0的檢驗)。所要做的是先建立省略模型,
即省略式2.5.1中的變數MEANGR,得到模型如式3.1.1。於是,我們
要比較的兩個模型為: /(l-p)]=a+灼 GENDER+々2 KEYSCH+灼 MEANGR
M,:
In
M2:
ln[p/(l-/?)] = aGENDER+灸 KEYSCH
顯然,M2是由在M,中令灼=0得到的。當一個模型能夠從另一個 模型中透過令若干自變數的係數為 0得到,便稱這個模型為另一模型
的巢狀模型。原模型(較大者)有時也稱為「完全(Ml)」模型,
透過省略得到的模型也稱為簡化(reduced)模型。注意,這時的「完
_________________________________ Logistic迴歸係數的統計推斷D
155
全」模型不是真正意義上的完全模型 ,而只是相對於簡化模型而言。
此處\12為的巢狀模型。檢驗假設M,:/?3 = 0表示檢驗在建立簡
化模型M2時令灼=0是否合乎實際。 令以^和以^分別為簡化模型和 「完全」模型的最大概似函數值 的對數,概似比統計量即為二者的差: (-2Zim2) - (-2a£ot1)=1 161.17 - 839.97 = 321.20
(參見表5.1.1)在d. f. = 3-2=l時(即省略的變數量或兩個模型
自由度之差),這一/2值非常顯著,表示變數MEANGR (即高中平均
分數)對高中畢業後考人大學的可能性有很強的作用> 。 表5. 1. 1單個自變數係數的概似比檢驗 Variable INTERCEPT
Model 1
Model 2
-1.76*
-1.66*
GENDER
0.87*
1.45*
KEYSHC
0.91*
0.57*
MEANGR
0.42*
-2LL
839.97
1161.17
MODEL CHI-SQUARE
435.36
114.15
3
2
D.F. 註:*標識在a = 0.05水準統計性顯著。
現在討論L.R.檢驗如何操作。在上述檢驗中考慮的是 ,在模型中
新加人變數MEANGR是否在原有變數GENDER和KEYSCH的基礎上
156
D Logistic迴歸模型一-方法及應用
對解釋升學可能性有顯著的貢獻,即最大概似值厶(即式2.5.1的最大 概似函數值)是否顯著大於厶的最大概似值(即式 3.1.1的最大概似 函數值)。如果厶確實顯著大於厶,則說明概似比厶/A是個非常 小的分數,那麼概似比的自然對數In (厶/L )將為負值;並且-21n
(£2 /A,)將為很大的正值。這樣,作用顯著的變數MEANGR的概 似比L.R.會取很大的正值。這與用Z2檢驗的形式相同。 相反,要是新加變數(如MEANGR)對解釋升學可能性沒有新貢 獻,即厶與Z2基本相等,這意味著概似比(厶/厶)近似於1。所以,
L.R.統計量等於-2乘以一個十分接近於1的數的自然對數,因此L.R.
近似於零。也就是說,要是MEANGR的作用不顯著 ,概似比將近似 於0。這也同一般z2檢驗形式相同。 簡而言之,不論具體比較的是哪兩個模型,概似比值應在0和
+ OO之間。當新加變數的作用不顯著時,概似比值應很小,但大於零; 而當新加變數的作用很顯著時,概似比應為一較大的正數。 除模型概似函數可以用來進行兩個巢狀模型的概似比檢驗之外 ,
還有兩種統計量,即模型Z2 (model chi-square)和離差統計量(deviance statistic)也可以用於概似比檢驗。
我們在3.4節所討論的比較設定模型和截距模型(null model)的
Z2檢驗實際上是概似比檢驗。因此,含與不含々的兩個模型的/統 計也可以提供與式 5.1.5同樣的結果。 / (含x*的模型)一/2 (不含A的模型)
={2LLm\—2LLmQ)—(2LLm2 — 2££m0) = -2(zH) = -21n(Zm2/Zml)
5.1.6
式中和⑽分別為模型1、模型2和截距模型的對數
Logistic迴歸係數的統計推斷□
157
最大概似值。由於兩個模型的Z2中都有截距模型最大概似值的共同 項,所以式5.1.6與式5.1.5相同。 將表5.1.1的模型z2值代人式5.1.6中,有: / (含MEANGR的模型)一/2 (不含MEANGR的模型)
=435.36-114.15
= 321.21
這一結果與我們由式5.1.5所計算的結果相同。 離差統計量也可以用於同一目的 。在第3章3.1.2節中已經說明離
差統計量也是一個概似比統計量,它用於比較設定模型與完全模型或
稱飽和模型(見式3.1.4)。於是,兩個巢狀模型之間的離差統計量之 差為:
D (不含的模型)-D (含知的模型) =(2LLf— 2LLm2) — (2LLf— 2LLmi) = -2(LLm2-llmd = -2ln(Lm2/Lmi)
其中為完全模型的對數概似值。注意,這裡的完全模型是第
三章中討論到的真正意義上的完全模型 。由於式5.1.7的兩個D統計 量都包含完全模型最大概似值的共同項 ,可以從式中約去,式5.1.7其
實與式5.1.5表示的L.R.統計量完全相同。 還有很重要的一點應該記住,由SAS的PROC LOGISTIC程序提供 的離差統計量是根據資料中共變類型或子總體的數目計算的 ,而不是
根據觀測案例計算的。然而SPSS的LOGISTIC REGRESSION程序卻不
158 □ Logistic迴歸模型一方法及應用 提供真正的離差統計量(參見第3.1.2節)。注意,當我們用SAS的 PROC LOGISTIC程序所提供的離差統計量來進行L.R•檢驗時,需要特 別注意兩個相比的模型中須有同樣數量的共變類型 。但是當模型包含
不同共變數(即自變數)時會產生不同數量的共變類型,因而會導致
不同的離差統計值和不同的自由度。這個問題可以透過SAS程序的適
當備選指令加以解決。在下列的SAS程序中,前兩個會產生適當的離 差統計量來比較式2.5.1模型和式3.1.1模型;然而後一個程序產生的 離差統計量卻不能用比較 。以上所述SAS程序輸出的離差統計量、自
由度和共變類型數在表5.1.2中報告。 * SAS PROGRAM 1; PROC LOGISTIC DESCENDING; MODEL COLLEGE = GENDER KEYSCH MEANGR/AGGREGATE SCALE =
NONE; RUN;
* SAS PROGRAM 2; PROC LOGISTIC DESCENDING; MODEL COLLEGE = GENDER KEYSCH
/AGGREGATE = ( GENDER KEYSCH MEANGR) SCALE = NONE; RUN;
* SAS PROGRAM 3; PROC LOGISTIC DESCENDING;
MODEL COLLEGE = GENDER KEYSCH/AGGREGATE SCALE = NONE; RUN;
//攀卜Logistic迴歸係數的統計推斷□ 159
表5.1. 2離差統計量和共變類型數 (程序1輸出) Deviance and Pearson Goodness-of-Fit Statistics Pr>
Criterion
DF
Value
Value/DF
Deviance
408
378.0
0.9266
0.8537
Pearson
408
632.6
1.5506
0.0001
Chi-Square
Number of unique profiles: 412
(程序2輸出) Deviance and Pearson Goodness-of-Fit Statistics
Pr>
Criterion
DF
Value
Value/DF
Deviance
409
699.2
1.7096
0.0001
Pearson
409
590.5
1.4437
0.0001
Chi-Square
(程序3輸出) Deviance and Pearson Goodness-of-Fit Statistics
Pr>
Criterion
DF
Deviance
1
0.8747
0.8747
0.3496
Pearson
1
0.8495
0.8495
0.3567
Value
Value/DF
Chi-Square
Number of unique profiles: 4
在第2個SAS程序中,我們用指令「AGGREGATE = (GENDER
KEYSCH MEANGR)」來設定共變類型數等於第 1個SAS程序產生的
160 □
Logistic迴歸模型--- 方法及應用
統計,即412。離差統計量的自由度等於由模型估計的共變類型數與
係數數目(含截距)之差。這樣一來,由第1個和第2個程序產生的
離差統計量的自由度分別為d. f. = 412-4 = 408和d. f. =412-3=409。 由第3個程序產生的共變類型數為4,因此d.f. = 4-3=l =這一 SAS 程序得到的離差統計量不能用於比較式2.5.1和式3.1.1兩個模型的 L. R.檢驗。因此,我們只能用第1個和第2個程序取得的離差統計量 來進行L.R.檢驗。應用式5.1.7,有: D (不含的模型)-D (含x*的模型)
= 699.2-378.0 = 321.2
這一結果與應用-2LZ或模型z2值計算的結果相同。
注意,L.R.檢驗必須是根據同一資料的不同模型之間的比較。由
於最大概似估計將排除那些有缺失值的案例,因此在選用不同變數 時,可能會因某變數有缺失值而使樣本規模有所變化 。比如,要是々
有10個案例缺失值,那麼當々被排除出模型時,可用的樣本規模會 增加10個。為了在模型比較時有同樣的樣本規模,我們應排除所有
自變數為缺失值的案例 。或者,在資料分析之前將缺失值補充上 。 就此,我們討論了兩種對單個迴歸係數的統計檢驗:Wald檢驗和
L.R.檢驗。儘管有時(當係數值很大時)我們需要依靠L.R.檢驗,但
主要是用Wald統計量進行單個係數的檢驗。L.R.檢驗則主要是在進行 一組係數的整體檢驗時使用,我們將在下一節討論這一内容。
Logistic迴歸係數的統計推斷□
161
5 1.3檢驗係數子集 L.R.檢驗不僅可以用於檢驗一個係數,還可以像多元線性迴歸中 F
檢驗那樣,用於檢驗一組係數(Hanushek & Jackson, 1977; Aldrich & Nelson, 1984; Greene, 1990; Long, 1997 )。 有時研究興趣在於同時檢驗幾個參數 ,即檢驗在模型中包含其他
變數的條件下一組自變數(•/個)作為子集是否與因變數顯著相關 。 這一檢驗的零假設為HQ:戽=凡=-=為=0。我們可以透過比較包括所
有K個自變數的模型與只包括(7C-J)個自變數的模型來進行這種檢 驗。L. R.檢驗便可以符合於這一目的。檢驗J個自變數整體上是否顯
著的L. R.檢驗的步驟與第5.1.2小節中討論的檢驗單個自變數相同 。 先要令原始模型中的戊=凡一=戽= 0後建立起簡化模型 。因為簡化模
型是原模型的一個特殊情況 ,這兩個模型之間有巢狀關係 ,所以可以 用L.R.檢驗J個係數構成的子集的顯著性。如果L.R.檢驗結果統計性
顯著,就表示•/個係數中至少有一個統計顯著。現在,我們來示範如
何對模型中一個分類變數進行整體檢驗。如果我們有原模型和簡化模 型如下: M,:
In [jp/( 1 -/?)] = a + y?iGENDER + ^2KEYSCH
+/?3GRADE2 + 瓜 GRADE3 M2:
In [p/(l-;?)] = a +灼GENDER+々2KEYSCH
其中變數GRADE2和GRADE3是分類變數CGRADE的兩個標記變
數(參見第4.2.3)。在模型M2中灼和久被設定為等於0,因此零假 §殳為Hq :此=々4 = 0。
162 □
Logistic迴歸模型---
方法及應用
兩個模型M2和M!之間的對數概似值乘以 _2的積之差近似Z2分
佈,可以用於檢驗零假設,其自由度為要檢驗的參數數目(此處d.f. =2)。正如在第5.1節提到的,我們既可以用-2l£,也可以用模型 Z2,還可以用離差統計量,來計算L. R.統計量。由SAS的PROC
LOGISTIC程序對所分析的兩個模型取得的這些統計量列在表5.1.3中。 整體檢驗標記變數GRADE2和GRADE3的L. R.統計值為: 應用-2Z7L統計值:
L. R. = (-2l£2)- (-2Zfi) = l 161.172 -910.764 = 250.41
d. f =4-2 = 2 或應用模型卡方值: L.R.=/?-^ = 364.563 - 114.154 = 250.41 d. f.= 4-2 = 2
或應用離差統計值: L.R. =D2-Di =255.2 - 4.7700 = 250.43
d. f.= 8—6 =2
根據這三種統計值計算的L.R.檢驗值相同,且都非常顯著 ,表示 分類變數CGRADE (即高中平均成績)作為整體對結果變數有十分顯
著的影響作用。
Logistic迴歸係數的統計推斷□
163
表5. 1. 3對係數子集進行概似比檢驗所用的離差 、-UL、模型/統
計值 SAS輸出
(模型1) Deviance and Pearson Goodness-of-Fit Statistics Pr>
Criterion
DF
Value
Value/DF
Deviance
6
4.7700
0.7950
0.5736
Pearson
6
4.4518
0.7420
0.6158
Chi-Square
Number of unique profiles: 11
Model Fitting Information Intercept
Intercept
and
Only
Covariates
AIC
1277.326
920.764
SC
1282.234
945.302
-2 LOG L
1275.326
910.764
364.563 with 4 DF (p = 0.0001)
•
•
338.917 with 4 DF (p = 0.0001)
Criterion
Score
Chi-Square for Covariates
•
(模型2) Deviance and Pearson Goodness-of-Fit Statistics Pr >
Criterion
DF
Value
Value/DF
Chi-Square
Deviance
8
255.2
31.8973
0.0001
Pearson
8
255.8
31.9724
0.0001
164
D Logistic迴歸模型一方法及應用
表5. 1. 3對係數子集進行概似比檢驗所用的離差 、-2LL、模型Z2統 計值(續) Number of unique profiles: 11
Model Fitting Information and Testing Global Null Hypothesis BETA=0
Intercept
Criterion
Intercept
and
Only
Covariates
1277.326
1167.172
SC
1282.234
1181.895
-2LOGL
1275.326
1161.172
AIC
Chi-Square for Covariates
114.154 with 2 DF(p = 0.0001) 109.227 with 2 DF(p = 0.0001)
Score..
註:模型2中的共變類型數被設定等於模型1中的相應數值(即11) °
此外,在6.10版及以後SAS的PROC LOGISTIC程序中,我們還
可以根據Wald統計量檢驗一組自變數的聯合作用 。在SAS的PROC LOGISTIC程序中設定一個 「TEST」指令,就可以用Wald統計量聯合 檢驗零假設Hq:A=A2—,= 0。比如,我們想檢驗相對於GRADE1
而言的GRADE2和GRADE3的整體作用,實際上就是要檢驗零假設 Ho : ^3=^4 = 0。
我們還可能想確定GRADE2和GRADE3、或GRADE2和GRADE 1、 或GRADE3和GRADE1的作用是否相同,那麼檢驗的零假設分別為: Ho:凡=0 ; Hq:=A = 0。(注意,在該模型中,GRADE1為分
類自變數的參照類,係數灼和A分別代表與GRADE1和GRADE2類 相對應的因變數均值與參照類相對應的因變數均值的差。) 在TEST指令後加人變數名便構成相應作用的假設檢驗設定 。由
於所有檢驗在一個SAS輸出中顯示,因此最好在TEST指令之前對它
Logistic迴歸係數的統計推斷□
165
們加上最多8個字符的標籤 ,並以一個冒號附於各個標籤之後。下列
SAS程序指令便可以進行這些檢驗: *SAS PROGRAM: LINEAR HYPOTHESIS TESTS; PROC LOGISTIC DESCENDING;
MODEL COLLEGE = GENDER KEYSCH GRADE2 GRADE3;
TEST 1: TEST GRADE2 = GRADE3 = 0;
TEST2: TEST GRADE2 = GRADE3; TEST3: TEST GRADE2 = 0; TEST4: TEST GRADES = 0; RUN;
在上述SAS程序中,用TEST指令設定四個線性假設檢驗:TEST
1檢驗假設Ho:灼食0 ; TEST 2檢驗Ho:A=A : TEST 3檢驗Ho:灼=0 ; TEST 4檢驗HQ:=瓜=0。所有檢驗的結果都在a=0.0001水準統計性顯
著(參見表5.1.4)。 表 5. 1. 4
線性假設檢驗的結果
Linear Hypotheses Testing Wald
Label
Chi-Square
Pr >
DF
Chi-Square
TEST1
194.4760
2
0.0001
TEST2
16.8365
1
0.0001
TEST3
150.4666
1
0.0001
TEST4
81.6679
1
0.0001
在SPSS中,不是用GRADE2和GRADE3這樣的標記變數,而是直 接用分類變數CGRADE,用編碼值1、2、3表示各類(分別代表GRA
DERS, 85 SGRADE0
(x為連續變數)這樣的logistic迴歸模型,x發生△單位的變化所導
致對數發生比的變化由logit的變化計算取得,[a+Ax+/f)]-(a+^x)=^ -然後透過對logit 變化求指數冪相應的發生比率,計算可信區間要用的標準誤差透過》的標準誤差乘以常 數△取得。因此,A的95%可信區間的上下限分別為:^j+i.96Jxse^ „由於兩個
點估計和可信區間的上下限依賴於A的選擇,所以必須在所有計算中明確設定△的值。
172
D Logistic迴歸模型----方法及應用 *SAS PROGRAM: Estimating 99% C. I. for Customized Odds Ratio; PROC LOGISTIC DESCENDING; MODEL COLLEGE = GENDER KEYSCH MEANGR/WALDRL ALPHA = 0.001;
UNITS MEANGR = 5 -5; RUN;
發生比率的改變數也稱作條件發生比率(conditionaloddsratio)=對
應連續變數MEANGR的±5個單位的變化,其發生比率的95%和99%可 信區間的估計在表 5.2.2中提供。
表5. 2. 2發生比率的變化及其可信區間 Conditional Odds Ratios and 95% Confidence Intervals Wald Confidence Limits
Odds Variable
Unit
Ratio
Lower
Upper
MEANGR
5.0000
8.354
6.196
11.263
MEANGR
-5.0000
0.120
0.089
0.161
Conditional Odds Ratios and 99.9% Confidence Intervals Wald Confidence Limits
Odds Variable
Unit
Ratio
Lower
Upper
MEANGR
5.0000
8.354
5.058
13.796
MEANGR
-5.0000
0.120
0.072
0.198
Logistic迴歸係數的統計推斷□
173
523事件機率的可信區間 為了更好地解釋事件機率的預測值,就需要計算相應的機率真值
的可信區間。對某個具有一定特徵的案例的機率的可信區間的計算步 驟為:首先,計算對應logit的可信區間上下限;其次,將其轉換為相 應發生比的可信區間上下限;最後,將發生比的可信區間上下限再轉
換為事件機率可信區間的上下限。 設logit (>o = {a+pkxk )為某案例的估計logit,要計算logit (>0的
95%可信區間就需要logit (;v)的變異數。該logit的變異數計算公式如 下:
Var[logit (j^)] = Var (a) + x^Var
+2xkCov(a, fik)
5.2.4
其中,Var (S)和Var (A)分別為5和A的變異數,而Cov(S,A)
為5和么之間的共變異數。對logit Cv)進行95%可信區間估計的公 式為: logit(_y)± 1.96VVar[logit(_y)]
5.2.5
將式5.2.5估計的可信區間上下限求指數: (glogit(y) - 1.96VVar[logit(y)] elogit(y) + 1.967Var[logit(y)]\
5.2.6
將式5.2.6中的指數冪分別代人式 4.4.1中,便可求得相應的機率 可信區間。這一方法的關鍵在於估計lo轵(y)的變異數,這一計算需
174 □
Logistic迴歸模型一方法及應用
要係數估計的共變異數矩陣。這一矩陣可透過在SAS的PROC LOGISTIC 程序中設定COVB指令取得。SPSS的LOGISTIC REGRESSION程序不 能提供係數估計的共變異數矩陣,但可以提供相關矩陣。但兩個參數 之間的相關係數可以很容易換算為共變異數(即Coir (A ,^2)=Cov (及,尾)/(SE^SE久))。下列SAS和SPSS程序可以分別提供式2.5.1模型
係數估計的共變異數矩陣和相關矩陣: *SAS PROGRAM: PRODUCING COVARIANCE MATRIX OF LOGISTIC
COEFFICIENTS; PROC GENMOD; MODEL COLLEGE = GENDER KEYSCH MEANGR/COVB;
RUN;
*SPSS PROGRAM: PRODUCING CORRELATION MATRIX OF LOGISTIC COEFFICIENTS. LOGISTIC REGRESSION VAR = COLLEGE /METHOD = ENTER GENDER KEYSCH MEANGR
/PRINT = CORR.
式2.5.1模型的係數估計的共變異數矩陣和相關矩陣分別在表5.2.3 的上部和下部提供 。
現在,我們來計算實驗高中且平均高中成績高於總平均水準2分
的男生考人大學的機率的95%可信區間。 這組學生的logit估計為:
logit (y) = -1.7575 + 0.8661 x 1+0.9130 x 1+0.4245 x 2 =0.8706
Logistic迴歸係數的統計推斷□ 175
logit (y)的變異數為:
Var[logit(y)]=Var (a) + GENDER2Var (^,)+
KEYSCH2 V如(》2) + MEANGR2Var 2GENDERCov (a, A) +2KEYSCHCov (d,^)+
2MEANGR Cov(a,^3)+ 2GENDER KEYSCH Cov(3i,為)+ 2GENDER MEANGR C6v(戎,此)+ 2 KEYSCH MEANGR Cov(我,糸)
將 GENDER: 1,KEYSCH =1,MEANGR:2,及S、A、義、為的值代 人此式,可以求得: Var [logit (y)]«0.0536
那麼logit (J;)的95%可信區間為: 0.8706 ± 1.9670.0536=(0.4168,1.3244)
將logit (y)代人式4.4.1求指數冪得到這組學生考人大學的預測 機率為:
A87O6/(1+eO.8706) = 0.70
再將logit (y)的95%可信區間的上下限值代人式4.4.1的指數求出 相應事件機率的可信區間上下限:
e°-4168/(l +e°-4168), eL3244/(l+eL3244)] = (0.60, 0.79)
176
D Logistic迴歸模型一一方法及應用 所以’實驗高中且平均高中成績高於總平均水準2分(即83.7+2=85.7)
的男生考人大學的機率的95%可信區間為(0.60,0.79)。
表5. 2. 3係數估計的共變異數矩陣和相關矩陣 SAS輸出的共變異數矩陣
Estimated Covariance Matrix Variable
INTERCPT GENDER KEYSCH MEANGR
GENDER
INTERCPT
0.0251704883 一0.021590829 -0.00981759 -0.001327287
-0.021590829 0.0331625089 -0.000686528 -0.000271654
KEYSCH
-0.00981759 -0.000686528 0.0581521925 0.000986248
MEANGR
-0.001327287 -0.000271654 0.000986248 0.0009297755
SPSS輸出的相關矩陣
Constant GENDER KEYSCH MEANGR
Constant
GENDER
KEYSCH
MEANGR
1.00000 -.74731 -.25661 -.27437
-.74731 1.00000 -.01563 -.04892
-.25661 -.01563 1.00000 .13413
-.27437 -.04892 .13413 1.00000
附註:
如果手頭沒有/分佈表,我們也可以用下面的SAS程序來計算任意顯著水 準和自由度的/值:
DATA_NULL_; CHISQ1=CINV (0.95, 1 );
Logistic迴歸係數的統計推斷□
177
CHISQ2 = CINV (0.99, 1); CHISQ3 = CINV (0.999, 1);
PUT CHISQ1=; PUT CHISQ2 = ; PUT CHISQ3 =; RUN;
其中,CINV為SAS中%2機率分佈PROBCHI的反函數。SAS指令CINV
(0.95, 1),CINV (0.99, 1),CINV (0.999, 1)分別計算 d. f. = l 時a = 0.05、 0.01、0.001 的%2 統計值。 SPSS也可以做同樣的工作。在程序中定義一個變數代表 a水準做起來比較
容易。比如,下列SPSS程序可以分別計算d.f.= l時a = 0.05、0.01、0.001的z2 統計值。
DATA LIST FREE/ ALPHA. BEGIN DATA
.05 .01 .001 END DATA. COMPUTE CHISQ = IDF. CHISQUARE (1-ALPHA, 1).
EXECUTE.
CHAPTER
6
n艤型
建
,選擇變數
观非線性與非加性(Non I inear i ty and Nonadditivity)
180
□ Logistic迴歸模型一方法及應用 前面各章已經介紹了 logistic函數、logistic迴歸模型的估計、模型
的評估、係數的解釋以及logistic迴歸係數的統計推斷,本章將討論建 立模型的有關問題。 如同線性迴歸 ,建立logistic迴歸模型中最重要的也是正確設立模
型。設立模型有兩重意思:一是正確選擇所設模型變數 ;二是正確設
立模型的函數形式。誤設模型將導致logistic迴歸參數估計有偏。
5.1選擇鑾數 在選擇模型的自變數之前 ,必須先設定反應變數的類型。反應變
數的測量可設為兩種形式。第一種應用於案例水準上的二元反應變
數,即每一個案例的反應變數中用編碼1代表事件發生、用編碼o代 表事件未發生。這種情況在logistic迴歸分析中較為普遍。第二種形式
應用於匯總水準上的二元反應變數,即從分組資料取得事件發生與否
的訊息。在這種情況下,需要兩個變數來分別設定每組的事件發生數 和案例數。第二章的2.6小節討論的使用分組資料的logistic迴歸模型 便是上述第二種形式。
在給定反應變數形式後,建立模型需要設定一系列自變數。前面 各章討論過的示範模型只設定了幾個自變數 。實際上,模型應該納人
所有理論上可以接受的自變數。在建立模型階段,我們需要做的是識 別可以很好預測反應變數的候選自變數 ,並將它們全部納人模型。
建立模型□ 181
6 1. 1篩選自變數 選擇自變數的工作通常從檢查每個自變數與反應變數之間二元關
係著手。對於連續變數,通常透過擬合單變數logistic迴歸模型來取得 變數的顯著性檢驗。對於名義變數和次序變數 ,建議對每個變數按其
m個水準進行與結果(y = 0或1)的二維交互表分析。自由度為w-1 的概似比/2檢驗與簡單logistic迴歸中(w-1)個虛擬設計變數(design variables)的模型/2顯著性檢驗的結果相同。用大學人學的例子來加
以示範,對連續變數MEANGR的顯著性檢驗透過簡單 logistic迴歸完 成,而對兩個虛擬變數GENDER和KEYSCH的檢驗要通過2x2交互 表。相應的SAS和SPSS程序列在下面,它們的執行結果在表6.1.1中
提供。
*SAS Program: Univariate Analysis;
PROC LOGISTIC DESCENDING; MODEL COLLEGE = MEANGR; RUN;
PROC FREQ; TABLES (GENDER KEYSCH) * COLLEGE/CHISQ; RUN;
182
D Logistic迴歸模型— —方法及應用 *SPSS Program: Univariate Analysis.
LOGISTIC REGRESSION VAR = COLLEGE
/METHOD = ENTER MEANGR /CRITERIA PIN (.05) POUT (.10) ITERATE(20) CUT(.5). CROSSTABS
/TABLES = GENDER KEYSCH BY COLLEGE /FORMAT = AVALUE TABLES
/STATISTIC = CHISQ /CELLS = COUNT.
表6. 1. 1自變數的二元關係分析 SAS輸出(節選) (以MEANGR為唯一自變數做簡單logistic迴歸) Model Fitting Information and Testing Global Null Hypothesis BETA=0 Intercept and Intercept Chi-Square for Covariates Covariates Only Criterion AIC
1277.326
883.507
SC
1282.234
893.32
-2 LOG L 1275.326
395.819 with 1 DF(p = 0.0001)
879.507
319.053 with 1 DF(p = 0.0001)
Score
Analysis of Maximum Likelihood Estimates Parameter Standard
Wald
Pr>
Chi-Square
DF
Estimate
Error
Chi-Square
INTERCPT
1
一 1.0876
0.0938
134.4218
0.0001
MEANGR
1
0.4381
0.0294
222.392
00.0001
Variable
Standardized
Estimate
Odds
Ratio
• 1.038318
1.550
luiptcrc建立模型□ 183
_______________ 表6. 1. 1自變數的二元關係分析(續) (COLLEGE與GENDER之間的交互表) TABLE OF GENDER BY COLLEGE GENDER
COLLEGE
Frequency Percent
Row Pet
Col Pet
0 0
1
Total
374
1
Total
76
450
37.40
7.60
45.00
83.11
16.89
56.24
22.69
291
259
550
29.10
25.90
55.00
52.91
47.09
43.76
77.31
665
335
1000
66.50
33.50
100.00
STATISTICS FOR TABLE OF GENDER BY COLLEGE Statistic
DF
Value
Prob
Chi-Square
1
101.340
0.001
Likelihood Ratio Chi-Square
1
106.019
0.001
Adj. Chi-Square
1
99.989
0.001
Mantel-Haenszel Chi-Square
1
101.239
0.001
Continuity
Fisher’s Exact Test (Left)
1.000
(Right)
7.85E-25
(2-Tail)
1.32E-24
Phi Coefficient
0.318
Contingency Coefficient
0.303
184 □
Logistic迴歸模型--- 方法及應用
_______________ 表6. 1. 1自變數的二元關係分析 (續) Cramer's V
0.318
Sample Size= 1000 (COLLEGE與KEYSCH的交互表) TABLE OF KEYSCH BY COLLEGE KEYSCH
COLLEGE
Frequency Percent Row Pet
Col Pet
0
1
Total
Total
0
1
596
272
868
59.60
27.20
86.80
68.66
1.34
89.62
81.19
69
63
132
6.90
6.30
13.20
52.27
47.73
10.38
18.81
665
335
1000
66.50
33.50
100.00
STATISTICS FOR TABLE OF KEYSCH BY COLLEGE DF
Value
Prob
Chi-Square
1
13.818
0.001
Likelihood Ratio Chi-Square
1
13.223
0.001
Continuity Adj. Chi-Square
1
13.092
0.001
Mantel-Haenszel Chi-Square
1
13.804
0.001
Statistic
、’/它的統計性並不顯著。因此,
不能排除互動項作用為0的假設。換句話說,互動項KEYSCHxMEA
NGR對模型擬合沒有顯著貢獻 ,所以可以從模型中刪除。 實際上,互動項的係數瓜的統計性也不顯著 ,顯示高中平均成 績對大學錄取機率的作用並不受高中類型的影響 。換句話說,高中平
均成績對大學錄取機率有正向作用,並且這一作用對於實驗高中和普
通高中都一樣。但是,如果凡統計性顯著,我們如何解釋MEANGR 對大學錄取的作用呢 ?這一作用可以表示為:
logit (>> ) =/?3 MEANGR +
KEYSCH x MEANGR
對於普通高中的學生而言 ,MEANGR的作用為: logit (y ) =^3 MEANGR + y54 x 0 x MEANGR
咱 MEANGR
224 D Logistic迴歸模型----方法及應用
因此,MEANGR上增力□ 1分的成績,logit的相應變化為灼=0.4268。 而對於實驗高中的學生來說,MEANGR的作用為:
logit (>- )
+ A x
MEANGR
MEANGR上增加1分的成績,logit的相應變化為0.4268-0.0152,
這一變化小於MEANGR自己的主影響。這樣的解釋好像不太好理解, 我們可以從另一角度來解釋這個互動作用,即看平均成績變動是否影
響學校類型對升學機會的影響。這一作用可表示為:
logit (^) =/?2KEYSCH+/?4KEYSCH x MEANGR
如果互動作用為負,且統計顯著,則說明學生高中平均成績
升高可以縮小學校類型對升學機會影響的差別。
當模型含有互動項時,高階作用是否顯著最為關鍵。我們經常可 以看到互動項顯著,然而主影響並不顯著 。在這種情況下,如何解釋 相應變數的作用呢?比如一個模型中有互動項,不管X!(或x2)
的主影響是否顯著,都說A (或x4)有顯著作用,因為它的主影響應 該作為A (或x2)對事件發生可能性的組成部分 。另一方面,如果高
階效應(本例即為一階互動作用 )不顯著,主效應則只應作為相應自 變數自身的作用看待 。在本例中,互動項(即瓜)統計性不顯著,說
明MEANGR對大學錄取機會的主影響不依賴於高中類型。因此,互 動項係數凡不應看作logit (;)的組成部分。
t 'hetero建立模型D 225
表6. 2. 4模型6. 2. 5的結果 sas輸出(節選) Model Fitting Information and Testing Global Null Hypothesis BETA=0
Intercept Intercept
Criterion
and
Only
Chi-Square for Covariates
Covariates
AIC
1277.326
849.934
SC
1282.234
874.472
•
-2 LOG L
1275.326
839.934
436.393 with 4 DF(p = 0.0001)
•
Score
345.299 with 4 DF(p = 0.0001)
Analysis of Maximum Likelihood Estimates
Parameter Standard Variable
DF
INTERCPT
1
GENDER
1
KEYSCH
1
MEANGR
1
INTER
1
Estimate
Error
Wald
Pr>
Chi-Square
Standardized
Chi-Square
Odds
Estimate
Ratio
0.1598
121.3532
0.0001
0.86551
0.1821
22.5763
0.0001
0.237499
2.376
0.9239
0.2474
13.9422
0.0002
0.172505
2.519
0.4268
0.0331
166.6592
0.0001
1.011530
1.532
-0.0152
0.0855
0.0317
0.8586
-0.012931
0.985
-1.7607
SPSS輸出 (節選) Chi-Square
d.f.
Significance
Model
435.393
4
.0000
Block
435.393
4
.0000
Step
435.393
4
.0000
226
D Logistic迴歸模型— —方法及應用 表6 2.4模型6. 2.5的結果(績) S. E.
B
Variable
Wald
d. f.
R
Sig
GENDER
.8655
• 1821
22.5763
1
.0000
.1270
KEYSCH
.9239
.2474
13.9422
1
.0002
.0968
MEANGR
.4268
.0331
166.6591
1
.0000
.3593
.0000
KEYSCH by
-.0152
.0855
.0317
1
.8586
-1.7607
.1598
121.3532
1
.0000
MEANGR
Constant
附註:
新版SAS 6.12的PROC LOGISTIC程序改善了處理互動項的功能,即 不用預先處理資料 ,互動項可以被直接納入模型 。SAS程序指令如下:
PROC MODEL
RUN :
LOGISTIC
DESCENDING :
COLLEGE = GENDER
KEYSCH
MEANGR KEYSCH * MEANGR :
過離散(Overdispersion
空單元(Zero Cel I Count)
完全分離(Complete Separation) 多元共線性(Mu 11 i co 11 inear i ty)
特異值和特殊影響案例(Outliers and Influential Observations)
228 D
Logistic迴歸模型— —方法及應用
在第6章中,我們討論了錯誤的模型設定可能導致有偏或精度差
的係數估計。所謂有偏指logistic迴歸係數的估計上有系統性離差 ,如 與真值相比偏大或偏小 。精度差指係數估計的標準誤差較大。它將導
致難以拒絕零假設(即關於因變數與自變數之間無關的假設) 。除了
模型的誤設問題以外,因變數和自變數觀測的資料結構也可能導致 logistic迴歸在係數估計上發生問題 。這並不是設定模型的問題或模型
正確與否的問題,而是某種資料結構對參數估計產生的影響 。常見的
資料結構問題有過離散(over-dispersion)、空單元(zero cell count)、 完全分離(complete separation)、多元共線性(multi-collinearity)、特 異值(outliers)以及特殊影響案例(influential cases)等。除了過離散
和特異值屬因變數的資料結構問題外,其他各類都是自變數的資料結 構問題。
7.1
過離散(Overdispersion)
對於第y個分組或第y種共變類型中事件的觀測數乃而言 ,有平
均值為《乃和變異數為《必+(1-巧)的二項分佈,其中《/是第y分組中 的案例數,a•是同一組中的事件機率。如果發生反應變數的測量變異 數超過名義上的變異數 《必(1-巧),就稱這種現象為過二項變異
(extra binomial variation )或過離营女。
實際資料中常有過離散現象存在。如果反應機率A•並不是隨機變 化,那麼A•的變動將會造成;V/的變異數大於其本來應有的變異數,形 成過離散。過離散會導致logistic迴歸係數的標準誤差偏低,從而影響
到Wald f值偏高。過離散也發生於模型系統組件存在某種缺陷時
Logistic迴歸診斷□
229
(Collett, 1991),比如: ⑴各個子總體或稱共變類型中的觀測數過少 ;
⑵某些重要解釋變數沒有納人模型; ⑶某些必要的互動項沒有納入模型; ⑷在真實函數為二次或高次項時卻按線性函數設定模型 ; ⑸資料中存在特異值; ⑹某些解釋變數應該採用對數量度或其他轉換時卻沒有這樣做 。 在過離散的條件下,觀測的因變數變異數為o2叩(1-P),其中
02為離散參數(dispersion parameter)。離散參數大於1表示過離散; 而小於1表示欠離散(under-dispersion)。欠離散是可能發生的,但在
實際資料應用中很少見。 在建立模型時,我們可以透過調整共變異數來糾正過離散產生的
影響。這涉及到對離散參數的估計,離散參數也稱為量度參數(scale parameter)。在SAS的6.10版及更新版本中 ,PROC LOGISTIC程序可 透過備選指令「SCALE=」來設定量度參數。儘管當已知過離散(或
欠離散)的原因時可以計算,但在多數場合離散參數是未知的,所 以需要進行估計。通常採用皮爾遜 Z2或Deviance統計量來估計離散參 數。在第3章中已經討論過,這些統計指標都近似於自由度為共變類
型數減係數個數之差的Z2分佈。而離散參數估計即為Z2除以相應自 由度。 下面用一個例子示範過離散的檢查和調整 :
ln[p/( 1 -/?)] = a+p\ KEYSCH + 灸G85
7.1.1
在式7.1.1中,升學的logit被設為兩個虛擬變數的函數:KEYSCH (1代表實驗高中;0代表其他);G85 (1代表高中平均分在 85及以
230 □
Logistic迴歸模型---
方法及應用
上:0代表其他)。相應的SAS程序指令為: *SAS PROGRAM : LOGISTIC REGRESSION CORRECTING FOR OVERDIS PERSION :
PROC LOGISTIC DESCENDING : MODEL COLLEGE = KEYSCH G85 / AGGREGATE SCALE = DEVIANCE :
RUN :
在SAS程序中加設「AGGREGATE SCALE
備選指令時,便可
輸出Deviance和z2指標(參見表7.1.1的上部)。在Value/DF標籤下
的一欄是離散參數的估計=對我們的例題來說,根據Deviance和皮爾 遜Z2指標所估計的離散參數分別為1.3085和1.3575,都大於1.0很多, 說明在logistic迴歸模型中存在過離散問題。輸出中有一個註(NOTE),
說明「共變異數矩陣已乘以異質因子 (heterogeneity factor ) 1.30847」。 因為我們設定了「SCALE = DEVIANCE」,共變異數矩陣所乘的1.3085
便是Deviance指標值與其自由度之比。
______________ 表7. 1.1修正logistic迴歸中的過離散______________ 修正了過離散的結果: Deviance and Pearson Goodness-of-Fit Statistics Criterion
DF
Deviance Pearson
1 1
Number of unique profiles : 4
Value 1.3085 1.3575
Value/DF
1.3085 1.3575
Pr> Chi-Square 0.2527 0.2440
Logistic迴歸診斷□
231
___________ 表7 1.1修正logistic迴歸中的過離散(續)____________ NOTE : The covariance matrix has been multiplied by the heterogeneity factor 1.30847.
Analysis of Maximum Likelihood Estimates Parameter Standard
Wald
Pr>
DF
Estimate
Error
Chi-Square
Chi-Square
Estimate
INTERCPT
1
-1.9564
0.1437
185.2586
KEYSCH
1 1
0.9068
0.2582
12.3375
0.0001 0.0004
0.169317
2.4493
0.1838
177.6718
0.0001
0.657096
Variable
G85
Standardized
Odds Ratio
2.476 11.580
未修正過離散的結果 : Analysis of Maximum Likelihood Estimates
Parameter
Variable ESTTERCPT KEYSCH G85
DF
Estimate
Standard Wald Error Chi-Square
1 1
-1.9564
0.1257
242.4054
0.0001
0.9068 2.4493
0.2257 0.1606
16.1432
0.0001
232.4783
0.0001
1
Pr> Standardized Chi-Square Estimate
0.169317 0.657096
Odds Ratio
2.476 11.580
表7.1.1的下部顯示了未修正過離散條件下的 logistic迴歸的參數 估計。比較修正和未修正過離散的logistic迴歸結果,我們看到,修正
過離散後,logistic迴歸係數的標準誤差增大 。這說明過離散會導致 logistic迴歸係數估計的標準誤差偏低,因而又影響到其Wald/2值偏高 及P-Value偏低。然而,過離散不會影響估計的係數、標準化係數以
及發生比率。 如果我們在SAS的PROC LOGISTIC程序的MODEL指令之後
232
□ Logistic迴歸模型— —方法及應用
設定SCALE = PEARSON,程序執行時將採用皮爾遜 z2指標,並除 以其自由度,作為離散參數估計。當然,我們還可以透過「SCALE
=」來設定常數值。在這種情況下,程序會取這一常數的平方作
為過離散參數估計。如果我們設定AGGREGATE SCALE = NONE, 程序將產生一個擬合優度指標,其中同時包括Deviance和皮爾遜 Z2指標,但是不再執行過離散的調整 。 正如在第3章已經提到的,在共變類型増加而導致各子總體的案
例數減到相當少時,Deviance和Pearson統計值將不再近似於 %2分佈。 因而,當模型中有連續的自變數時,大部分子總體案例數都很少,因
此不宜再用Deviance和皮爾遜/統計量來估計離散參數。
我們在第3章曾經提到,SPSS的LOGISTIC迴歸程序是按共變
類型數等於案例數設定的(即《/ = 1)。因此,SPSS的LOGISTIC迴 歸程序不提供關於過離散參數的訊息 。然而,SPSS視窗10.0版提
供了一個新的程序,稱作NOMREG,是用來為名義因變數建立模型
的,可以用它來解決logistic迴歸中的過離散問題。
7.Z
空單元(Zero Cell Count)
資料結構中最簡單、最明顯的問題是空單元 ,即交互表中某些單
元的觀測頻數為0。比如,要是所有高中畢業的男生都進人了大學 , 交互表中升學與性別的關係便會發生問題 。對於GENDER =1的案例
而言,升學的發生比為1/(1 -1)= +°° '那麼logit = In (odds)也等於 +〜。另一方面,如果這一類中觀測的結果變數值都是0 (即所有男 生都未能升學),那麼發生比將為0,相應的logit = In (odds)將為
-oo。在這種情況下,統計軟體通常提供不能收斂的出錯提示。另外,
Logistic迴歸診斷D 233
還存在一種十分明顯的跡象顯示模型出了問題,即模型有很大的估計
係數和特別大的係數估計標準誤差。 空單元的問題主要發生於分類變數,尤其是名義變數。對於連續 變數而言,模型可以假設因變數與自變數之間某種模式的關係(如在
線性迴歸中的線性函數和在logistic迴歸中的logistic函數),然後按這 種模式對應自變數各值的因變數的分佈「填補」起來。但是對分類自
變數來說,模型無法設想這種模式。 空單元的產生往往是由於案例分佈於太多的交互單元所致 。在一 般情況下,模型中沒有太多的變數,尤其是沒有將互動項納入模型之
前,很少發生空單元的現象 。應該先按單個變數來檢查資料中是否存 在空單元。由於空單元會導致很多建立模型問題,所以我們最好取得
一個較大的樣本來建立模型。在小樣本的情況下,我們可以透過合併
變數中的若干類型來避免空單元。或者,在變數為次序量度(ordinal measure)且有較多等級時,假設它們為連續變數。
7.3
完呈離(Complete Separation)
隨自變數變化,反應結果被完全分離時便會有第二種資料結構問
題的產生。比如,當自變數中存在某一臨界值c,只要知取值大於 等於C,事件便發生;而取值小於C時,事件便不發生。於是,如
果知的值已知,我們便肯定了結果變數的取值(即肯定了事件發生與 否)。在這種情況下,反應變數的兩種結果在; Q取值上並無任何重
疊,這就是所謂的資料「完全分離」。對於這種類型的資料,不存在
最大概似估計(Albert & Anderson, 1984; Santner & Duffy, 1986) ° 我們藉用Hosmer和Lemeshow (1989)的例子來顯示完全分離現
234
D Logistic迴歸模型— —方法及應用
象,並說明其所導致的問題。假設我們有表7.3.1中的12個案例。
表7. 3. 1資料中的完全分離、準完全分離和重疊 案例
y
Xk
1
0
1
2
0
2
3
0
3
4
0
4
5
0
5
6
0
5.5 \ 6.0 \ 6.05 \ 6.1 \ 6.15 \ 6.2 \ 8.0
7
1
6
8
1
7
9
1
8
10
1
9
11
1
10
12
1
11
註:資料取自 Hosmer and Lemeshow ( 1989,p.l30)。
在這些資料中,第6例可能取一系列不同值。一組logistic迴歸都 是以々作為唯一的自變數 ,第6例的取值範圍從 5.5到8.0,執行後的 參數估計列在表7.3.2中。
Logistic迴歸診斷□
235
當第6例的;Q =5.5時,資料便發生了完全分離 ,即所有A
寸一
166 .
00 0.
00 0.
00 0.
寸
00 0.
89 8.
33U23I01
3
1ST
S36.81 66 0.
61 s.
寸
3TI
SUI3PS3 OU
日
J§3
.PIS
S
寸
—
300Z/S
89612 8£33.0
5SA3N
§30
(PUSSU03)
OZT 自
{>3ZJPJBPUssun
uoso.o
PJBPUSS
JO JJ W
906S.0
69 Z4 19 S0
116 16S S.0
寸 6
p zjpjhpuss
1ST
1
61 0,
93 1.
寸寸
10006
U0931666loooo loooo 1000,0
OJ 』
I
SS dS
ppos
德
ONV3W
》
xDSAa^
德
33
•
j
:0H
瑚皿仔
s
000000000
33U23I0HI1I <
、
s拗
s
svs
CU
33
c^3 a z 3 o
alw l z I
( s g )
d s
3 1 q i >
^ o z < w s
J Q
s o ^ l u p s g J B O 6 S E
00£ l . .21 S 3
B
22
CQ
l , s . o § B . O 3 « U
s
cd
OOS
S 1 S Q 1 E 3 O 3
J 3 ^ S 2 E J
§ • CSJ' ^
uoppyu j
33iJE>
q £
驟靶鹋
r
l s £ 6 L 9
(ug
9 S " s
oh! s
9 S ,
s
0 H S ^ S 2 £ ®
9 1 8 0 S L
s s ,
S . S 3 -C S -S U J H S O S 3
0 1
OOS 1 2 1 1
OO6 ooo
X 00 00 0
S . I £ 6 9 1
Logistic迴歸診斷□
241
7.5特異值翮特飾影響萘側
(Outliers and Influential Observations) 影響迴歸分析結果的其他資料問題還包括特異值和特殊影響案
例。在線性迴歸中,所謂特異值是指案例中相對於自變數值而言其因 變數取值非常特殊的情況 。在logistic迴歸分析中,如果一個案例的實
際結果屬於一種類型而其預測事件卻在另一類型上有很高的發生機
率,便認為是特異值。而特殊影響案例是指一個對於迴歸估計有重大 影響的觀測。
當一個案例的自變數取一個很異常的值時,這一案例稱為槓桿案 例(high-leverage observation)。槓桿案例在其自變數取值上距離其他 案例很遠。槓桿案例不一定就產生對迴歸係數的特殊作用,但多數情
況下其作用比較特別。但是,當槓桿案例與特異值結合在一起時,往 往對迴歸係數估計有非常大的影響(Fox, 1991),所以被稱之為特殊 影響案例。在本節中,我們將介紹在logistic迴歸分析中一些有關的診
斷方法和檢查特異值與特殊影響案例的統計指標。
了.5.1殘差影響的測量 為了理解有關logistic迴歸診斷統計指標,先要理解模型的殘差 (residual)。下面是五種不同的殘差定義:
⑴非標準化殘差。這種殘差定義為觀測的事件機率與模型的預測
機率之間的差。比如,我們對一個實際已經考人大學的考生的預測的
242
□ Logistic迴饒模型--- 方法及應用
升學機率為0.75,那麼這一案例的殘差為: [y — P {y= 1)] = 1 — 0.75 = 0.25
⑵標準化殘差,又稱為Pearson殘差。在線性迴歸中,假設誤差 項獨立於因變數的條件平均值 £Odx)。然而,在logistic迴歸中,殘差
的變異數卻是條件平均值的函數,即: Var(y|x)=£(y|x)x (1-£(j;|x))
由於這一原因,需要利用除以殘差的標準誤差來調整殘差,使其 標準化。標準化殘差定義為:
y-P(y=^=
7.5.1
VP(y=l)(l - P(y=D) 它就是觀測機率與預測機率之差除以估計機率的二項分佈標準差 。它 又被稱為Pearson殘差。由於每一個殘差都被其標準誤差的近似估計
所除,因此在樣本規模很大且模型正確時,標準化殘差應該近似符合 平均值為0、標準差為1的標準常態分佈。所以,約有95%的案例的
標準化殘差應該在[-2,+2]之間,有99%的案例的標準化殘差應該在 [-2.5, +2.5]之間。
⑶Logit殘差。這又是一種殘差測量,它等於殘差■V-P (y=l)除 以自己的變異數(而不是像標準化殘差那樣除以自己的標準差) 。它 的確切定義為 :
_ ______ Logistic 迴歸診斷 D
、、
尸(y=l)(l - P(y=l))
243
7.5.2
⑷Deviance殘差。以下公式表示Deviance殘差,當事件發生時(即
_V=1時),取正值;事件不發生時(即時),取負值。
d=-2\y\n{P ) + (1 -j^)ln(l - P )]
7.5.3
如果觀測的反應值JV=1,有 c/=V-21n(P)
7.5.4
如果觀測的反應值 ,有
t/=-7-21n(l - P)
7.5.5
在大樣本情況下 ,單個Deviance殘差近似符合常態分佈。若一個
案例有較大的/值 ,則說明模型不能較好地擬合該案例 。
⑸最後一種殘差為學生化殘差(studentized residual)。一個案例的
學生化殘差是對假如此案例被刪除出樣本後模型Deviance統計值發生變 化的測量值。較大的學生化殘差值表示此案例在加大測量值與模型預
測值之差上的作用較大。 SPSS的LOGISTIC REGRESSION程序能輸出以上五種類型的殘差 ,
而SAS的PROC LOGISTIC程序只能提供Pearson殘差、Deviance殘差和
學生化殘差。但是,SAS的PROC LOGISTIC程序還提供另外一種殘差
DIFCHISQ,它表示皮爾遜/統計值的變化。然而,這種指標基本上
244 □
Logistic迴歸模型— —方法及應用
是多餘的,因為它近似等於Pearson殘差的平方。 在SAS和SPSS執行logistic迴歸時對這些殘差的內部標名如下所示: SAS :
RESCHI------ 標準化殘差,或稱Pearson殘差 RESDEV— —Deviance 殘差 DIFDEV— —學生化殘差,是刪除相應案例後Deviance統計量的變
化近似值 DIFCHIS—刪除相應案例後皮爾遜z2值的變化 SPSS : RES_1— —非標準化殘差
LRE_1— —Logit 殘差
SRE_1— —學生化殘差© ZRE_1— —標準化殘差,或稱Pearson殘差
DEV1------ Deviance 歹淺差 在SAS和SPSS中所有能提供的診斷統計量都可以存成一個新變
數,以方便以後使用。在SPSS中,當各種殘差被存為新變數時,都
以相對内定名稱加上後綴「1」作為變數名。當在執行另外一個模型 以後第二次將殘差存為新變數時 ,SPSS則仍以相對應内定名稱加上
「2」作為新變數名稱 ,依此類推。
②在SPSS手冊(SPSS Inc.,1997b, p.58)中關於學生化殘差的定義為:「當一個案例被刪除 後模型Deviance統計值的變化」。這實際上是SAS提供的診斷統計量DIFDEV的定義。其
實,SPSS的LOGISTIC
REGRESSION程序所提供的學生化殘差是當相應案例被刪除後模
型Deviance統計量變化值的平方根的近似值。
Logistic迴歸診斷□
245
除了殘差以外,還有其他有關建立和解釋迴歸的影響指標,如槓 桿度(leverage)、DFBERA (s)、以及 Cook 距離(Cook's distance)。
這些指標經常用來檢查那些對於參數估計或預測值有很大影響的案例 。
⑴槓桿度統計量(leverage)。槓桿度是H矩陣對角線上的第/
個元素。在線性迴歸中,付矩陣為 ,並且Y=XB
=X(X'X)-IX' Y=HY。以//矩陣表現的線性迴歸的殘差 ()為 (I-H^ F>其中/是的單位矩陣。logistic迴歸的H矩陣和槓桿度 的推導不屬於本書的範圍,有興趣的讀者可參閱Pregibon (1981)。
Logistic迴歸中的槓桿度在很多方面類似於常規迴歸中的槓桿度。 它以解釋變數的值來測量第z’個案例與其他案例相分離的程度 。槓桿 度值的取值範圍是[0, 1]。在一個有K個自變數(包括每一個設計變
數)的模型中,所有A,值的合計等於(K+l),•的平均值等於 (夂+1) /«。 ⑵DFBETA,意思為p變化(difference in beta),它所測量的是當 某個案例被刪除以後 logistic迴歸係數所發生的變化 。因此有一套
DFBETA指標,分別對應不同係數估計上的變化,其中也包括截距。
比如,當第/個案例被刪除後 ,第一個迴歸斜率係數上的變化為:
DFBETA1, =Bi -Bi
其中,為模型包括所有案例時第一個自變數的迴歸斜率係數 值,Bi為第/個案例被刪除後的係數值。 ⑶Cook距離,常標記為Cook’sD。它是標準化殘差和槓桿度兩者
的合成指標,定義為:
Cook's D, = (Z?x A,)/(1 - hi)2
246 □
Logistic迴歸模型— —方法及應用
其中,Z?為標準化殘差;//,為槓桿度值。 SAS 的 PROC LOGISTIC 程序和 SPSS 的 LOGISTIC REGRESSION 程
序都能提供這三個影響指標。SAS和SPSS在logistic迴歸中對影響指 標給定的內部變數名為:
SAS :
H
一槓桿度統計量,或稱//矩陣對角線
CandCBAR------ C 為Cook距離,定義為:C,+ =Z;/?,/(1 -/z,)2 ; CBAR 為類似Cook距離的一種診斷指標,定義為:CBAR^Z/^/d-W。 DFBETA— —由於刪除相應案例使迴歸係數估計產生的標準化差
別。DFBETA作為診斷指標,計算刪除每個案例對各個迴歸係數(包
括截距在內)造成的變化。 SPSS : LEV_1— —槓桿度統計量,或稱H矩陣對角線
COO_1— —類似Cook距離的一種診斷指標
DFB(s)_l—刪除相應案例使迴歸係數估計產生的變化 請注意,由SAS的PROC LOGISTIC程序所計算的迴歸係數變化的
診斷指標(DFBETA)與SPSS的LOGISTIC REGRESSION程序計算的相 應指標(DFB(s)_l)有所不同。雖然都測量的是刪除相應案例後在迴 歸係數上發生的變化,但前者為標準化的變化,而後者則為變化。另 外,由SPSS計算的Cook距離,Coo_l與SAS計算的CBAR是相同的③。 下列SAS程序為我們以式2.5.1表現的例題計算診斷指標:
③ SPSS 手冊定義 Cook 距離為(SPSS Inc., 1997b, p.58) : D,=Z?x/,,./(l-A,)2 •然而,SPSS
(Release
8.0)實際計算的 Cook距離為:£), = Z? x/^/(l-A,)。它與 SAS 的 PROC
ISTIC程序(SAS, V. 6.12)所計算的CBAR完全相同。
LOG-
Logistic迴歸診斷□ *SAS
PROGRAM :
REGRESSION
DIAGNOSTICS
FOR
247
LOGISTIC
REGRESSION;
PROC LOGISTIC DESCENDING; MODEL COLLEGE = GENDER KEYSCH MEANGR / AGGREGATE SCALE =
NONE INFLUENCE; RUN :
在SAS中,MODEL指令中的INFLUENCE備選方式設定輸出對每 個案例所計算的所有診斷性指標 。本例的前10個案例的診斷結果列
在表7.5.1中。由於模型中有三個自變數,所以有四項DFBETA值:
DFBETAO, DFBETA 1,DFBETA2, DFBETA3,分別代表截距、第 1 個、第 2個、第3個迴歸係數。 表7 5. 1
SAS計算的迴歸診斷統計指標(部分案例)_________ Regression Diagnostics Pearson Residual Covariates
Case Number GENDER 1 0 2 0 3 4 5 6
7 8 9 10
0 0 0 0
0 0 0 0
(1 unit = 2 KEYSCH MEANGR Value -8-4 0 2 4 6 8 * 0 -1.5000 -0.3021 氺 0 8.1000 0.4314 * 0 6.1000 0.6596 * 0 3.6000 1.1214 * 0 -2.0000 -0.2716 * 0 -4.7000 -0.1531 氺 0 1.0000 -0.5135
0 0
一 4.4000
-0.1632
氺
-5.3000
*
0
-3.2000
-0.1348 -0.2106
氺
248 □ Logistic迴歸模型---
—
方法及應用
表7. 5.1
SAS計算的迴歸診斷統計指標(部分案例)(續)
Case
Deviance Residual (1 unit = 0.44)
-8 -4 0 2 4 6 8
Value
Number
1 2
-0.4179
3 4
0.8500
*
0.5843 1.2761
氺
中
0.00139 0.00115
氺
*
:0.00176
木:
(1 unit = 0.03) Value -8 -4 0 2 4 6 8
Number
1 2
-0.0143 0.0144
3 4
0.0329 0.0721
5 6 7
8 9
10
* * *
0.0121 -0.00454
-0.00363 -0.00789
氺
*
*
氺
* * *
Value 0.00975
(1 unit = 0.02) 8 -4 0 2 4 6 i*
* :
-0.0207 -0.0391
木
一
-0.0315 -0.00508
* *
GENDER Dfbeta
INTERCPT Dfbeta
Case
*
0.00921 \ 0.00683
:0.00387
氺
10 -0.2945
氺
;0.00219 0.00130
* :
i
(1 unit = 0) 0 2 4 6 8 12 *
0.00856 氺
9 -0.1898
Value 0.00239
氺
5 -0.3773 6 -0.2153 7 —0.6842 8 -0.2293
Hat Matrix Diagonal
-0.0695
氺
*
0.00796 0.00256 0.0251 0.00291
*
0.00198 0.00484
*
氺
* 氺
氺
MEANGR Dfbeta KEYSCH Dfbeta (1 unit = 0.05) (1 unit = 0.02) -8 -4 0 2 4 6 Number Value -8 -4 0 2 4 6 8 .Value * * i 0.00748 1 0.00393 :* i 0.0322 2 -0.00120 :* i 0.0436 -0.00482 3 Case
Logistic迴歸診斷□ 表7 5. 1 4
SAS計算的迴歸診斷統計指標(部分案例)(續) 木;
5
-0.0146 0.00337
6
0.00138
氺
7 8 9 10
*
0.0372
0.00720 0.00429
氺
0.00767
*
0.00273
氺
0.00153;
*
0.00462
氺
0.00112
*
0.00367:
0.00229
*
0.00600
* *
氺
氺
CBAR
C
Case (1 unit = 0.01) Number Value 0 2 4 6 8 12 16 Value : * 1 0.000219 ;0.000219 2 0.00162 :* :0.00161 :0.00404 3 0.00408 ;*
4
0.00870
5 6
0.000162
0.00864 i 0.000162
0.000031 i * 0.00103 ;*
:0.000031 0.00102
0.000037 * 0.000021 0.000078 *
0.000037 0.000021
7 8 9 10
氺
0.000078
(1 unit = 0.01)
0 2 4 6 8 12 16 氺
* 氺
* * 氺
* * 氺
*
DIFDEV
Case Number 1
2 3 4 5 6
7 8 9 10
DIFCHISQ
(1 unit = 0.79) Value 0 2 4 6 8 12 16 Value * 0.1748 0.0915 氺 0.3430 0.1877 * 0.7265 0.4391
1.6372 0.1425 0.0464
*
* 氺
*
0.4691
►
(1 unit = 31.3) 0 2 4 6 8 12 16 * 氺
* *
1.2661 0.0740 0.0235
氺
氺
0.0526 0.0361
* *
0.2647 0.0267 0.0182
0.0868
*
0.0444
* * *
*
249
250
D Logistic迴歸模型— —方法及應用 SPSS的LOGISTIC REGRESSION程序執行時不是用一個指令來設
定輸出診斷指標。必須先將診斷指標存為新的變數,然後才能調用這
些診斷資料。我們將在下一節示範如何用SPSS來取得迴歸的診斷統計。
7. 5 2檢查特異值和特殊影響案例 當資料結構相對簡單時 ,透過審閱資料就能發現特異值和特殊影
響案例。但是在比較複雜的情況下,比如有很多自變數的logistic迴歸 模型,就很難僅憑審閱找到特異值和特殊影響案例。然而,上一節所 介紹的診斷統計量可以幫助我們完成這個工作。
首先,為了識別特異值,我們基本上是依據對logistic迴歸模型的 殘差的檢查。殘差指標測量了每個案例的觀測與模型擬合結果之間的 差別程度。因此,如果一個觀測案例導致異常大的殘差絕對值便是一
個特異值。 一般採用Pearson殘差和Deviance殘差來檢查特異值。以這些殘差
指標標記特異值的臨界點的選定是依據該殘差最極端的5%的值(Fox, 1991)。這是因為,在理想的常態分佈條件下 ,大約有5%的案例處
於正負兩個標準差之外。而Pearson殘差和Deviance殘差在大樣本時都
有近似常態分佈,於是凡這兩種殘差取值大於 2的案例都顯示此案例 擬合很差,值得特別注意。根據Menard ( 1995)的意見,學生化殘差
的臨界點也應該定為±2。SAS所提供的殘差指標DIFCHISQ基本提供 重複訊息,因為它約等於Pearson殘差(RESCHI)的平方。 注意,一個案例具有特異值也不一定就影響迴歸係數估計;但
是,特異值意味著模型擬合案例的程度很糟糕。如果有很多這樣的案 例,那麼這個模型的擬合程度會極差。
檢查殘差不一定能辨認特殊影響案例。因為,一個案例具有較小
Logistic迴歸診斷□
251
的殘差,也可能影響模型的係數估計 。當一個案例在其自變數值方面 距離其他案例遙遠,便可能有特殊影響。槓桿度氏測量的便是某個案
例與其他案例的距離。一個案例的氏較大說明它在自變數值上距離其 他案例較遠,這樣的案例有時也稱為槓桿點(highleveragepoint)。它
們可能是,但也不一定是特殊影響案例。與線性迴歸不同,logistic迴 歸中的槓桿度&的值不僅取決於自變數的值 ,也多少依賴於反應變數
的測量值。
總之,當么>2(^+1)/〃時就可以說是異常大,這個水準便是槓桿
度平均值的2倍。在我們的示範例題中有3個自變數和1000個案例, 因此槓桿度的平均值為(3 + 1)/1000 = 0.004 o如果一個寒例的A,•值大於
2x0.004 = 0.008的話,這個案例就可以被看作為槓桿點。 當案例的DFBETA指標取得很大值時更值得仔細檢查。SAS輸出 的DFBETA估計是標準化變化,而SPSS估計的DFB(s)_l則就是變化; 它們反應的都是某一案例被刪除後係數估計發生的變化 。對於SAS的
估計,如果DFBETA的絕對值大於1.0 (即大於一個單位的標準差),
這一案例就值得特別注意(Menard, 1995)。對於SPSS的估計,DFB
(s)_l的取值相對於相應係數估計值較大便值得注意。至於Cook距離的 判斷,則是根據取值遠遠大於其他案例的取值。由於Cook距離是殘差
與槓桿度的合成指標,一個案例有很大的Cook距離不僅意味著它是特
異值,同時也意味著它是槓桿點 ,因此它便非常可能是一個特殊影響 案例。
指標DIFDEV (學生化殘差的SAS內部標名)和SRE_1 (學生化 殘差的SPSS內部標名)可以用來檢查第f個案例對模型總體擬合的影
響,因為它測量的是第/個案例被刪除後模型 Deviance統計值的變化。 另一種診斷特異值和特殊影響案例的更直觀的方法是對殘差做概
要圖示。利用對應每個案例序號或指數標註原則其診斷測量值的統計
252
□ Logistic迴歸模型----方法及應用
圖,可以迅速檢查到特異值和特殊影響案例 。在SAS的PROC LOGIS TIC 程序中 ,MODEL指令中的備選設定IPLOTS (代表Index plots)可以
輸出每個案例的診斷測量的統計圖。但是,當樣本規模很大時,SAS
的PROC LOGISTIC程序所輸出的統計圖質量不高。如果需要專業水準 的作圖,可以應用SPSS的GRAPH程序或SAS的PROC GPLOT程序來
完成這類指數標記原則圖。比如,下列SPSS程序輸出診斷性統計指標 及其統計圖(參見圖7.1)。 ♦SPSS
PROGRAM :
REGRESSION
DIAGNOSTICS
FOR
LOGISTIC
REGRESSION.
LOGISTIC REGRESSION VAR = COLLEGE
/ METHOD = ENTER GENDER KEYSCH MEANGR / SAVE COOK LEVER DFBETA RESID LRESID SRESID ZRESID DEV
/ CRITERIA PIN(.O5) POUT(.IO) ITERATE(20) CUT(.5 ). GRAPH / LINE ( SIMPLE) =VALUE(ZRE_1)
/ TITLE = ’A. Pearson Residual vs Case Number Index\
GRAPH /LINE (SIMPLE) = VALUE (DEV_1)
/ TITLE = ’B. Deviance Residual vs Case Number Index’. GRAPH /LINE (SIMPLE) =VALUE(SRE_1)
/ TITLE = ’C. Studentized Residual vs Case Number Index’.
GRAPH
/ LINE (SIMPLE) = VALUE (DFBO_1) / TITLE = ’D. DFBETAO vs Case Number Index\ GRAPH / LINE (SIMPLE) = VALUE (DFB1一1)
Logistic迴驕診斷D
2S3
/ TITLE = ’E. DFBETA 1 vs Case Number Index’. GRAPH z LINE (SIMPLE) = VALUE (DFB2_1) / TITLE = T. DFBETA2 vs Case Number Index’.
GRAPH
/ LINE (SIMPLE) = VALUE (DFB3_1)
/ TITLE = ’G. DFBETA3 vs Case Number Index’. GRAPH
/ LINE (SIMPLE) = VALUE(LEV_1) / TITLE = ’H. leverage vs Case Number Index’. GRAPH / LINE (SIMPLE) = VALUE ( COO_1 )
/ TITLE = *1. Cooks Distance vs Case Number Index\
透過上面的SPSS的LOGISTIC REGRESSION程序,各種診斷統計 指標被計算出來 ,並在原始資料中存為新的變數。注意,在SAVE指
令之後設定的一系列變數名(如 :COOK LEVER DFBETA RESID LRESID SRESID ZRESID DEV)不同於程序内部使用的變數名(如:
RES_1 LRE_1 SRE_1 ZRE_1 DEV_1 COO_1 LEV_1 DFB(s)_l)。應用 SPSS的GRAPH程序,我們可以輕鬆地得到診斷統計圖(見圖7.1a至
圖 7.1i)。
254
D Logistic迴歸模型--- 方法及應用
IEnp!s3
2o
3zfpJEPUss nJE>
ol -a
«L>
圖
7
1o
o
- 1o
7 01 65 1
801 1
1 Sr
95
Case Number
1a
Pearson殘差與案例數量指數的比較
301
201
101 151
251
501
401
351
451
601 551
651
701 751
801
901 851
951
Case Number
圖了. 1b
Deviance殘差與案例數量指數的比較
Logistic迴歸診斷□
4
3
JEnpISoy P3zpu3pms
nl >
c y
.01 0.00
Q
-.01
-.02 1
201
101
51
151
301 251
351
401
451
501
551
601 651
701 751
801 851
Case Number
圖7. Id
DFBETAO與案例數量指數的比較
901 951
255
256
□ Logistic迴歸模型----方法及應用
a w Q N
u-19 J .oJ 2 3 £ Q 3 n J E >
Case Number
圖了. 1e
DFBETA1與案例數量指數的比較
6 .0 .0 .0 .0.0 4
H U S A W N S J
2
.0 0
2
csJ o a Q o n l E A
4
51
151
351
551
95
圖
Case Number
7 1f
DFBETA2與案例數量指數的比較
Chapter Logistic 迴歸診斷□
.004 .002'
2 9 0.000' Z V -.002' U-1W
J .oJ 5
Q->q J Q
-.006.
-.008-.010«
-.012
101 51
201
151
501
401
301 251
351
451
701
601 551
651
801
751
901
851
951
Case Number
圖7. 1g
DFBETA3與案例數量指數的比較
Case Number
圖7. 1h槓桿度與案例數量指數的比較
257
258 □
Logistic迴歸模型— —方法及應用
一
Qs/>loou3nlE>
101
1
51
201
151
401
301
251
351
501 451
701
601 551
651
901
801
751
851
951
Case Number
圖7. 1 i
Cooks距離與案例數量指數的比較
SAS的PROC GPLOT程序也能夠提供高品質的標註圖,然而它的 應用不像SPSS那樣簡單容易。下列SAS程序將按案例序號指數對
Pearson殘差作圖。 *SAS PROGRAM: REGRESSION DIAGNOSTIC INDEX PLOTS. PROC LOGISTIC DESCENDING ; MODEL COLLEGE = GENDER KEYSCH MEANGR
/ AGGREGATE SCALE = NONE INFLUENCE ; OUTPUT OUT = RESOUT
RESCHI = RESCHI
RESDEV = RESDEV C = CCBAR = CBAR
DFBETAS = DFBETA0 DFBETA1 DFBETA2 DFBETA3 DIFDEV = DIFDEV DIFCHSQ = DIFCHSQ H = H;
Logistic迴歸診斷D
259
RUN;
DATA NEW; SET RESOUT; CASENO=_N_;
SYMBOL 1 LINE = 1 VALUE = PLUS HEIGHT = .75; AXIS 1 LABEL = (ANGLE = -90 ROTATE = 90 ’RESCHT );
AXIS2 LABEL = (’CASE NUMBER INDEX’);
PROC GPLOT;
PLOT RESCHI * CASENO= 1
/ VAXIS = AXIS1 HAXIS 二 AXIS2 FRAME; TITLE HEIGHT= 1.2 ’INDEX PLOT OF PEARSON RESIDUALS VS INDEX’ ; RUN ;
在上述SAS程序執行中,診斷指標被存為新變數,並被輸出到一
個名為RESOUT的新資料文件中。在複製這一SAS臨時資料以後,便 將案例序號賦值於新變數 CASENO,並透過執行PROC GPLOT程序對
應案例序號指數來標註Pearson殘差。至於其他指標的作圖也可以依
照同樣方法取得。由SAS的PROC GPLOT程序產生的統計圖可以按 多種格式的圖像文件輸出。 按照所有案例列表來檢查特異值和特殊影響案例在樣本規模很大 時只能提供大概訊息。儘管按案例序號指數(INDEX)作圖可以清楚
地顯示診斷統計的模式,但並不能確切顯示哪一個具體案例有問題。 一種簡單地辨識特異值和特殊影響案例的方法是 ,選擇Pearson殘差值 很大的案例,然後列印出它們的所有診斷指標再加以仔細檢查 。按照
Pearson殘差值進行選擇的優點在於,Pearson殘差值比Deviance殘差值
260
□ Logistic迴歸模型— —方法及應用
大,於是按Pearson殘差來看特異值案例便更為明顯。
將示範例題中Pearson殘差值小於-2或大於+2的案例選出,然後 列印所有的診斷指標及其案例序號指數 。下面的SAS和SPSS程序可
供選擇案例。 *SAS PROGRAM: SELECT OUTLIERS; PROC LOGISTIC DESCENDING;
MODEL COLLEGE = GENDER KEYSCH MEANGR
/ AGGREGATE SCALE=NONE INFLUENCE; OUTPUT OUT=RESOUT RESCHI=RESCHI
RESDEV=RESDEV C = C CBAR=CBAR
DFBETAS =DFBETA0 DFBETA1 DFBETA2 DFBETA3 DIFDEV = DIFDEV DIFCHISQ = DIFCHISQ H=H; RUN;
DATA NEW;
SET RESOUT; CASENO=_N_; IF RESCHI >2 OR RESCHK -2;
PROC PRINT ; VAR CASENO RESCHI RESDEVC CBAR DFBETAO DFBETA1 DFBETA2 DFBETA3 DIFDEV DIFCHSQ H ;
RUN ;
*SPSS PROGRAM : SELECT OUTLIERS.
COMPUTE FILTER_$= (ZRE_1 > 2 OR ZRE_1 < -2). FORMAT FILTER_$ (F1.0).
FILTER BY FILTER $.
Logistic迴歸診斷D
261
EXECUTE.
SET WIDTH =200.
LIST
VAR RES_1 LRE_1 SRE l ZRE_1 DEV_1 COO_1 LEV I DFB0_l DFB1_1 DFB2_1 DFB3_1
/ FORMAT = SINGLE NUMBERED.
在例題中有50個案例的Pearson殘差小於-2或大於+2。它們的
案例序號指數及診斷統計列在表7.5.2中。
如果我們將表7.5.3中所列的50例的事件測量值(即COLLEGE) 與模型預測值對比(即PEVENT),就會發現這些案例都是特異值。
也就是說,它們的實際測量值與模型預測值正好相反。這一比較請參 見表7.5.3。 看來,很高的Pearson殘差值可以符合於識別特異值。需要注意 的是,特異值並不一定是特殊影響案例 。在我們例題的這50個特異值
中沒有一個是槓桿點,因為它們的A,值都不高於2x(K+l)/«=0.008 (參 見表7.5.2)。第313號的殘差值最大(Pearson殘差為22.3668,Deviance
殘差為3.52623),並且其Cook距離值也比較大(Cook'sD = 0.15503); 但是它的槓桿度值並不太高(/z, = 0.00031),並且它對係數估計的影
響不太大。因為,SPSS估計的DFB(s)_l指標是有無某案例時估計係
數的差距,而第 313 號案例的DFB(s)_l 值(DFB0_l = 0.03904,DFB1_1 = -0.01871, DFB2_1 =-0.02014,
DFB3_l = -0.01107)與未刪除此案
例時的係數(見表2.5.2)相比很小。SAS對此案例估計的DEFBETA絕 對值相對於係數估計值也很小 。這些都顯示,這個案例對係數估計的
影響不大。然而,這一案例對模型擬合的影響不容忽視 ,因為它的 DIFDEV值很大,顯示如果它被刪除後,模型Deviance統計值會增加
262 □
Logistic迴歸模型— —方法及應用
12.5893。如果刪除這個案例,模型就能更好擬合,在這種情況下我們
應該怎麼辦?這個問題實際上就是我們如何處理特異值和特殊影響案
例的問題。其答案是,在實際研究中自動將特異值案例和特殊影響案 例刪除當然不是好的做法 ,儘管這樣做可以使模型擬合更好。這是因
為,刪除這些案例後,模型所根據的資料與原始資料有很大差別。經 常出現的問題是,特異值與槓桿點的發生是由於記錄、輸人、計算、
重新編碼等過程中發生的誤差所致。也可能它們確實是實際觀察中的 一些極端值。如果發現了特異值和槓桿點案例,研究者應當先檢查確
認相應測量資料中不是由於這些誤差所致。刪除一個觀測案例只能出 於這個案例不屬於研究總體的理由,並且如果可能,可以用一個修正
值來進行代替。
soo.o
6 1 8 S 0 .0 寸
£02000
o ls o o o
693S00
I05.Z.
S 6 .9 1 918 .5
£ 9173 O寸 C
S 6 3寸 安
II 寸
£60.0 1
is
Z寸 2 Tl 918 .5
lu s o . o
0 9 § 0 .0 寸寸一, 寸
812
0 1 5寸
£88 .8
38 「£ l
812
£60,91
889SO O
6 1 8 S 0 .0
o s o o .o
o s lo o o
1 0 §卜
£88 .8
寸
aS IH DJl Q
6
寸
寸 寸
83T
s o z /5 寸 寸 寸
U 0 9 寸. 寸 寸
寸
寸
S6r S9e
硪
6寸 9 寸
—
S 6 S 1 .0 89 09 1, 0 — 寸
寸
8§0091Z T0
7E800I Z .6 1 S .0 -
0寸 9
8^0.0IU60.0寸
寸
uoso^0.0—
£9SO O 9
寸
60.0-
§0110A9S00芒
699900-
一 寸 一
—
—
—
99£so-
卜
£9寸 5 寸
000.0-
699900— — 6寸 9
8 I8 S .0 e K S .O -
3SS096ZJ.0—
£ 8 5寸 0 . 0 寸
跻
lv s
蚕
寸寸
3!1S!6OI
运
IT
LZ
寸 6
寸
T G 6 9寸
6 £ 寸0
89 9C T3
寸
o a l, £
T
8180 8,1
9 £ 0 0 寸.
81
I
6£寸 0
66117
£寸167
3 6 l £7
£ I8 9 T
寸 £ 167
6 寸1 I £ T
P£6T
9 0 £ l0 T 寸
寸
8 3 § .0
P 6 1 0 .0
a6i
69£ 907
0寸 9 600
9 Z 2寸
§ 1 0 .0 el.o
8 6 2 .0
££8100
U 9i 89寸 £ 0.0
寸 云 一
寸 寸
运 寸
寸
寸一
1,0
00
3,0
911910
0 9 K 1 .0 寸卜
寸 8
寸
W
6.
1
P£6T
6
寸
6362
觸
96SLT
牖
IH 3 S S
9§0T
I§
6 9 L9 0 T
69 61 0.0 寸 8
締
寸
8寸 £ 寸一
目
.0
8 K 0 1 .0 —
9 U 1 0 .0
蕕
0.0
696100
10 9361,0
寸
ooel.o —
堪
寸
寸 o r o丨 S6600I
辨
l V I S J a O V IS J a
8160s—
瞰
敝
£8
s
17
£
8K
:
891
寸寸一
9U
611
01
901
寸
L6
6L
寸
Z
ln9 oo£
s
•
§
s
OO CN
-
OS O
2 e
SJVSJ
CQO
8
S 9 S
P T
~ n fin o
csl . g . £
S I
oo
A 3 Q S S
^
S
P T
2 1 1 .
S
7 |
7 8 , 1
S S T
0 §
6
oos e l T i
u
S T
S S S T
P O S T
5 6
00 ^
E § o e § . 0 S i l ®!
£ s 00
U I 2 7
0
S B O fc
S O
U S . 0 )
S K 6 . 1
I 7 S O i
0
0 1 , 0
§ s o s d o S
0 0
i s s . o 3
1
S3 S
S . 0
0 . 0
oo £
5
£ £
00 1
00 2
§ 6
l s . 0 S
s s o . o
.0
1 0 o
P 3 S . 0
8 S S O
9
00 0
§ 8 5 s . o 00 0
3 1 9 2 . 0 6
00 9
6
0 9 ooL s l 1 . . 0 o 00 0
6 9 S 5 0 2 0 £ 2
§
5 1 . 0 1
00 6
p s l . o § 2 . 0
8 2 0 B 2 . 0 -
o
§ s o -
00
s s l . o 00 0
s o o s . o -
S 6 S . 0 s s s . o S 6 S 0
£ s s . o -
s lr)s . o -
8 I 8 S O -
s s l . o >-
ool
s OO
s s . o s o
S3 s
s . o -
s , 0
s £ s P S . 0 -
•
• • £ lr> .
ln
, 9 2 g o
oor
p s . o -
£ 8
m
US
8 £.
3 S 8 s s
1 § .
o o
z s o o
9 2 2 S Y •
S 8 1 -
rMv l s H Q
QS
5 1 S T CM -+A
S 9 . 9 •
s l S 9 . 9 £ 1
1 5 9 .
S l K (N£ I o
> § J 5
a l
,
s s
S r
s s . g
.
•
8 2 2 0 0 oo s
oo t
oos l s o o 9 S S 0 0 o 6 OO9 s 9 s OOI S o 0 S o 0 0 0 S 6 S O O o s s o . o S 6 S 0 . 0
( 7 > ^ < § S J S d
263
Logistic迴歸診斷D
6SS00 寸
8 K ,寸
寸
08 6£ 1
5 a . ll
寸
T
08寸 9,£
9L36 寸
631^
寸 口
寸
Z.0 06T 卜
9§s 8S9T
寸
£
1003—
60800— Z .6 0 S 0 I £寸 3
£ £ o s .o
§ 6 8 s ,0
寸 0
E6 W 0. 0
£ 寸 8 1 0 .0
寸
寸
£8寸 0 0,0
Z 2 8 S .0
§.0
卜寸寸 寸
u n o .o 寸 8
£ 1 5 0 .0 0
8 10.0
寸寸
0
寸
s lo o 0寸 0
9 0 0 S .0
96S0
6 9 £ s ,0 寸
卜
£ 寸5
0.0
0.0
5 B 0 .0
6 寸0
二 61 0.0
^. £1 0. 0
83S.0
H 9 S .0
Z J U 0 .0
日
寸
7
617618.1
妥
寸 6 618.
一
1—
0 ^ 8 6 .1 -
6S100
0寸 5
8 6 S 0 .0 0 寸5 寸 0 . 0
寸
I8 0 S 7 691
寸
寸
£0 69 6 寸
0.0
0.0
165S0 寸
K 3 S .0
a o s .o
1 9 § .O
6S9S0 19 Z. S. 0-
寸
£ £ s o .o —
100
寸
IK S 0 -
—
寸
68690,0
311900
6 L 9 S .0
06S00寸
LO寸 O 0,0
0 0 — 0 £ § .0
—
969S0I
£610
寸
寸
00Z.90.0 寸一
0.0-
L96S0I 寸寸
0.0— —
0 0 — 6 9 £ 0 2 — £ K 9 I0 寸一 .0 一
寸
寸
U 910.0
£寸 £ 寸
0
寸
—
0,0—
0.0寸汔寸
—
$ 3 6 1 0 - 6 8 寸9
U 9 1 0 .0
SS100
£ 6 d .o
—
106S0S 9 I0 .0 6
寸 9 寸 8 寸寸
寸
寸
6 9 寸9 0 0 — 1KS0—
0,0—
运
£ K 9 0 .0 -
l l £9 0. 0
寸一
§.0 stro
寸
L96S0I
£1,0—
£0001 0 — 寸卜 0 . 0 -
—
1 IE S 0 -
0031,0-
6£lo060
日 8
寸
—
寸
10-
6 K 1 0 .0
£0寸 9 6£寸 6 一 .0-
—
15 60 1.0-
10010— 99U00-
S 2 I0 esuo-
0 9 6 U .0 -
£6£65寸0£1 1.0| 寸 £
3
寸寸
—
0 3 8 6 0 0 — 09 88 0,0
0
卜 寸
3
寸
寸
‘ 1
“
6SO8
寸
£ 1寸
0
0T
SIT-
EIST
8 9 S IT
寸
寸
§100
L06S0
910S0
£寸 £ 寸 0.0
寸一
寸
7
T
LL L
名
巨
—
Z\L
T-ez.
37
1寸 6
9 10T
寸
Z28
0 寸£ 一 Z
6 K 3 .寸
m
16寸 £
1寸 0
寸一寸 卜
寸
寸卜寸
寸寸 呀
r~
£ 3 § 0 .0 £寸 9 99 6 5
003S00 寸 8
3寸,
Z23SO O £08,0 1
U 6 S 0 .0 3E6S00 寸 寸 寸
9 £ e 寸.
寸一寸 £• £
£89 6
S9T £
寸寸
寸
I E 6 1 寸,
S 6 9 .S
6 £ s .寸 8 9 0 8寸
—
9寸£6.£
寸
56£.们
寸
§ •9
8Z/9
8kl 631.6
0 8 寸9 ,
269000
SL 06 00 .0
寸
08 18 00 ,0
916S00
寸
寸
969Y
S6S00 8 1 1 2 0 .0
6 L 8 S 0 .0
们寸
836.6
卜
169SO O
寸一 寸
g s rs
00-
9£9600-
6£寸 9
^0.09
寸
0 寸0 寸 0 , —0
O S
169
959
S6S7-
寸/5
L5
£ K 6 .T
浮
彳
寸
6 S 1 0 T I 90S
,
1 5 1 S 0 .0
986S00
8 1 0 .U
日 8
6 83,£ 寸
寸 £•£
00
8
00$
oo£ 9
§
9 S
OO
rq
cn roo
撇 ■ i
2
936S00
寸寸一 寸
0 9 3 寸.
1 6
00 9
.
7
1 7 |
OOZ T S 9
00 5
IU S 0 0 0 0 S 1 0 .0
. 7
T
?
w l OOK w w 0 -
OOL S T
9 s r £
o s . £
9 7
■
1
rq 00 3
oo . l
00 ,
2i s
T
£
s £ T -
s
oo£ 6
S OOL T 0 - 7
9 8
s
S
K
§ £ £ • 7
£ 0 £ 6
8 0
n
00 1
K
s
P 6 S 7 I
g
l p s . I -
2 6 , 1 |
S . 0
S . 0
3 S S . 0
2
2 -
2
L S O O
S I
8 Z J S O
L S 5 . 0
S 0 S . 0
p 6 i
i
s s o o s o s . o s o S 9 S . 0 8 S S O
9 S . 0
I S S . 0
s £ 2 , 0
S S . 0
CN r4O S S
oo l
3
l s p u s s . I oo. - l
6
0 0 0 0 o
S I
3 6
00 6
8 S . 0 r u o . o 6 0 6 5 . 0 s o o S I 0 0
s . o
oo css l o
S 6 S 0 0 . 0
00 5
m s . o
s 8 O L S O
s o
s . o
s o
r s . o s s o ■ s o O K
0
rqs
p o s . o s s . o
s i g . o 6 S S O S 9
S L S . 0
00 1
0 0
S . 0
0 0
u s , 0
g o
9 9 P S OOZ . . 0 S. 0 OO
8 9 C S . 0
S 3 S . 0 0 2
1 0 . 0 6 S 1 0 . 0 8 6 7 0 , 0
§ 3 . 0
2 5
0 1 6 S . 0
6
S 6 9 5
00 9
S 6 i 0 5 0
i 005 8 1 - , 0
9 6 S O O
oos . o -
US
S 6 S 2 . 0
s l e . 0 L
£
£ •
•
.
.
I
O S
9 2
0 S . 6 S
•
1 6 00. 9
0 0 0
•
S
P 6 S 0 . 0 S S O O
S I S 0 . 0
P
QS
OO. E •
US
6 2 Z . S
S 9
•
ln
3
0 S
•
P 6
S O O S . I I
£
P 6 S 0 . 0
s .
S 6
L K S 0 . 0 O 6 S O O
S 3 S O O
OO9 S 2
P
D Logistic迴歸模型一方法及應用 264
U00
6 io
136 00
83§
88 £I O
0
OHS
寸
寸
lo o s U810 1661 0
££ 610
suo 2010 8S 610
0
51610
—
£ s lo
9L 01 0
0 800
寸
09600
UO 寸
卜
9610
寸 8 610 9 寸0 1 0
10
寸
06s, 6S6S.
uso O s lo
8S0 寸
60
8180 8.1 目
69£90T 寸
寸
寸
08I
I
6 IT
a o 9T 基
81
£7
3618£T 6 1寸一
I§
6.
1
90U0T 「A3 a
給
6Z4S7 0寸 6
寸
寸
8 £ 8 寸0
T
969s. I
s
寸 寸 0 1 8 9 9 S 3 卜8 9 Z S T
卜
T
—
寸 0
soo
寸
K8S 90 91 0
8S0 日
9SST
91S0
91 95S0
862
m oo Is o o
§00 8
寸
lo o s .
uso
£9SO
寸
£3SO
610.
Oso
S9§. 寸 8
寸
£9SO
6
1
£8es.
86S0
69 61 0
9ZZS.
38S0
9U10
寸一
§§0
辨
6卜 9 907
90U0T 856UT
卜
〈1610
l§ 0 136 10
8£os.
so.
69 61 0
瞰
「0 0 3
呀寸寸
86S0 「
soo.
鲽
I
£soo 寸
£9 10 0
—
-
6
寸
09600 00110
P600 P600 136 00
—
80 00 , — 66 £0 0
00
—
£a
gsJHOJ
£s 9st
6 1 6 S .I 寸
寸 寸
8C7 317
p 9 l£ T 6£寸 3一 3
09107
寸
823.5
l§ 6 1 l-
0£6寸 £
寸
—
Z26Z/9
o£Kno ls £ 9 Y £
寸
Z26Z/9
0 寸6 寸, £ I
018 90,1 1
寸
0寸 0 寸 6 995寸 6
寸
995寸 6
.6
.6
寸一
寸 一 一
98.6
寸
寸 一 一
0£6寸 £
£
0 1 .9
I9 0 L 0 7
癸
Mg^
00S8
寸寸
6
■ 88
L99S6
10866
0 696
寸
S606
68ZS
6寸 9
OOSS
656
6寸 9 68
831£6
S868
£1898
819S
£1 898
29£6
芎
3RH
0 S 9 8 」寸
艺
寸 I寸
卜
2J. S
0 § 6 .l 卜
09
8 寸£
3!ls!60lsf
「 3THZ
團
9
LK61T 寸
167
17
寸
寸
■
6ns7 £ § 0 .寸 167
67
U89T
卜寸
9
0寸 6
9日 67
L I9 9 S 7
日
寸
魍
8寸 1
6 寸1
ss £
寸
083
eu
CNe e
£3 80 0
2100 90S0 £0 110
0寸 6 00
l§ 0 100
8£so
6 10 0
C900 0
寸一
寸
£soo 9£so 寸
6 10 0 £ 6 S O— 0寸100
0
寸一
—
二
886s
「0
甽 歆
891
寸寸 I
9£I
6H
901
寸
L6
6L
的
寸
SJSd 卜撇
cz)
O0
s
2
00
00
00 8
S I
00 0
6
6
00 6 8
OOI CN
rq
£
s
.
00 3
S
ln
S
8 6 U
3 9
£ 0 3
I
B n o
■
oo
«z
•
00 6 9
U 8
OO. 6
OO
00 9
oo . l
lnT oo . l
S T P 7 s s
.
• 00 ,
S O B
lr)6 Z 0 9 6 003 . T l .
6 Z S J 9 8 0 S 2J 1 IZ
S S
9
l£
1 2 1 1 6
9 S S S S T P T
OO
s s rqs 2 . £ r4 p £
0 S S 7
00 5
o l
T s
P
0 §
s
m
2
s £ s . l S G S )
00 lr)6 £ l T
s
s
£ s l o
fc ^
OS
m l §
s s o s
009 B § L s l o P 6 S
s oo3 §
oo3 § I s <
18 80 0, — 寸一 0 —
:
s s o s s o A s
S 3 6 5
P 9 S .
.7
s s o s o
s o
s § . 6 § . m s . 9 S S .
oos
OO1 0 ool 001 o 0 H s
£ s s ,
p
s o
6 S
Irl 6 5
S
2 S .
ool o
B
s .
B
J
a Q
0
lr>6
S
寸
「
麇
£
«r)§ .
o p o o 0 0
S 6
£
s
S
Ins s
000 0
5 S
o p o o 1
s
8 1 Q
( 7 > ^ ^ g s J S C I ^ ^ <
s o )
00
00 8
I I
I I
I
I
I I I I
I
s s o s s o 00
5 s o 1 (
265
Logistic迴歸診斷D
表7 5. 2所選案例的logistic迴歸診斷統計(選擇標準:Pearson殘差>+2或Pearson殘差<-2)(續) .87295
7.87083
2.03431
450
.92851
13.98893
2.29963
487
.90824
10.89817
2.18895
-.90095 -10.09561 -2.15437 -3.01589
506
2.03134
.02016
.00293
.02250
-.01881
-.00894
-.00149
3.60402
2.29707
.02901
.00223
.02577
-.01961
-.01088
-.00288
3.14614
2.18568
.02964
.00299
.00725
.01136
-.01253
-.00425
2.62123
-2.15040
.03369
.00369
.00552
-.00867
.00299
-.00469
2.65477
2.04225
.02228
.00315
.00606
.01076
-.01139
-.00345
574
一 .94046 -16.79504 -2.37909 -3.97430
-2.37532
.05006
.00316
.00739
-.00871
.00191
-.00604
578
-.87109 -7.75722 -2.02810 -2.59947
-2.02417
.02632
.00388
.00453
-.00855
.00349
-.00397
2.76990
2.07853
•02400
.00312
.00636
.01092
-.01169
-.00365
-.83969 -6.23773 -1.91724 -2.28861
-1.91343
.02084
.00396
.00370
-.00838
.00387
-.00335
547
.87574
589
8.04781
8.67236
.88469
593
2.04548
2.08178
599
.80231
5.05850
1.80350
2.01457
1.80059
.01313
.00322
.00416
.00958
-.00941
-.00219
626
.85862
7.07338
1.98708
2.46442
1.97805
.05562
.00907
-.00046
.01044
.03761
-.00400
652
一.82179 -5.61137 -1.86101 -2.14741
-1.85731
.01840
.00397
.00329
-.00827
.00403
-.00305
656
-.86125 -7.20716 -1.99140 -2.49142
一 1.98750
.02440
.00392
.00425
-.00850
.00362
-.00376
678
-.84255 -6.35123 -1.93075 -2.31327
-1.92284
.04413
•00818
.00970
-.00835
-.04374
-.00256
691
-.88257 -8.51544 -2.07696 -2.74143
-2.06972
.05261
.00695
.01109
-.00854
-.04647
-.00334
698
.83384
6.01826
1.89769
2.24015
1.89462
.01624
.00322
.00488
.01007
-.01019
-.00266
711
.91832
12.24262
2.24153
3.35300
2.23827
.03274
.00290
.00770
.01156
-.01294
-.00456
712
.91508
11.77532
2.22408
3.28258
2.22081
.03169
.00293
.00755
.01149
-.01281
-.00445
-.85610 -6.94916 -1.97295 -2.43909
-1.96907
.02348
•00393
.00411
755
-.00847
.00369
-.00336
757
.80896
5.23451
1.82243
2.05779
1.81949
.01371
.00323
.00431
•00968
-.00957
-.00228
766
.85605
6.94708
1.97208
2.43866
1.96892
.01909
.00320
.00547
.01043
一 .01080
-.00305
-.92147 -12.73430 -2.25971 -3.42554
-2.25579
.04083
.00347
.00639
-.00872
.00251
-.00531
1.81949
.01371
.00323
.00431
.00968
-.00957
-.00228
777
868
.80896
5.23451
1.82243
2.05779
.94719
18.93416
2.42835
4.23487
2.42527
.04562
.00254
.00932
.01220
-.01438
-.00567
-.82179 -5.61137 -1.86101 -2.14741
一 1.85731
.01840
.00397
.00329
-.00827
.00403
-.00305
1.85715
.01493
.00323
.00459
.00988
-.00988
-.00247
877
891 930
.82174
5.60976
2.14703
1.86016
瞠謅窳睢—— 266n L0gi stic
438
a a B
註:SAS提供的SDFBETA指標與SPSS提供的DFB(s)_l指標不同,前者是相對案例被刪除後係數估計的標準化變化,而後 者則是在同樣條件下係數估計本身的變化量。SPSS提供的學生化殘差(SREJ)和SAS提供的DITOEV都是相應案例刪 除後deviance統計量上的變化。然而,DIFDEV叫SRE_1)2。SAS的診斷指標DIFCHSQ定義為皮爾遜夕的變化(SAS Institutelnc. 1990)。但是例題的結果說明,DIFCHSQ的近似於Pearson殘差的平方。因此,這一指標實際上是重複指標。
5>
COLLEGE
1 0 0
睡騙 Logistic
PEVENT
•00
0 0
払 2
1 0 0
CASENO
•00
0 0
1 0 0
35
1.00
.00
•00
•00
•00
•00
1 0 0
65
1 0 0
.00
1 0 0
78
1 0 0
79
5 2
1 2
97
1.00
0 0
106
1 0 0
1.00
.00
•00
.00
.00
•00
•00
.00
•00
1.00
.00
.00
•00
.00
.00
.00
.00
1 0 0
1 0 0
119
136
1 0 0
.00
1 0 0
1.00
1 0 0
I t
168
1 0 0
218 235 25 4 280
1 0 0
313
332
.00
1. 00
1 0 0
375 387
392
1 0 0
1. 00
438
1. 00
1 0 0
私 18 払 19
50
.00
1. 00
.00
1 0 0
1 0 0
私
506
547 574 1 0 0
§
^'s
u
267
PPROB
.02 388
.13183
J6382
11 79 3
•
•5 138
•13183
•
10 13 8 06 87 2
.105 31
05 86 1 19 50 0
•
8202
10531
•
二
147 11
•
.07 435
.03 060
•S 035
•00199
•14711
.94 415
•11793
19S
.19 500
•
•12705
09176
•07149
.90 095
.94046
.12426
O 4 S
268 □
Logistic迴歸模型--- 方法及應用
表7. 5. 3所選案例的事件觀測結果與預測結果及預測事件機率 (續) 578
.00
1.00
.87109
589
1.00
.00
.11531
593
•00
1.00
.83969
599
1.00
.00
.19769
626
1.00
.00
.14138
652
•00
1.00
.82179
656
•00
1.00
.86125
678
.00
1.00
.84255
691
.00
1.00
.88257
698
1.00
.00
.16616
711
1.00
•00
.08168
712
1.00
•00
.08492
755
•00
1.00
.85610
757
1.00
.00
.19104
766
1.00
.00
.14395
777
.00
1.00
•92147
868
1.00
.00
• 19104
877
1.00
.00
.05281
891
.00
1.00
•82179
930
1.00
.00
.17826
註:COLLEGE-觀測事件;PEVENT-預測事件;PPROB-預測事件機率
Logistic迴臑的 碧代頼型及糲展
Probit模型
Logistic迴歸擴展於多分類反應變數
270
D Logistic迴歸模型— —方法及應用 前面各章都是介紹二元因變數的 logistic迴歸分析。在本章中,我
們將介紹以替代模型來分析二元因變數,並且將logistic迴歸分析由二 元因變數擴展為有三個或以上多分類的因變數 。我們先來介紹另一種
在分析二元因變數時廣為應用的統計模型— —probit模型,然後再介 紹應用有序的logistic迴歸模型(ordered ’也稱累積logistic迴歸模型
—cumulative logistic regression model)和多項 logit 模型(multinomial
logit model)來研究多分類反應變數。
8.1
Probit 艏型
在第1章1.3節曾經提到其他S型函數曲線也能滿足機率模型的要
求。其中一個十分有名的函數稱為累積常態分佈函數 (cumulative normal
distribution function ),據此我們可以建立一個稱為probit的機率模型。 本節簡要介紹應用 probit模型來分析二元反應變數,並示範如何應用
SAS和SPSS統計軟體來執行probit模型。
8 1. 1
Probit模型的對數概似函數
根據第一章第1.3節所述,在累積常態分佈函數假設條件下,事
件機率可以表述為:
P = P(y = 1 \x) =F(a+px)
8.1.1
Logistic迴歸的替代模型及擴展□
271
其中,F(«+脚)與/(z)分別為標準常態分佈z〜2V(0,l)的累積分佈 函數(CDF)與機率密度函數(PDF)。因為=
(cc+如),我們可以
用下列公式取得《+如的估計: F~\p)=a+I)x
8.1.2
其中,厂_1(;?)為累積標準常態分佈函數的反函數(the inverse of the standard normal cumulative distribution function ),它也稱為常態等價離差
(normal equivalent deviates, NORMITS > 也有的統計書上標為 N.E.D.) (Greene, 1990)。其實,它即為統計中常用的Z統計量。
如果說ln[7?/(l-/7)]為logistic迴歸模型的連結函數C link function ) '
⑻則為probit模型的連結函數,因此它是probit模型的實際因變數。 將式8.1.2中的;7代人式2.1.3,有對數概似函數:
LL=^{y lnF(a+^x)+(l —y) ln[l —F(a+^x)]}
8.1.3
式中的參數《和A及其它們的標準誤差可以透過在第2章中討論過的
最大概似法來估計。
8 1.2擬合probit示範模型 在本章中,我們仍用大學升學的例題來示範probit模型,並用SAS
和SPSS統計軟體分別對個案資料和匯總資料來擬合模型 。然後,將
取得的probit模型結果與前面各章討論相應的logistic迴歸模型進行比 較。與式2.5.1所示的logistic迴歸模型對應的probit模型為:
272
□ Logistic迴歸模型-方法及應用 F~l(p) = a+ 灼 GENDER+灼 KEYSCH + 灼 MEANGR
8.1.4
執行這個模型的SAS PROBIT程序如下:
*SAS PROGRAM : PROBIT MODEL USING INDIVIDUAL DATA;
COLLEGE2 = (COLLEGE = 0);
PROC SORT; BY GENDER KEYSCH MEANGR;
PROC PROBIT; CLASS COLLEGE2;
MODEL COLLEGE2 = GENDER KEYSCH MEANGR/ LACKFIT; RUN;
在SAS執行上述PROC PROBIT程序前,要求先對資料進行預
先處理,即必須先按模型中所有自變數值排序,否則程序將會得 到不同的擬合優度和自由度等統計結果。 注意,在SAS的PROC PROBIT程序中,CLASS指令用來定義分類
變數。當使用個案資料時,反應變數(這裡為COLLEGE2)必須列在
CLASS指令中;而用匯總資料作分析時 ,在SAS的PROC PROBIT程
序中需要兩個變數(即各分組中的事件頻數與案例數)來定義反應變 數,並且不再需要CLASS指令。我們將在稍後討論如何應用匯總資
料執行probit模型。 與 SAS 的 PROC LOGISTIC 程序一樣,SAS 的 PROC PROBIT 程序
的內定方式為將較小的反應變數序數值作為事件發生來進行擬合 。
在我們的示範模型中,反應變數取值1代表事件發生(即進入大 學),取值0代表事件未發生(即未進人大學)。為了估計自變數
Logistic迴歸的替代模型及擴展□
273
對事件發生機率的影響,而不是對非事件機率的影響 ,我們需要在 PROC PROBIT程序中將事件發生的觀測在程序執行當中作為排序較
小值對待(即事件發生的測量值在程序執行內部排序時排在事件 未發生的測量值之前 )。然而,SAS的PROC PROBIT程序並不包
含將反應變數值反過來由大到小排序的功能 (descending)。在上
述SAS程序指令中,我們形成了一個新的反應變數 COLLEGE2,
用0代表事件發生,用1代表事件未發生。這樣,便可以建立進人 大學的機率模型了。SAS指令語句「COLLEGE2= (COLLEGE = 0);」
形成一個虛擬變數,即當COLLEGE = 0時有COLLEGE2=1,當其他 情況下有COLLEGE2 = 0。
對於logistic迴歸模型,SAS輸出r Response Profile j表顯示觀察反
應值的內部序號(見表2.5.2)。對於probit模型,SAS輸出「Weighted
Frequency Counts for the Ordered Response Categories」(表 8.1.1)。注意 確認在表中「Level」欄下的第一行所列的反應值是事件發生的測量值
(在我們的例題中 COLLEGE2 = 0為事件發生的觀察值)。然而,這
個問題只是在使用個案資料作分析時才存在。對於分組資料,除事件 發生的測量值外 ,事件發生頻數也是SAS的PROC PROBIT程序要求
的訊息。因此,在編程時,不必鑑別反應變數的事件測量值。 用SAS程序執行probit模型的部分輸出結果列在表 8.1.1中。在SAS PROBIT程序的MODEL指令中設定LACKFIT備選指令可以產生共變
類型基礎上的擬合優度指標(皮爾遜Z2和L.R./2統計)。注意,當在
SAS PROBIT程序中設定LACK-FIT備選方式時,該程序會自動將資料 的共變異數矩陣乘以一異值因子(heterogeneityfaCtor=皮爾遜x2值除以
其自由度),以修正過離散問題。結果,係數估計的標準誤差便會增
大(見第7章第7.1節), 我們的示範模型中包括連續變數MEANGR,因而共變類型的數較
274
D Logistic迴歸模型— —方法及應用
大(412)。這樣,每一共變類型中的案例數 (即子總體規模)就很 小。在這種情況下,SAS PROBIT輸出的皮爾遜z2和L. R./2統計實際 上不再近似/分佈,因而既不能用來作檢驗模型的擬合優度指標,也
不能用來估計離散參數、修正過離散問題。應該說,表8.1.1中模型
估計的係數標準誤差是有偏的。 _______________ 表8 1.1
Probit模型的SAS部分輸出_______________
Weighted Frequency Counts for the Ordered Response Categories
Level
Count
0
335
1
665
Log Likelihood for NORMAL -422.7323269
Goodness-of-Fit Tests Statistic
Value
DF
Prob>Chi-Sq
Pearson
Chi-Square
2438.6443
408
0.0000
L. R.
Chi-Square
383.5337
408
0.8026
Response Levels :
2
Number of Covariate Values :
412
All variances and covariances have been multiplied by the heterogeneity factor
H= 5.9771. Variable
DF
Estimate
Std Err
INTERCPT
1
-0.9835244
0.207491
0.253029
GENDER
1
0.47820635
KEYSCH
1
0.52379985
0.341633
MEANGR
1
0.2385691
0.038683
Chi-Square
22.46831
Pr > Chi
0.0001
3.571813
0.0588
2.350779
0.1252
38.03628
0.0001
Logistic迴歸的替代模型及擴展□
275
我們也可以用SAS PROC LOGISTIC程序來執行probit模型。如以
下SAS程序所示,只要在該程序中加人LINK = PROBIT備選指令, PROC LOGISTIC便執行probit模型。程序中的備選指令SCALE = NONE
AGGREGATE提供皮爾遜和L. R./2統計量。 *SAS PROGRAM : RUN PROBIT MODEL IN SAS PROC LOGISITC;
PROC LOGISTIC DESCENDING;
MODEL COLLEGE = GENDER KEYSCH MEANGR
/ LINK=PROBIT SCALE = NONE AGGREGATE; RUN;
以上SAS程序的部分輸出列在表8.1.2中。在SAS PROC LOGISTIC 程序的内定方式下,資料的共變異數矩陣未乘以異值因子,因而,表 8.1.2中的係數標準誤差較表8.1.1中的小。
表8 1.2
Probit模型的部分輸出
(執行 SAS PROC LOGISTIC 程序) Response Profile Ordered
Total
Value
COLLEGE
Frequency
1
1
335
2
0
665
Deviance and Pearson Goodness-of-Fit Statistics Criterion
DF
Deviance
408
383.5337
0.9400
0.8026
Pearson
408
2438.4876
5.9767
ChiSq
276
D Logistic迴歸模型--表8. 1.2
方法及應用
Probit模型的部分輸出(續)
(執行 SAS PROC LOGISTIC 程序) Number of unique profiles : 412
Analysis of Maximum Likelihood Estimates
Standard
Estimate
Error
Chi-Square
Pr > ChiSq
Parameter
DF
Intercept
1
-0.9835
0.0857
131.6434