這次想來寫的是風險模型中期所進行的一個極為重要的工作:「分群」,當然又是回到線型模型,希望自己能將模型這一系列寫完順便複習整個過程啊(吶喊)~ 當然這一系列為了讓主題統一,一致以「偵探相關」來舉例好了XDD
廢話少說,切入正題。甚麼是分群、而我們又為甚麼要做分群? 先舉個例子好了,假設有偵探們想要建立一用模型初步去預測地區未來犯案可能性,已經蒐集了一批人的資料,選定幾個變數像是「過去犯罪案件數」、「居住地離犯罪集中區距離」、「年收入」、「職位別」等等這些變數,初步也做完資料清理了,那下一步呢?
我們可以將變數分成一群群的,例如說年收入分成(1)<=25萬元 (2) 25~50萬元 (3) 50~75萬元 (4) 75萬元以上(5)缺漏值,總共四群,這裡就衍生出幾個問題,為什麼我們需要把變數這樣分? 難道不能把變數直接放下去跑嗎? 還有我們怎麼決定要分成幾群的?
分群提供建立模型幾個優點:
1. 分群可以讓我們處理連續型變數裡的極端值、稀有值
變數裡面可能會有一些極端值我們想要做特別處理,或是想要將缺漏值另外分出來,讓模型把他們的權重分開來,分群就可以幫我們達成。
2.檢查變數分布狀況是否符合邏輯
分群之後,可以順便檢查變數的狀態,每個分群之內好人壞人的比例是怎麼樣? 有沒有一些違反邏輯直覺的,例如年收入高的群反而犯罪率高,這種又需要好好去探索一下資料內部的秘密與趨勢了。
3. 加入過往的經驗以及商業判斷
假設在偵探們過往經驗中,過去犯罪件數在「4」件以上的人犯罪機率就可能大幅增加,那4這個點就可納入模型的分群當中,機器跟演算法只能在數學上告訴我們該如何分群,但是我們也可以將真實世界的經驗、透過分群納入模型。也因此,分群過後的變數解釋性大幅提升,也就是我們可以將這個變數裡面所含的商業意涵解釋給別人聽。
上面所提的分群,可以透過統計軟體SAS EM直接完成,或是用人工手動自己分群,但接下來的問題是,我們怎麼衡量分群結果是可以區分出客群的呢?
分為四個部分寫有點複雜的分群概念
(1)ODD概念
(2)WOE的計算
(3)WOE的含意與判斷
(4)分群WOE必須符合趨勢
後面還有學習資源推薦啦~
如何評估分群有效(1) : ODDS的概念
ODDS計算範例 |
假設目標事件是一個行銷案是否獲得客戶回應,以寄送DM來說,回應客戶15個,回應比率=15/100=15%,而無回應的比率是85%,因此ODDS=15%/85%=17.65%;
以此類推,傳送簡訊的ODDS就是42.86%,而兩者的勝算比為42.86%/17.65%=2.43,該數值反映的並非是傳送簡訊回應比率較DM回應高出2.43倍,而是傳送簡訊的「勝算」比寄送DM的「勝算」高出2.43倍。
如何評估分群有效(2):WOE(Weight Of Evident)的計算
以下圖為例,小於20歲這個分群,好人占所有好人比例4.18%(=700/16,760),壞人占比9.26%(=300/3,240),所以WOE計算如下:
WOE=ln(好人佔所有好人比例/壞人佔所有壞人比例)*100=ln(4.18%/9.26%)*100=-79.62%
WOE計算範例 |
WOE=ln[(好人/所有好人樣本)/(壞人/所有壞人樣本)]*100= ln[(好人/壞人)/(所有好人樣本/所有壞人樣本)]*100
如何評估分群有效(3):WOE的含意與判斷
回到開頭的問題,該怎麼用WOE衡量分群結果?
首先,必須先注意每個分群分布比例不得少於5%,否則難以推論該分群相較於其他分群的意義。其次,每個分群也必須要有好人跟壞人,否則也算不出WOE的數值。
直覺理解,WOE計算每個分群中,好人與壞人比率的差別有多少,也因此,WOE數值越大,代表這個分群的好壞差距也就越大,若WOE如剛剛的例子為負值,則代表該分群的壞人區分出來的比好人要多。
而當兩個分群中間的WOE數值差距越大時,代表現在這樣分群能夠顯著的區分好壞客戶。WOE絕對數值很重要,但以模型分群的角度,各分群間WOE的差距值才是真的能判斷分群好壞的依據。
如何評估分群有效(4):分群的WOE必須符合趨勢
WOE除了檢視群與群之間的差異外,更要確認在每個變數的分群WOE符合趨勢,例如說我們的直覺是年齡低的客群會產生的壞人比率比較高,年齡高的客群好人比例比較多,那麼WOE應該是一個呈現由負到正的直線趨勢。
檢視WOE在每個變數的趨勢,也同時檢視該變數是否有我們之前未察覺不合理之處,或資料撈取有錯誤之取。
商業經驗及對產品的了解在這個步驟扮演非常重要的腳色,當WOE是U型,或是上上下下,即有可能代表我們需要重新解釋這個變數預測的合理性,並思考在經驗中這樣的狀況是否合理。
檢視WOE與分群趨勢更預防模型Overfitting及模型不穩定的狀況,因為若是資料數據趨勢有一些些改變,但已經分群的大趨勢並不會很敏感的跟著馬上改變。根據Naeem Siddiqi在Credit Risk Scorecards中提到:
The log-term application differentiate credit risk scorecard development from marketing models, which are often built for specific campaigns and then discarded.Therefore, one cannot afford to model quirks.
風險模型與行銷模型的差距在於行銷模型通常適用於特定行銷活動,很快就被替換,但風險模型必須要存在比較長的時間,因此較不能負擔不穩定的狀況。
後記。再寫分群與參考學習資源
分群的過程是建模中期非常重要的步驟,需要花費較久的時間檢視合理性,或者修改資料。但這過程就像是深入挖掘各個變數的秘密一樣,一但識破變數的秘密,找到適合的分群方式,整個模型建立的過程就像打了一劑強心針阿~
接下來寫寫這篇的參考資源
1. 為什麼都用勝算比而非相對風險呢?
這篇文章解釋了為什麼我們會計算比較不直覺的勝算比,而不計算直覺的相對風險,個人覺得衍生的很好啊~ 之前都沒有思考過這個點。
2.為什麼一個變數的預測能力看IV值而非WOE?
WOE可以用來判斷分群趨勢,但最終,一個變數是否預測能力還是會參考IV。這篇文章解釋了WOE與IV的詳細算法,並說明為何最後看一個變數預測能力是看IV而非WOE的原因,解釋相當詳細的網站~(實用推!!)。
如果有任何不同的想法,歡迎分享給我喔~ (點選以下fb圖示即可連結fb)
講得很清楚,謝謝
回覆刪除謝謝鼓勵。
刪除