--> WFU
  • 衡量模型的標準(2): 簡單直覺的CAP 曲線(Cumulative Accuracy Profile Curve)

    如果說,所有衡量模型的統計數值要選一個最簡單好懂也好計算的,那麼我必定會先選CAP CURVE(Cumulative Accuracy Profile Curve)
    ,因為他真的蠻直覺的,計算的流程也不會像其他數值一樣繁瑣,連名字都蠻可愛的,像戴頂帽子一樣的統計量。

    先看看夜市怎麼射氣球
    先來看看怎麼用簡單的射氣球例子理解CAP CURVE。假設我在夜市人生玩一局射氣球,目標氣球總共5個,一共有10次射氣球的機會,那麼怎麼樣才能知道我氣球射的比其他人好呢?

    10次機會要射中5個氣球,假設大部分的人到最後都會射完5個氣球,直覺是越早射完5個氣球的人越厲害。

    於是我計算出下表,因為假設大部分人都在第10次射完5個氣球,代表我每射一次,必須至少有50%的擊中率,才有辦法高於平均! 所以我將總次數*50%得到隨機射中數,我只要在每局累積射中的數目,大致上高於隨機射中數,那麼最後我的擊中率不就有很大的機率高於平均嗎?

    例如,我射第6次時,理論上需要至少射中3個氣球(6*50%=3),才有機會超越大部分人的平均值,如果我如下表已經打中4個,那麼就代表我的水準是超過正常人了。

    假設是更厲害的高手,那搞不好我看他射到第5次,就已經射完全部5個氣球了,根本不需要等到第10次阿~

    回到CAP CURVE該怎麼理解?
    將剛剛射氣球的例子套回模型,假設我們要預測10個人中誰會倒帳,已知10位母體中有5個人倒帳,那麼我不用用模型,隨便用猜的就應該有50%的命中率,畢竟母體裡就有一半的人是倒帳的人啊!

    這就代表用模型的準確率必須高於50%,模型才具有說服力。根據羅吉斯模型每個人都會得出一個倒帳機率值,我將這10個人依據倒帳機率值從大到小排序,最有可能倒帳的排最前面,然後設定機率值50%以上就算打到。

    從下表中可以看到,第一筆預測99%倒帳機率的人其實沒倒帳,所以模型打中數是0,代表這筆被蠻嚴重的錯估了。但是第2筆到第5筆,模型預估的倒帳機率值都蠻高的,這些人也都確實有倒帳,因此這個模型在第6筆就準確抓完5個倒帳的人,遠高於第六筆的隨機值3個,模型準確率如同射氣球高手一樣,非常高!


    另一個極端的例子,在模型預測能力比較差的狀況,預測機率值高的前三筆都沒有倒帳,到第7筆時才抓到3筆倒帳的人,隨機機率是至少3筆,代表模型比隨便亂指都不如阿~


    實務上CAP CURVE該運用?
    因此,從以上的說明我們可以得知,預測打中數越接近隨機數,模型表現越差; 高於隨機數越多,則模型表現能力越好。繪製成圖形可以如下表,如果CAP CURVE越趨近隨機(紅色直線),代表模型預測能力越差; 反之,紫色的線代表在一開始就打到所有target,所以曲線越接近紫色的線則越好。
    實務上,在信用評分模型時常用CAP30判斷,意即當母體累積至30%時,模型到底抓住多少倒帳的客戶,假設CAP30為50%,那在設計評分等級時,則大概可以知道在前30%的評分等級中大約可以預測到50%的倒帳客戶,對於後續做策略時會有初步參考。

    同理,運用在行銷模型上,假設公司設有預算限制,只能行銷部分客戶,那麼我們可以根據CAP30/CAP50/CAP70來做成本效益評估。例如CAP50已經抓到80%的行銷成交客戶,CAP70雖可以提升成交比率到90%,但以成本考量並不划算,這時候最適的行銷名單便是模型預測前50%的客戶。理論上來說,只要把模型預測成交機率較高的前50%挑出來,對其做精準行銷,行銷的效率也會大大提升。

    沒想到如帽子般的CAP CURVE可以有如此大的應用,真是小兵立大功阿~~
  • You might also like

    2 則留言:

    1. 紫色線應該不能垂直 也不會觸及左上角的點 您可以看一下大部分人畫的CAP

      回覆刪除
      回覆
      1. 紫色線確實不可能有垂直情況出現,已更正,謝謝用心閱讀與指正。

        刪除