--> WFU
  • 羅吉斯模型(Logistic Regression): 不說數字,只談直覺

    最近工作上常常用到羅吉斯回歸模型,想說很久沒寫工作相關文章了,突發奇想來總結一下心得。

    為什麼要學羅吉斯迴歸(Logistic Regression)?
    以前在上統計課的時候,課本都是從簡單迴歸、多元迴歸開始的,自然那些章節也最熟(其實是到學期末就不耐煩了)。然而真正在公司裡接觸到模型的時候,才知道羅吉斯迴歸的重要,為什麼呢? 總結一個字: 可以解決實務的需要。

    這就要從一般迴歸跟羅吉斯迴歸的用途說起了。最大的差異在於模型預測的東西不一樣,一般迴歸呢,預測的東西是可以數出來的,例如說我今天想要用降雨量去預測氣溫(可量化)、或是用消費去預測GDP(可量化)、或是用工作年資+性別去預測薪水(可量化),這些都是可以用一般迴歸去解決的問題。

    然而,在公司常常需要做的是用歷史的資訊,去預測一件事會不會發生。客人會不會回購?  借款的人會不會倒帳?   這個人會不會成交? 疾病會不會發生?   這些會不會的問題,是非常簡單暴力,也實務上急需快速解決的,而羅吉斯模型專門在解決這種需求,因此模型就產生他的價值。

    所以羅吉斯模型是怎麼運作的呢?
    所以模型怎麼判斷我剛剛所說那些「會不會」問題呢? 舉個例子回到我們一般生活的直覺,假設現在我要預測「明年柯南到底會不會繼續創作」,我的預測變數是「今年柯南電影票房」(推理: 電影票房越高、越不可能結局因為作者還要繼續賺錢,兩者呈現正向相關)。那麼如果我要表達更精準,我會說跟據我的資料預測,明年柯南大約有90%機率會繼續....(90%代表甚麼? 看你怎麼看)。

    這些會不會的問題,本質上都是機率的問題,或者說,模型給我們一個機率,然後我們再參考模型、搭配自己的經驗去判定到底「會不會」。

    這邊又再次加強反映了為什麼我們不能用線性回歸模型。以下圖來說,線性模型預估結果會跑出0~1之間的範圍,但是我們說機率,只會介於0~1之間阿,可見線性函數不合理。這時候如果我們把線性函數變形轉化為羅吉斯函數,將低於0/超過1的部分去除平滑化,帶入函數分配(sigmoid function),就可以合理產出介於0~1的預測機率。

    圖片可點擊放大


    然後呢? 是要怎麼運用?
    依照剛剛所說,每個預測個體都會產生一個機率值,再用這個機率值(p-hat)去做運算或判斷。以信用評分來做舉例,這個機率值可以轉化為每個人的信用評分,倒帳機率越高的人評等越低,反之則評等越高; 以行銷來說可以以機率值去做客群區隔,若是預測行銷機率高的客群就可以在實務上集中資源,達到行銷最佳效果(阿柯南這邊就不用判斷了啦柯南就是不會結局)

    實務上,很多統計軟體(SAS、SPSS、SASEM...)都可以直接下程式語言完成羅吉斯迴歸模型,所以做完這個模型不算難事,最難的仍為模型所產出結果,是否符合後續實務應用層面。

    有沒有甚麼誤區!?
    由於模型只是預測趨勢,不管任何模型都存在誤差,這時候我們必須要特別檢視這些誤差值的存在,如下圖所示,誤差分為型1誤差&型2誤差: 型1誤差是我們的模型預測有發生,但是實際上沒發生的; 型2誤差則是預測沒有發生,但實際卻發生了。

    以嚴重程度來說,型2誤差大於型1誤差,因為這塊代表被忽略掉的風險,例如我的模型是要預測是否發生感染風險以提前預防,型2誤差就是當下沒有預測到、沒有提前預防、但最後卻產生感染的病患。若誤差值過大,必須回到模型重新檢視變數,或思考是否有其他更好的變數可以減少誤差。


    如果我想要了解數學細節呢!?????
    你瘋了嗎阿不是,推薦參考以下連結:
    1.羅吉斯回歸的基本原理
    這個網誌很清楚的說明基本直覺跟數學原理,其中羅吉斯回歸的係數&勝算比如何解釋也有舉例,算是理解模型很有幫助的網站。
    2.你可能不知道的邏輯迴歸
    大鼻的統計網站,談到兩個我覺得很重要的背景知識: 為什麼是以機率而不是期望值?  為什麼要用最大概似法?
    3. 史丹佛大學機器學習上課筆記
    很清楚的用數學推演(演算法)說明羅吉斯函數與最大概似法的推演,介面清楚,睡不著時可以看一下XD。
    如果又更好的學習網站,也歡迎你推薦給我!

  • You might also like

    沒有留言:

    張貼留言