蘋果橘子經濟學(Freakonomics)被寫出來時,兩位作者可能還不曉得資料科學家是啥。 大概也沒想過,他們的這一本書,在 10 年後,是有機會成為資料工作者的第一本書。 一本一開始就想要顛覆你(想投入資料工作者行列的人)對資料怎麼看待的角度與觀點的書。 喔,對了!它除了有點怪誕以外,還挺詼諧的,是一本搭高鐵時可以看(完)的書。
書裏頭提到的一些問題討論與論述中,印象中很深刻的,列舉個幾點:
- 真正降低美國犯罪率的,可能是墮胎合法化的推動?!
- 誰說只有學生會作弊,美國小學老師可能會帶頭作弊?!
- 專業的房屋仲介,想的可不是幫你以更好的房價賣出?!
- 我們都知道父母希望小孩贏在起跑點是天性,但虎媽虎爸,也許沒你想像中的那麼幫助小孩?!
怎麼會有人把犯罪率的降低與墮胎合法化給牽聯在一塊兒呢? 而且更驚人的是,原來小學老師也是會在學生的成績上作弊的,而且還是有點驚人的作法。 然後呢,如果你是教育部會的長官,你又要怎麼抓出這些帶頭作弊的老師們呢? 另外還有,像是前一陣子不是流行虎媽虎爸嗎?但這本書裏頭單確想提出,在某些方面, 父母對於小孩未來的發展的影響力,是與平常認知有一些差距的。 像是書籍裏頭提到「常常唸書給小孩聽」與「小孩未來的發展」,可以說是幾乎沒有幫助的!
這真的是部很有意思的書,有點神奇,也可以說明為什麼它會是一本暢銷書籍。 但最重要的,不是(上述)書中談到的這些案例, 而是作者之一 Steven D. Levitt 剖析問題的手法與觀點。
書中開頭就提了個很有意思的論述:
兩個事件有關係,可能是看似正相關,或是負相關,但這可能只是表面的結果。 事實上,兩個事件的關係,是可以再更仔細的分類的。 一種是因果關係,一種則只是有相關。 大部分的時候,我們常常把後者當作前者來用,然後就下決定了。
舉個例子。 有一家麵包店,因為店長很跟得上時代,採用資料與數據的方式來協助做商業決策。 於是他把麵包店裏頭的客戶行為給盡可能記錄下來。 包括像是每小時的來客數;顧客類型:熟客或過路客;麵包銷路與類型的關係;… 然後幾個月後,看著數字,店長發現到:
「客戶的來客數 與 麵包銷售量 成正相關。」
雖然是個簡單到不行的結論,感覺很像是種常識, 但店長相信這個是經過數字驗證的,更有說服力。 於是站長結著就下了個下一季的目標:
「增加來客數。 因為來客數增加,銷量就會自然增加了。 所以我們來去發傳單,或是做麵包促銷方案,讓更多人來吧!」
很不幸的,他不管怎麼試,都沒有如他預期的「麵包銷售大量正成長」。
很有可能,他一開始就搞錯了。 來客數 與 銷售量 的確是有關係,但不是那麼絕對的因果關係,反而比較像是種相關性而已。 真正對銷售量造成影響的,其實是 熟客的再訪率。 而熟客為什麼會再訪呢? 可能是因為在熟客的下班時段,麵包剛好出爐,香氣四溢, 讓熟客們又想起來上週吃的麵包體驗,忍不住又想吃了。
資料科學家,或是資料工作者,或是 Data Analyst,Data Scientist。 這些人裏頭的其中幾位,最近推薦我去認真好好看看這本書。 因為我們發現,其實我們並沒有真的那麼懂得怎麼看待資料與數字。 我們更容易因為急於提出「看似有道理而且也可以立即有配套的執行方案的結論」,而誤用了數據。 所以,如果你也開始懷疑是不是 Growth Team 或是 Data Team 哪搞錯了,那你也可以先來讀讀這本書。 一方面當個消遣打發一下時間,另一方面重新思考一下你是不是打一開始就哪搞錯了?