蘋果橘子經濟學(Freakonomics)被寫出來時,兩位作者可能還不曉得資料科學家是啥。
大概也沒想過,他們的這一本書,在 10 年後,是有機會成為資料工作者的第一本書。
一本一開始就想要顛覆你(想投入資料工作者行列的人)對資料怎麼看待的角度與觀點的書。
喔,對了!它除了有點怪誕以外,還挺詼諧的,是一本搭高鐵時可以看(完)的書。
書裏頭提到的一些問題討論與論述中,印象中很深刻的,列舉個幾點:
- 真正降低美國犯罪率的,可能是墮胎合法化的推動?!
- 誰說只有學生會作弊,美國小學老師可能會帶頭作弊?!
- 專業的房屋仲介,想的可不是幫你以更好的房價賣出?!
- 我們都知道父母希望小孩贏在起跑點是天性,但虎媽虎爸,也許沒你想像中的那麼幫助小孩?!
怎麼會有人把犯罪率的降低與墮胎合法化給牽聯在一塊兒呢?
而且更驚人的是,原來小學老師也是會在學生的成績上作弊的,而且還是有點驚人的作法。
然後呢,如果你是教育部會的長官,你又要怎麼抓出這些帶頭作弊的老師們呢?
另外還有,像是前一陣子不是流行虎媽虎爸嗎?但這本書裏頭單確想提出,在某些方面,
父母對於小孩未來的發展的影響力,是與平常認知有一些差距的。
像是書籍裏頭提到「常常唸書給小孩聽」與「小孩未來的發展」,可以說是幾乎沒有幫助的!
前幾天有一個新服務 Comet.ml 在 TechCrunch 下了個這樣的標題與介紹:
Comet.ml wants to do for machine learning what GitHub did for code
The service provides you with a dashboard that brings together the code
of your machine learning (ML) experiments and their results.
In addition, the service also allows you to optimize your models by
tweaking the hyperparameters of your experiments.
As you train your model, Comet tracks the results and provides you with a graph of your results,
but it also tracks your code changes and imports them
so that you can later compare all the different aspects of the various versions of your experiments.
大意是說,這個 Comet.ml 的服務,是被開發來給資料科學家用的服務。
它就像 GitHub 是給 developer 用的一樣,扮演著類似的功能,只是是特別對 model training 做一些特化。
所以它會把每次的建立模型的 1) 程式碼; 2) 參數; 3) 設計的模型; 4) 安裝了什麼 Python packages; 5) 模型練習的過程/成效/結果; 6) stdout; 7) 其它文字註解…
這幾項給通通存起來,方便日後回來校閱或比對。
更方便讓幾位資料科學家或演算法開發的工程師可以一起研究,有個依據。
一言以蔽之,
它是一個用來 紀錄 / 追蹤 / 比對 一個模型設計與開發的服務。
感覺挺有趣的,決定來試試看。
本著上次在公司裏頭鐵頭的 Data Team Workshop 的一些些印象,
加上它又有 repo,而且還是友善到不行的手把手 notebooks 型式,
很有機會可以拿來試驗一下這個 Comet.ml,即使我至今還沒完整看過 Tensorflow 或是 Keras 的文件或教學影片!
看來看去,就拿裏頭的 MNIST 來試好了。
用最簡單的兩個 Dense (Just your regular densely-connected NN layer) 做一個 model,
第一個 layer 的 output vector size 用 64,
第二個(最後一個) layer 的 output vector size 則是 10,設成與 MNIST 要分類的個數一樣。
丟下去跑一跑,在 Comet.ml 上跑出了這麼一個 Experiment。
在 Comet.ml 上頭,每一次的實驗,就叫一個 Experiment。
透過它 monkey patched 過後的 Keras,
一旦你開始執行你的程式做 training,
它就會開始自動紀錄你 model training 的整個過程,
它會自動幫你把每次 training step 的 (loss, accuracy) 給記下來,
然後最後(按官方文件的說法)自動上傳到 Comet.ml 平台。
也可以再自行加上呼叫幾個 log function 來特意把一些想記的參數給上傳上去。
這個是我第一次的 experiment 的程式碼。
相當的有意思,忍不住多把玩了幾下。
(結果就是睡到半夜四點醒來,還多下了一個 experiment XD)
2017.09,在那個平均氣溫 27~32 的盛夏台北,KKStream 辦公室有幾位來自 CNEX 的貴賓。
短短不到的兩個小時,立即的達成了共識:
雙方團隊在一週內,以最有效益的方式,在最小的範圍上,協力合作讓 CNEX × Giloo 紀實影音線上影展 上線。
因著這麼的一個合作會議,在這之後,我們有了個機會認識 Giloo 這個新興服務,
同時以接近第一人稱的角度看著它上線,一路到今天~
Giloo的命名,來自於閩南語「紀錄」的發音。
Giloo 的創立初衷是打造專屬於紀實影像的社群平台。
我們相信紀實影像與說故事的力量,如何從生產、觀看、流通與傳播等各個面向加大力道,
是 Giloo 所有企劃與產品的核心提問。
整個合作的需求與契機,緣由非常簡單:內容保護。
1998 年成立的 Streaming Media,是個專門報導影音串流相關資訊的媒體。
我們過去參加了三屆 Streaming Media West 以及一屆 Streaming Media East,就是這個單位主辦的。
按官方的介紹,Streaming Media (如今)有以下幾個目標:
- StreamingMedia.com / 經營 StreamingMedia.com;
- Exhibitions and conferences / 舉辦國際會議與辦展;
- Research and publications / 做深入的研究與報導。
台灣資料科學年會 2017 的議程已經放出來幾天了,一直到這兩天才稍為有空瞄一下議程。
在強力擁銷員 陳昇偉博士 的熱情邀約下,KKBOX 集團一口氣貢獻了四個不同面向的主題,
兩個主題與人工智慧相關,另外兩個主題比較偏向資料科學。
搭著有點熟悉又有點陌生的臺鐵電聯車,在帶著幾朵雲的一片藍空下,
做點小功課,先單純的記下幾位講者名單。
似乎第一輪感興趣的講者,教授/學者/教育家居多。挺好的 :)
就如同 Paul Graham 的 Hackers & Painters: Big Ideas from the Computer Age 裏頭說的,
「這是個對科技阿宅最棒的年代,只要夠 nerdy,夠有想法,夠有生意頭腦,那就去創業吧。」
今年五月,KKV (KKStream & KKTV) 內部執行了一個 KKV Data Game 17.05。
隨後的六月,毅然決定對外開放,搭上 PyCon Taiwan 2017 的順風車,辦了個 KKBOX Data Game 17.06。
主辦人之一的 @ironhead 寫了篇 blog:Stories of KKBOX Data Game 17.06。
而這一篇,打算以另一個觀點來聊聊這個 game 到底是怎麼樣的一個 game~
如果,我們把整個 KKBOX Data Game 17.06 當作一家 startup,會是怎麼樣的一回事?
趨使一件計劃之外的事,產生點意外的火花,最快的方法之一,就是辦一個活動了。
當全世界(好吧,其實只有一小群人)都開始瘋狂談論 AI, Machine Learning 時,
而你發現你們家的基礎建設還很不足,
有很多 data pipeline, data engineering 的事沒做好,
根本無暇去想那個什麼 AI (stuff or buzzwords)之類的…
又或者,雖然你們做了一些 data analytics,
也開發了些所謂的 recommendation system,
但認真想想,其實都還離完全的商業目標有那麼一段距離…
KKStream / KKTV / KKV 很不巧的,剛好也在經歷上述的狀況。
雖然我們有老大哥 KKBOX 可以咨詢,但基本功還是得自己一步一步來。
最最基本也重要的任務:1)組織資料團隊;2)建立資料認知;3)執行資料工程。
都無法假它人之手。
我們在(永遠都會)人仰馬翻的日常業務裏頭,啟動了一個小活動。
KKV Data Game 17.05
人:所有 KKV 集團(KKStream + KKTV 2.0)的同事。
事:根據拿到的,過去一段時間 KKTV 用戶的看劇行為與資料,預測(猜)用戶接下來會看的劇。
時:05/04 - 05/11,僅僅一週。
地:透過 Kaggle in Class 來舉辦整個比賽。
物:使用 KKTV 的真實資料。
今年三月,急就章的去了一趟 Google Cloud Next ‘17,
重新體驗了一下 Cloud Vision API,
順道玩玩別人拿它來做的小實驗。
這個在現場的 Vison API demo booth,
最多可以同時看到連續的三組被拍攝並上傳的照片與分析。
中間那組是我與我的同事 R 大 。
右邊那組是我的兩位同事 G 大 以及 iR 大 (i 大不能亂用…)。
右邊那組同事笑得可開心著的了~