趨使一件計劃之外的事,產生點意外的火花,最快的方法之一,就是辦一個活動了。
當全世界(好吧,其實只有一小群人)都開始瘋狂談論 AI, Machine Learning 時, 而你發現你們家的基礎建設還很不足, 有很多 data pipeline, data engineering 的事沒做好, 根本無暇去想那個什麼 AI (stuff or buzzwords)之類的… 又或者,雖然你們做了一些 data analytics, 也開發了些所謂的 recommendation system, 但認真想想,其實都還離完全的商業目標有那麼一段距離…
KKStream / KKTV / KKV 很不巧的,剛好也在經歷上述的狀況。 雖然我們有老大哥 KKBOX 可以咨詢,但基本功還是得自己一步一步來。 最最基本也重要的任務:1)組織資料團隊;2)建立資料認知;3)執行資料工程。 都無法假它人之手。
我們在(永遠都會)人仰馬翻的日常業務裏頭,啟動了一個小活動。
KKV Data Game 17.05
-
人:所有 KKV 集團(KKStream + KKTV 2.0)的同事。
-
事:根據拿到的,過去一段時間 KKTV 用戶的看劇行為與資料,預測(猜)用戶接下來會看的劇。
-
時:05/04 - 05/11,僅僅一週。
-
地:透過 Kaggle in Class 來舉辦整個比賽。
-
物:使用 KKTV 的真實資料。
活動要求
- 保護你的資料。
- 每隊最多三人。
每隊最多兩個工程師。- 每隊每天最多能上傳預測十次。
- 分享你的想法,但請不要分享你的結果。
- 請在 Slack (#kkv_data_game) 上公開分享你的想法。
- 5/11 12:00 (挑戰 A) 結果上傳截止。
結果
- ~40% non-developers!
- 31 teams / 76 players.
- 69 unique users downloaded datasets 100 times (4.12G bandwidth).
- ~25 non-developers (40%) participated.
- 399 entries (submissions).
- 23 teams (63 players) got scores higher than naive scores ( > 0.10636).
- 15 teams (42 players) got scores higher than 0.2.
- 3 teams wrote descriptions for each submissions (like
git
commit). - 1 team achieved 0.15946 with Excel!
Retro
- 最後一個上午,稱霸一整週的冠軍團隊,居然被翻盤了!(冠軍隊看到被翻盤的一刻,在 slack 留下這麼一句話:「等等還有面試,我隊已認輸 XD」)
- Excel 隊(真的有一隊完全沒有工程師,只靠手邊拿得到的工具要來去處理上百萬筆的資料!)在 Kaggle 上頭,很努力地投稿了 20 次才成功第一次!(Excel 樞紐分析原來這麼厲害~)
- 有一隊派出 intern 專家,瘋狂試了 SVM, NN, HMM, random forest, …(還有別的嗎?)(後生可畏)(所以說,真的一開始的重點不在用了什麼演算法,而是你怎麼看待資料~)
- 關門前一刻,最後的一個小時,有多達 23 次的 submissions。(很明顯的,大家想試試最後翻盤,都想當黑馬~)
- 收集了不少各方人馬的想法與點子,Data Engineering & Analytics 團隊收獲滿滿。(其實這個才是這個活動的重點)
如果說,對於一個活在 21 世紀的 startup,最重要的是「人才」與「金援」的話, 那麼「資料」與「知識」就是讓我們可以推往科技發展的下一步,AI,的重要銀彈了。
可以用自家的 KKTIX 辦活動,感覺實在很不錯。
恭喜冠軍隊(好兇的黑馬!)。
恭喜點子王優勝隊伍。
Ok… this is just me thinking of something~