關於 KKV Data Game 17.05 的兩三件事

May 23 2017

kkbox

趨使一件計劃之外的事,產生點意外的火花,最快的方法之一,就是辦一個活動了。

當全世界(好吧,其實只有一小群人)都開始瘋狂談論 AI, Machine Learning 時, 而你發現你們家的基礎建設還很不足, 有很多 data pipeline, data engineering 的事沒做好, 根本無暇去想那個什麼 AI (stuff or buzzwords)之類的… 又或者,雖然你們做了一些 data analytics, 也開發了些所謂的 recommendation system, 但認真想想,其實都還離完全的商業目標有那麼一段距離…

KKStream / KKTV / KKV 很不巧的,剛好也在經歷上述的狀況。 雖然我們有老大哥 KKBOX 可以咨詢,但基本功還是得自己一步一步來。 最最基本也重要的任務:1)組織資料團隊;2)建立資料認知;3)執行資料工程。 都無法假它人之手。

我們在(永遠都會)人仰馬翻的日常業務裏頭,啟動了一個小活動。

KKV Data Game 17.05

  • 人:所有 KKV 集團(KKStream + KKTV 2.0)的同事。
  • 事:根據拿到的,過去一段時間 KKTV 用戶的看劇行為與資料,預測(猜)用戶接下來會看的劇。
  • 時:05/04 - 05/11,僅僅一週。
  • 地:透過 Kaggle in Class 來舉辦整個比賽。
  • 物:使用 KKTV 的真實資料。

活動要求

  • 保護你的資料。
  • 每隊最多三人。
  • 每隊最多兩個工程師。
  • 每隊每天最多能上傳預測十次。
  • 分享你的想法,但請不要分享你的結果。
  • 請在 Slack (#kkv_data_game) 上公開分享你的想法。
  • 511 12:00 (挑戰 A) 結果上傳截止。

結果

  • ~40% non-developers!
  • 31 teams / 76 players.
  • 69 unique users downloaded datasets 100 times (4.12G bandwidth).
  • ~25 non-developers (40%) participated.
  • 399 entries (submissions).
  • 23 teams (63 players) got scores higher than naive scores ( > 0.10636).
  • 15 teams (42 players) got scores higher than 0.2.
  • 3 teams wrote descriptions for each submissions (like git commit).
  • 1 team achieved 0.15946 with Excel!

Retro

  • 最後一個上午,稱霸一整週的冠軍團隊,居然被翻盤了!(冠軍隊看到被翻盤的一刻,在 slack 留下這麼一句話:「等等還有面試,我隊已認輸 XD」)
  • Excel 隊(真的有一隊完全沒有工程師,只靠手邊拿得到的工具要來去處理上百萬筆的資料!)在 Kaggle 上頭,很努力地投稿了 20 次才成功第一次!(Excel 樞紐分析原來這麼厲害~)
  • 有一隊派出 intern 專家,瘋狂試了 SVM, NN, HMM, random forest, …(還有別的嗎?)(後生可畏)(所以說,真的一開始的重點不在用了什麼演算法,而是你怎麼看待資料~)
  • 關門前一刻,最後的一個小時,有多達 23 次的 submissions。(很明顯的,大家想試試最後翻盤,都想當黑馬~)
  • 收集了不少各方人馬的想法與點子,Data Engineering & Analytics 團隊收獲滿滿。(其實這個才是這個活動的重點)

如果說,對於一個活在 21 世紀的 startup,最重要的是「人才」與「金援」的話, 那麼「資料」與「知識」就是讓我們可以推往科技發展的下一步,AI,的重要銀彈了。

可以用自家的 KKTIX 辦活動,感覺實在很不錯。

恭喜冠軍隊(好兇的黑馬!)。

恭喜點子王優勝隊伍。

Ok… this is just me thinking of something~

comments powered by Disqus