Drake's Weblog

3 minute read

趨使一件計劃之外的事,產生點意外的火花,最快的方法之一,就是辦一個活動了。

當全世界(好吧,其實只有一小群人)都開始瘋狂談論 AI, Machine Learning 時, 而你發現你們家的基礎建設還很不足, 有很多 data pipeline, data engineering 的事沒做好, 根本無暇去想那個什麼 AI (stuff or buzzwords)之類的… 又或者,雖然你們做了一些 data analytics, 也開發了些所謂的 recommendation system, 但認真想想,其實都還離完全的商業目標有那麼一段距離…

KKStream / KKTV / KKV 很不巧的,剛好也在經歷上述的狀況。 雖然我們有老大哥 KKBOX 可以咨詢,但基本功還是得自己一步一步來。 最最基本也重要的任務:1)組織資料團隊;2)建立資料認知;3)執行資料工程。 都無法假它人之手。

我們在(永遠都會)人仰馬翻的日常業務裏頭,啟動了一個小活動。

KKV Data Game 17.05

  • 人:所有 KKV 集團(KKStream + KKTV 2.0)的同事。

  • 事:根據拿到的,過去一段時間 KKTV 用戶的看劇行為與資料,預測(猜)用戶接下來會看的劇。

  • 時:05/04 - 05/11,僅僅一週。

  • 地:透過 Kaggle in Class 來舉辦整個比賽。

  • 物:使用 KKTV 的真實資料。

活動要求

  • 保護你的資料。
  • 每隊最多三人。
  • 每隊最多兩個工程師。
  • 每隊每天最多能上傳預測十次。
  • 分享你的想法,但請不要分享你的結果。
  • 請在 Slack (#kkv_data_game) 上公開分享你的想法。
  • 5/11 12:00 (挑戰 A) 結果上傳截止。

結果

  • ~40% non-developers!
  • 31 teams / 76 players.
  • 69 unique users downloaded datasets 100 times (4.12G bandwidth).
  • ~25 non-developers (40%) participated.
  • 399 entries (submissions).
  • 23 teams (63 players) got scores higher than naive scores ( > 0.10636).
  • 15 teams (42 players) got scores higher than 0.2.
  • 3 teams wrote descriptions for each submissions (like git commit).
  • 1 team achieved 0.15946 with Excel!

Retro

  • 最後一個上午,稱霸一整週的冠軍團隊,居然被翻盤了!(冠軍隊看到被翻盤的一刻,在 slack 留下這麼一句話:「等等還有面試,我隊已認輸 XD」)
  • Excel 隊(真的有一隊完全沒有工程師,只靠手邊拿得到的工具要來去處理上百萬筆的資料!)在 Kaggle 上頭,很努力地投稿了 20 次才成功第一次!(Excel 樞紐分析原來這麼厲害~)
  • 有一隊派出 intern 專家,瘋狂試了 SVM, NN, HMM, random forest, …(還有別的嗎?)(後生可畏)(所以說,真的一開始的重點不在用了什麼演算法,而是你怎麼看待資料~)
  • 關門前一刻,最後的一個小時,有多達 23 次的 submissions。(很明顯的,大家想試試最後翻盤,都想當黑馬~)
  • 收集了不少各方人馬的想法與點子,Data Engineering & Analytics 團隊收獲滿滿。(其實這個才是這個活動的重點)

如果說,對於一個活在 21 世紀的 startup,最重要的是「人才」與「金援」的話, 那麼「資料」與「知識」就是讓我們可以推往科技發展的下一步,AI,的重要銀彈了。

可以用自家的 KKTIX 辦活動,感覺實在很不錯。

恭喜冠軍隊(好兇的黑馬!)。

恭喜點子王優勝隊伍。

Ok… this is just me thinking of something~

comments powered by Disqus

Recent posts

Categories

About

You're looking at Drake's words or statements. All opinions are my own.