Drake's Weblog

2 minute read

一個多禮拜前,Andrej Karpathy 發佈了一則 tweet, 它的開頭是這麼寫的:

The ongoing consolidation in AI is incredible.
When I started ~decade ago vision, speech, natural language, reinforcement learning, etc. were completely separate; You couldn’t read papers across areas - the approaches were completely different, often not even ML based. ~tweet

AI,正在朝向一個大一統的方向前進。

大約十多年前,當我開始投入做研究時, 電腦視覺,電腦語音,自然語言,強化學習…等這些領域, 還處於彼此很不一樣的時候。 就是說,你不太容易讀到同時跨這些領域的研究論文。 大部分的時候,每個領域的研究人員提出來的研究方法與演算法,都非常不同。 而且,也幾乎很少有基於幾器學習的研究論文被應用在這些領域。

2010 之後,這些領域開始有了一些變化, 開始往機器學習靠攏。 或是更精確的說,是向類神經網路靠攏。 那時的研究論文所提出來的系統架構還是不同的, 但隨著時間的推進,它們愈來愈相像:

  1. 都開始使用愈來愈大的資料集來做訓練;
  2. 愈來愈專注在怎麼優化底層的類神經網路。

但就在差不多兩年前開始,很驚人的進展發生了。 這些跨領域的研究論文,它們的系統架構愈來愈像了。 像是不少論文,可能就是一個大約只要 200 多行基於 PyTorch 的程式碼寫成的一隻 Transformer, 然後在一些小地方有點不同,就這樣而已。 就發了一篇論文了。

這樣基於很類似的 PyTorch 寫成的系統, 你可以餵它一連串的文字,一連串的圖片,一連串的語音檔, 或甚至是一連串的 finite state machine states。 你可以餵進任何形式的資料,然後訓練它,然後就得出一套可以解決某個領域的系統了。

做研究,不論你要解決的是哪個領域的哪個問題,突然,變得簡單了。

電腦視覺主要任務及標註方式。 (a)原始影像/影像分類, (b)物件偵測/定位, (c)語義分割, (d)實例分割, (e)全景分割, (f)人體骨架/關鍵點。[1] [2] (OmniXRI Oct. 2020整理繪製) (出處)

拿電腦視覺為例。 在機器學習氾濫之前,電腦視覺要解的問題,像是 圖像分類 (classification), 物件徵測 (detection),物件分割 (segmentation),物件生成 (generation),…等, 都需要不同的方法與技巧。 但現在,它們幾乎變成是一樣的問題了: 只要餵資料給你的類神經網路,然後訓練,然後微調,等到出現滿意的結果。

不同領域的研究,彼此使用的方法愈來愈像,開始彼此靠攏了。

comments powered by Disqus

Recent posts

Categories

About

You're looking at Drake's words or statements. All opinions are my own.