深度學習
是一個很令人著迷的議題,至少對於那些投資者來說。這幾年深度學習如雨後春筍一般,冒出不少新創公司。很耐人尋味的是,有多少科技商品是深度學習的產物?我也不清楚。深度學習到底是什麼?因為我不是這方面的專家,所以Google了很久,找了一些資料,終於稍微看懂了一些端倪,但也看到危機。我所謂的危機,不是指電影情節說的,AI機器人殺人這種故事,而是這些新創公司的存活危機。
從技術的角度來解說深度學習會令人打瞌睡。但要讓人理解深度學習真的很難,尤其是想說服投資者,最好不要講得太明白,免得被發現這只是一場夢。說到這裡,好像我很不看好深度學習?其實不是,而是擔心這些新創公司走偏了。
人工智慧分為兩個領域,至少在古典人工智慧領域是分為兩類:一是專家系統,二是統計方法。所謂的專家系統,就是利用人工分析資料建立路徑。而統計方法則是利用數據分析找到路徑。這裡的路徑也包含關聯性。
舉例來說,從醫院病歷分析得到「養貓的人得到心臟病的比率偏高」,因為從資料分析看到養貓與心臟病有正相關。但這個結論無法推論養貓的人造成心臟病。因為分析的統計資料並沒有因果關係,而是正相關而已。但是在分析這些資料以前,並不知道養貓與心臟病有關。
所以「統計方法」基本上就是目前最夯的議題「大數據分析」。
那麼,深度學習是什麼?既然也是人工智慧的一種,是屬於專家系統?或是統計方法?這得從深度學習的原始發展談起。
深度學習跟CNN脫離不了關係,基本理論就是利用大數據找到規則(路徑),然後把新的資料依照路徑走完得到推論。例如,把人分為男/女兩個大類,把男人的特徵整理出來,女人的特徵整理出來。當一個新的目標出現,我們根據這些特徵來判定目標是男是女,這就是深度學習的基本精神。只不過,在現實社會,需要被判定的目標可能很複雜,例如一張照片裡的男女與一段敘述形容的男女大有不同。因此要用來學習的樣本也複雜,甚至數量需要很多,就變成用大數據來作為訓練學習樣本。理所當然跟大數據沾上邊了,所以深度學習就是統計方法。
事實上,談到深度學習CNN,幾乎都是指圖片而非數字或文字,這也是另一個有趣的地方。因為紙本上的文字本來就是圖片,只不過文字是已經切割好的圖片被規則化了,而真正的圖片則很複雜。因此,開發軟體來分析圖片難度特別高。而深度學習CNN就是利用圖形卡的GPU平行運算,來提高分析圖片的效能。為了讓圖形卡運算規則化,把圖形「分割」就能變成大數據分析的資料來源。也就是說,深度學習就是把圖形量化/切塊/文字化,模擬成文字的切割,模擬成一篇文章,然後就可以利用文字詞頻的原理,來找出「詞」。從圖片中找出一個「詞」,聽起來很玄吧?其目的就是讓電腦「看懂」一張照片。
如果看不懂這裡的解說,那就算了,不用太在意,因為我也不太懂!
2022/06/22