回首頁
「服務他人是你住地球應該付出的租金。」– 穆罕默德‧阿里 (拳擊手)
"Service to others is the rent you pay for your room here on earth." -- Muhammad Ali, Boxer
文章搜尋
最新消息
英語島Newsletter
天天閱讀英語島,在這裡感知世界,汲取英文的養分。
 

直擊:我們與「資料科學家」的距離

「資料科學家」在美國連續三年被評為最好的 工作,九成資料科學家對工作感到滿意,其中近五成感到「極其快樂」。這門工作在做些什麼、怎麼進入?全球最大資料科學競賽平台 Kaggle的資料科學家,來自台灣的Wendy Kan,在專訪中告訴我們。 

Story 1 鯨魚的大頭照
全世界的北大西洋露脊鯨只剩不到500條了,美國國家海洋及大氣管理局的科學家正努力防止它們滅絕。為了追蹤鯨魚數量與現況,每天,科學家帶著一個實習生,搭乘直升機出海,拍攝鯨魚的照片,能拍多少是多少,然後回去一張張與現有照片庫比對,憑斑點、特徵辨識出特定鯨魚。這樣的過程耗時又耗力,他們想,Facebook能做人的臉部辨識,有沒有人能做鯨魚的臉部辨識? 資料科學平台Kaggle為他們設計 了一個比賽,看哪個團隊能設計出 辨識度最高的演算法。辨識並不容易:第一,鯨魚的長相會隨時間有 所改變,累積了好幾年的照片中, 同一隻鯨魚的長相也不盡相同;第 二,人臉辨識的照片,通常都是正 面,沒有什麼干擾,但鯨魚的照片除了受天候狀況影響,還受浪花影響。比賽設計者估計,辨識率最高大概50%~60%,結果,獲勝隊伍的辨識率高達90%。現在科學家將拍的照片傳到資料庫,系統就能自動比對出這是哪一隻鯨魚。 

Story 2 預測房價比房仲更準 
買房是一筆大金額,房市、房價資訊當然越準越好。美國知名房地產網路平台Zillow發起一百萬美金的比賽,徵求預測未來房價最準確的演算法。獲勝的三人團隊從4200多組參賽者中勝出,他們的算法結合了幾種複雜的機器學習技術,包括以深度神經網絡直接估計房價、刪除演算法中的異常數據點。他們也利用公開的外部數據,包括租金、通勤時間、房價,以及道路噪音等資訊等影響房價的資訊。Zillow本身的預測系統,結合獲勝團隊和其他參賽者的想法,可能使預測房價的準確度再提昇1300美元(約36萬台幣) 。
兩個案例的促成者,是全球最大的競賽平台KaggleKaggle為這些目標「出題」,開放全世界的資料科學家來解題,過去難以 達成的目標,因而能夠實現。我們訪問了Kaggle的資料科學家,也就是他們的考官,來自台灣的Wendy Kan認識資料科學家這門行業,它的可能性,以及初學者如何進入。 
*Kaggle是領先世界的資料科學家社群,2010年成立,2017Google宣布收購。Kaggle平台上,隨時有各種資料分析競賽進行中,由企業、研究機構或政府單位提出希望解決的問題、提供數據,交由參賽者解題。美國國土安全部曾提供一百五十萬美元獎金,希望提升機場安檢掃描的演算法準確度。 能吸引世界各地資料科學家參加,不只靠競賽獎金,也因為競賽本身沒有唯一的標準答案, 能激勵參賽者不斷追求最佳、最準確的分析預測方法。個人參加過的競賽、即時排名和歷史排名,都會秀出在Kaggle上,也是求職或申請學校時的參考指標。 

從巨量雜訊中,挖出關鍵訊息
這是一個應用層面很廣的行業,不論傳統工業或新科技如電子商務,都有非常多數據資料,其中有可以運用的資訊,也有你所不知道的資訊。資料科學家的工作就是找出這些模式、趨勢、你不知道的東西。重點是從資料裡面挖出有用的資訊,有用就是Actionable(可創造行動),不管是由此做出正確決策,或是讓電腦自動分析用戶。
舉個反例,「公司聘了一個Data Scientist,他就開始玩你的資料,開始分析,比如分析會員的資料,考試成績上升下降...然後就這樣。或者他說發現了bug,然後就修正這個bug。沒有什麼實質的貢獻。」(這些pattern怎麼找,機器就能幫我們找到嗎?現在有很 多工具能自動找到patternWendy認為,能找到當然很 好,但通常靠電腦工具找到的是初步的pattern,再進階 還是要靠直覺。)

工作現場
(除了前述兩個案例,)日常活動背後也有資料科學的工作。例如,零售網站收集分析線上購物資料,xSru 預測出可能懷孕的會員,發送嬰兒用品電子折價券給他們; 音樂平台Spotify分析你的音樂喜好,推薦個人化的歌曲、你可能感興趣的新音樂類型。或如新聞媒體從大量資料中讀出脈絡、以視覺化的方式呈現給讀者。 
資料科學家有很多種,大多數人,包括Wendy,屬於” generalist”,通才型,但假設一個資料科學家在藥廠工作了很 久,就會逐漸了解藥廠的領域知識(domain knowledge), 比如一個東西怎麼運作。懂越多domain knowledge,越快找到 pattern,因為了解運作過程,能夠判斷一件事是否正確。
KaggleWendy與不同客戶合作,了解他們的目標需求後, 取得需要的資料,設計競賽考題。例如設計圖像偵測的競賽, 假設一張照片裡有人、車,偵測的第一步是分析出圖中有什 麼,第二步是分析圖中物件的關係,例如人在車子內,「裡 面」、「人」、「車」等是否正確。很多人可以辨識出的細 節,電腦現在還沒辦法做到。可做到較好的程度,可能是「這 是影集『生活大爆炸(The Big Bang Theory)』」裡的場景、他們 在玩遊戲、某某人好像輸了。」
設計時,必須考慮現在要聚焦在哪一點,是物品間的關係,或是人物的情緒,是高興或生氣?要讓電腦去識別這些東西,最麻煩是每一個都要人工標示,很耗人力。假設要使用很多張影集場景去辨識一個人高不高興,或場景中發生的事,每一張都要人工去標正確答案,這是一個避不掉的工作。這些工作外包到中國或印度,每一張都是錢,訓練整個系統去辨識,至少要幾千、幾萬張甚至幾十萬張,加一加就是蠻大的投資。很多只有大公司有這個財力。
Wendy最享受的是工作中接觸不同的平台、產業,每一個題 目都不一樣,手上可能有三五個很不同的案子。Kaggle平台 之所以熱門,或許也是因為眾資料科學家們的好奇心,會想 「這個是產業是幹嘛的?讓我來看看。」 

好資料 髒資料
「有句話說Data Scientist 都花20% 的時間清理資料,80%的時間抱怨。」Wendy開玩笑說。這是資料科學家普遍得面對的困難。資料 亂,做任何分析都要花非常多的力氣整合、清理,比如資料可能存在 十個不同系統,或是會員的ID都不一樣,要整合就會很麻煩、很費人工。有些公司有十個系統就請十個人,就要互相溝通整合,此時如果沒有很龐大的投資或策略,不太可能全部整合在一起。也曾有合作對 象把各部門的資料併在一起給 Wendy,但格式、數值都不同,無 法比較,輸入這樣的資料不僅沒必要,還必須另花時間清理。
一個公司有沒有投資在這樣的基礎 建設,由這裡就看得出來,拿不拿得到需要的資料、拿到資料需要幾天,差別很大,有些公司甚至花幾個月到一年,才有辦法取得資料。 Airbnb則是在這塊做得相當好,有一個資料科學部門,部門有權限, 因此等於有中央處理的資料處理工具給不同的部門使用。

資料科學家=數理博士?
Wendy高中開始寫程式,自己課外鑽研、參加比賽。大學念電機,念訊號處理、影像處理,後來較往醫學方面走,但還是讀相關的機器學習。原本媽媽希望她念醫科,當時兩人還吵得很兇,沒想到後來還是走醫學工程。她認為電機系整體訓練是紮實的,有些東西現在還蠻實 用的,比如寫數學式子。
那麼要進入這行,一定要數學好、 理工科出身嗎?以Wendy來說雖有需要,但對其他想成為資料科學家的人則不盡然。對於統計需要有一 個大概念,但重點在於直覺好、腦筋快、會寫程式。寫程式是可以自學的,需要的協助技術,也都學得來。
「這一塊工作需要很多不同背景、 對不同主題有興趣的人,不應該是一樣,尤其不應該都是deep learning (深度學習)的人,這個就是追求 一個hype(趕流行)。各種不同的人都會一些基本的技術,對社會上的各種工作都會加分。」也有很多人念語言學出身,最後跑去做計算語言學。 

想進入業界,多往Open Data探索
此外,想在業界當一個資料科學家, Wendy建議到Kaggle或一些open data的平台做一些分析。近年來台灣推行開放政府,釋出政府政策資料,也是很好的資料取得管道。Data scientist入門最重要的是有 data,再來要自己去做一些覺得有趣的分析,這些都是磨練技術,累積作品的機會,有了作品就可以找工作。同時,不要寄望工作後會有許多好的資料,因為公司內的資料不見得好(開放平台的資料可能更好),可能要花很多時間在不那麼技術的層面,或者是溝通等等。 
看見自己喜歡的生活方式,自己有熱情、對自己有用、對別人也有用的東西,就會想要做給大家,這些東西可能成為創業點子,或被政府或其他企業看到。以一個剛入門的人來講,這可以創造出最大的影響。若是在公司從基層做起,想法需很多人買單、協助做出基礎設施,不見得很困難,但可能要花很多無謂的力氣;有了外頭累積的經驗和想法,進入到工作,就會比較得心應手。

給女生的話
Wendy說,希望更多女生加入資料科學的領域。以前公司小,團隊一男一女,現在團隊裡五、六個人都是白人男性,儘管自己已有些成績,不會感到威脅,偶爾卻也會想,他們之間是不是比較可以溝通、自己會不會被獨漏。遇到這樣的情形,不要覺得自己只有一個人,男生們也不是故意,他們沒有想太多,但女生身為少數,處在這種狀況就容易想太多,越想越偏激。一定要拋棄這個想法,跟大家好好相處。最好的狀況還是有越來越多女生進入工作場域。
來面試的一些女孩子曾對Wendy提到,知道 這個團隊已有一個較資深的女生,感覺很好。這也代表男女比例失衡到一定程度,會越來越難招到下一個女生,這是特別需要注意的事。「之前會表達說,我們再不招女生,會越來越難招,搞不好連我都待不下去 (笑)。」在更多女生加入之前,不要太氣餒,常常提醒身邊的人,沒有多樣性是不行的。Wendy說,她目前沒有很好的解決方法,但會告訴自己不要對這件事情生氣,沒什麼好生氣的,能夠做的就去做。大家一起加油。

 


本文摘錄自一張圖搞懂 動詞商學院 2019年07月號
訂閱雜誌

加入Line好友