活動主辦單位:Taiwan Data Science Meetup 台灣資料科學社群
維元擅長網站開發與資料科學的雙棲工程師,熟悉的語言是 Python 跟 JavaScript。同時也是程式社群 JSDC 核心成員及 資料科學家的 12 心法課 發起人,擁有多次國內大型技術會議講者經驗,持續在不同的平台發表對 #資料科學、 #網頁開發 或 #軟體職涯 相關的分享。
📍報名課程: https://pse.is/3bu4qh
📍粉絲專頁: https://pse.is/3cazqk
** 『什麼是資料科學』**
資料科學就是從資料中提取有價值的部分,簡單來說,資料科學就是從資料中找關係的一種方法,但從資料找關係並不是很新的學問,但為什麼資料科學會突然爆紅呢?主要是因為過去兩次產業界的發展:工業3.0 (數位化、電腦的出現) 以及工業4.0 (智慧化、網路的出現)。過去這十年來,從雲端、物聯網到機器學習、人工智慧,這是一個從硬體到軟體、軟體到應用的發展過程。
** 『資料科學的學派』**
資料科學分成兩個流派,第一個是統計學、第二個是資料探勘,統計分析是利用現有資料的樣本來去解釋現有資料的母體,而資料探勘著重在找出資料背後隱含的關聯、關係,除了統計學與資料探勘以外,我們也常來機器學習來和兩者做比較,機器學習則是強調如何利用現有資料來預測未來資料。這三種都是從資料找關係,只是他們想找出關係不一樣。
統計是在電腦還沒發明前,在數學底下的一門學科,機器學習從電腦出現以後,在人工智慧這個領域底下的方法,資料探勘則是從電腦科學領域的資料庫發展出來的。資料科學並不是一個新的方法,它有趣的地方在於它可以實現很多不同的可能性。
** 『資料科學 + X = ∞』**
資料科學本身是一種方法,X指得是某個領域,唯有把資料科學套用在某個領域才能創造無限大的價值。其實統計學也是如此,大家慢慢將統計應用到不同領域,像是文字探勘、心理統計、計量經濟、流行病學、社會調查等等,講者認為資料科學也是如此,資料科學會被慢慢應用到各個領域,最後成為人人都需要的一個解決問題的方法。
** 『資料科學是一種跨領域的能力』**
資料科學是一種跨領域的方法論,其包含電腦科學、數學、統計學等等,簡單來說如果只有一種專業,你很難成為一個很好的資料科學家。如果有某一個領域的專業,再加上資料科學的方法,把這兩件事情結合後,才能發揮最大的效力。
以下是不同的圖表,從不同角度去解說資料科學所需要的技能,不同的圖都說明了資料科學是一種跨領域的能力。這看起來很困難,因為你需要學習很多技能,但這也是一個契機,因為要學習都東西很多,所以你有很多不同的角度可以切入到資料科學,並不是只有理工背景的人當道,不同背景的人都有機會成為資料科學中的一份子。
** 『台灣資料科學產業』**
根據講者在台灣觀察產業的經驗,從2014火紅的Big Data,到2016 ALPHA GO開始帶動了後來這兩年Deep Learning、AI的出現,圖下方為各產業投入資料科學應用,從2016兩年,出現比較多資訊、電機的教授做有關分析、模型、電腦視學的題目,到了2018年開始有統計、商管、公部門的投入,最典型的例子就是有很多銀行開始建立關於資料科學的部門,2019後就有醫療、工程,還有新創公司開始強調AI,到了2020,發現有一些可能看似跟資料科學比較沒有相關的產業,也開始導入資料科學的方法。這讓我們知道資料科學已經開始像統計一樣被應用在各行各業。
** 『資料科學技能』**
資料科學是一種跨領域、綜合性的能力,簡單可以分成三種技能,包含程式 (技術力)、理論 (分析力)、應用 (應用力、商業力),把這三種技能對應到技術上的科目:
會感覺如果像成為資料科學家,這些技能都要點滿,非常遙遠、困難,但這也反映了沒有人可以在一畢業就把這些技能都點完,講者建議如果是剛到資料科學領域的人,可以先選擇一個自己比較喜歡的技能去出發。
** 『如何打造資料團隊』**
一位資料科學家需要技術、分析、實務應用、跨領域溝通的能力,所以在組成資料科學團隊時,並不是單由資料科學家所組成,而是由一、兩位資料科學家加上不同的資料科學工作者去滿足這些能力的需求,這些職缺可以分成以下三大類型:
分析師主要是利用現有的軟體、程式去幫助我們快速理解現有的資料,對於分析的複雜度 (寫程式、用進階模型) 相對較低,工程師利用程式的方法自動化得去產出資料、結果,科學家則是深入得去挖掘資料分析中看到的表面現象、去挖掘沒有注意到的事情、去挖掘一些資訊可以用來預測未來的模型。
許多公司會將分析跟工程拆成兩個團隊,分析團隊有統計、數學人去研究模型,然後再把模型包成模組交給工程團隊去使用,但如果中間遇到問題的話,該怎麼解決?常見的問題像是模型上線以後表現不好,模型表現不好有不同原因,可能會是流量或是訓練集資料出問題等等。
這種壁壘分明的方法會讓解決問題時存在模糊空間,講者認為這兩個團隊可以更靠近。第一種解法是在分析團隊加入工程職缺,分析團隊產出的東西就不是模組而是一個API,把系統也拉回到分析團隊裡。第二種解法是創造一個職缺 『機器學習工程師』,這個人會同時有模型跟工程的技術,更巧妙的把中間的洞把它補起來。
模型部署到上線可能也會有問題,像是模型要如何持續運營、迭代,要如何自動化部屬模型,這時候就會有『MLOps機器學習維運工程師』的角色出現。
講者認為資料科學相關的職涯發展是非線性的 (如下圖),資料分析師可以發展成資料工程師或者是商業分析師,資料工程師也可以走架構師、或者是ML工程師的職缺等等。黑色框框的部分是一些進入不同職缺會有的優勢,可能本來就會寫程式的人往資料工程師就會比較容易、本來會數學、統計的人往資料科學家發展會比較容易等等,只要找出自己適合的路,人人都可以成為資料科學家。
** 『資料專案工作流程』**
資料科學就是一個從資料到決策的過程,它在做的事情就是從資料中找出關係,資料專案的流程可以分為取得資料、資料前處理、模型訓練、模型評估、決策應用,這個流程並不是從左到右就結束,而是一個迭代、持續優化的過程。過去資料科學的討論可能只考慮到產出模型為止,但實際上有模型之後還會有下一步,像是如何上線模型、產出報、運用模型在大數據等等。
講者探討了以下三個挑戰與瓶頸:
1. 資料科學家學習者、入門者是否有隨著AI發展一起進化?
2. 機器學習模型的瓶頸及人工智慧寒冬來臨?
3. 近期大規模裁員,為什麼很多公司先裁做Data的?
資料科學有許多優點,也有挑戰跟困境,但這些挑戰帶來了更多機會跟可能性,只要你有心、選擇適合自己的路線,每個人都有機會成為資料科學家。
Q1 網頁開發跟資料科學雙棲給你最大的優勢是什麼?因為機器學習模型是要部署的,還要考慮到性能,你認為會網頁開發哪部分給你不同的優勢?
Q2 很少在台灣看到所謂機器學習工程師,請問這最後實現到產品上的的工作在台灣被分到哪一塊?
Q3 如果目前都沒有學過程式語言,要如何自學相關資料科學的內容,並成為資料科學家?
Q4 請問相關工作經驗對於資料分析師求職者重要或必要嗎?
Q5 目前擔任分析師,工作上沒有建模相關的經驗,想問如果想轉換成為資料科學家,在轉職前該如何準備?(例如作品集準備,面試技巧 等等) 。
Q6 如果對於模型沒有興趣,但對於資料處理及資料分析和視覺化很有興趣,也可以成為資料科學家嗎?或是有更好的職位呢?
Q7 資料科學家好像不只需要技術還需要一定的領域知識,要怎麼找到喜歡的領域知識以及如果是自學,如何增加領域知識呢?
Q8 對於資料科學領域,資料科學家、資料工程師、資料分析師等等職缺的未來升遷路徑,其中有些人轉成PM,也許有人繼續當資料科學家,想請問在未來的職涯路徑的可能性有哪些
Q9 想問現在AutoML越來越多的情況下,對於未來想成為資料科學家的人有什麼機會或危機嗎,是否會取代部份資料科學家的需求
Q10 想聽講者成為資料科學家路上遇到的困難或是經驗分享
Q11 如何在DS領域 走得長遠? 如何在 hard and soft skill 之間取得平衡?
Q12 在kaggle使用別人的案例,是可以放入自己的作品集的嗎? 這樣是不是算模仿或抄襲呢
Q13 請問統計研究所對於成為資科家有加乘效果嗎,本身是財金系想跨考,修過r, python跟數據相關的課程
Q14 請問像是elastic search,我本身有應用在工作上的搜尋需求,但不知道如何應用資料科學方法滿足於更進一步的搜尋需求,請問像這種gap,會有什麼建議嗎,本身自己現在是一名後端工程師。
Q15 想當資料分析師,唸資科所應該可以吧🤔
筆手:Jason Wang
校稿:張維元, Nina Chen
👉 歡迎加入台灣資料科學社群,有豐富的新知分享以及最新活動資訊喔!
Copyright 2020-2024 資料科學協會 All Rights Reserved.
本網站由 資料科學協會 維護