活動主辦單位:Meet 創業小聚 、 Taiwan Data Science Meetup 台灣資料科學社群
一、介紹成長期新創
二、資料團隊各階段
三、各階段使用場景
四、各階段的資料團隊組成
以自身經歷去定義,認為如 Dcard、Airbnb、Pinterest 等公司:
成長期的新創最適合開始做資料相關的任何拓展,因為業務流程已經固定、資料基礎建設也已經穩定,不再有巨大的業務變化。
Bruce 會問兩個問題,一是團隊是否已有資料基礎建設,二是產品是否需要機器學習算法,以此去區別團隊的資料需求階段。
有基礎資料架構才能更進一步讓資料團隊作分析,因此建立資料基礎建設是非常重要的階段。
以活動部門為例,可以針對是否要進行一項活動,活動營運成效如何,對不同客群的好處是什麼等等一連串活動運營進行分析,幫助部門規劃未來活動。
打造機器學習產品可能是一種迷思!不該為了「機器學習」而要求馬上使用機器學習,可以等到產品有很適合使用機器學習的解法時再將機器學習加入到產品中,可能才是適合打造機器學習產品的時機。
一開始從 Stage.1資料基礎建設開始做,接著使用 Stage.2 進行資料分析,最後才可能 Stage.3 打造機器學習產品,三個階段會不斷循環形成持續發展和最佳化的資料流程。
1 當基礎建設完善後,可能會遇到不同部門來詢問:流量從何處來、revenue 主要來自哪些客群等。在這時候可能會發現資料不如預期,有可能是過去的基礎建設並不完善(少埋程式碼去追蹤和紀錄),因此團隊需要持續最佳化基礎建設。
2 資料分析其實佔比非常大,在日常工作中會做大量的 A/B Testing 去比較各種行銷手法和各客層、客群的接受度。
3 機器學習和資料分析的基礎建設可能不相同,原因在於模型的 operation,如 ML Ops,要去思考模型如何上線、如果產品模型發生問題如何 rollback 回去原本的樣子、產品指標突然大幅下滑要去重新做調整等。
重要程度:⭐⭐⭐⭐⭐
要有一定的產品思維和商業思維,知道產品要做什麼分析,並且對 Data tracking 的埋設有概念、了解 Data Scheme 的設計,因為建設的好壞會影響後面兩個階段的分析和機器學習使用狀況。
Data Tracking
ETL 基礎建設和流程設計
資料倉儲
🤢負面影響
若沒有良好的基礎建設設計,後續需要花費大量時間去清理大量資料、到處去 join 資料。
重要程度:⭐⭐⭐⭐
有統計知識背景更能夠幫助 Data Team 釐清可以使用的統計方法。
重要程度:⭐⭐⭐⭐
ML Product 最有名的是「推薦系統」,如 Netflix 的推薦系統。這階段是以 ML 作為一種手段去驅動產品開發,將產品直接上線到終端使用者上去做搜尋、推薦、廣告投放等,就需要有人做機器學習演算法開發和後續一連串系統的設計和建置,初期階段有很大的比例會需要工程型的角色,後期才會是調算法。
Data Infrastructure 是目前的中流砥柱,所有開發都從 Data Infrastructure 開始。再來對內和對外會分為 BI 和 ML 兩個部分,BI 去支持公司的所有商業、產品、行銷的決策,ML則是關注在要放一個 ML 產品在 APP 或網頁上供人使用,如產品推薦、文章推薦、廣告推薦等。
補充資料:
DevOps Taiwan — MLOps 從零到多雲實踐 (線上)
Open Sourcing Amundsen: A Data Discovery And Metadata Platform | by Tao Feng | Lyft Engineering
Amundsen(GitHub)
筆手:HungWei Lin
校稿:Wendy Hsu
👉 歡迎加入台灣資料科學社群,有豐富的新知分享以及最新活動資訊喔!