【Meet 創業小聚 X Data Science Meetup 特別場】新創公司裡的資料科學家

成長期新創公司的資料團隊

Bruce Kuo, Machine Learning Team Lead @ Dcard

活動主辦單位：Meet 創業小聚、 Taiwan Data Science Meetup 台灣資料科學社群

大綱：

一、介紹成長期新創

二、資料團隊各階段

三、各階段使用場景

四、各階段的資料團隊組成

什麼是成長期新創？

以自身經歷去定義，認為如 Dcard、Airbnb、Pinterest 等公司：

有一定的營利模式
有累積足夠的業務資料量

新創何時需要有資料團隊？

成長期的新創最適合開始做資料相關的任何拓展，因為業務流程已經固定、資料基礎建設也已經穩定，不再有巨大的業務變化。

如何拓展資料團隊？

Bruce 會問兩個問題，一是團隊是否已有資料基礎建設，二是產品是否需要機器學習算法，以此去區別團隊的資料需求階段。

Stage 1 建置資料基礎建設

有基礎資料架構才能更進一步讓資料團隊作分析，因此建立資料基礎建設是非常重要的階段。

Stage 2 進行資料分析應用

以活動部門為例，可以針對是否要進行一項活動，活動營運成效如何，對不同客群的好處是什麼等等一連串活動運營進行分析，幫助部門規劃未來活動。

Stage 3 打造機器學習產品

打造機器學習產品可能是一種迷思！不該為了「機器學習」而要求馬上使用機器學習，可以等到產品有很適合使用機器學習的解法時再將機器學習加入到產品中，可能才是適合打造機器學習產品的時機。

在各階段的資料使用場景

一開始從 Stage.1資料基礎建設開始做，接著使用 Stage.2 進行資料分析，最後才可能 Stage.3 打造機器學習產品，三個階段會不斷循環形成持續發展和最佳化的資料流程。

1 當基礎建設完善後，可能會遇到不同部門來詢問：流量從何處來、revenue 主要來自哪些客群等。在這時候可能會發現資料不如預期，有可能是過去的基礎建設並不完善(少埋程式碼去追蹤和紀錄)，因此團隊需要持續最佳化基礎建設。

2 資料分析其實佔比非常大，在日常工作中會做大量的 A/B Testing 去比較各種行銷手法和各客層、客群的接受度。

3 機器學習和資料分析的基礎建設可能不相同，原因在於模型的 operation，如 ML Ops，要去思考模型如何上線、如果產品模型發生問題如何 rollback 回去原本的樣子、產品指標突然大幅下滑要去重新做調整等。

在各階段的資料團隊組成

Stage.1 需要全能型、偏重資料工程的角色：能夠配合產品分析需求來規劃資料基礎建設

重要程度：⭐⭐⭐⭐⭐

要有一定的產品思維和商業思維，知道產品要做什麼分析，並且對 Data tracking 的埋設有概念、了解 Data Scheme 的設計，因為建設的好壞會影響後面兩個階段的分析和機器學習使用狀況。

Data Tracking
ETL 基礎建設和流程設計
資料倉儲

🤢負面影響
若沒有良好的基礎建設設計，後續需要花費大量時間去清理大量資料、到處去 join 資料。

Stage.2 需要分析型的角色：著重產品數據分析，輔助團隊進行產品決策

重要程度：⭐⭐⭐⭐

有統計知識背景更能夠幫助 Data Team 釐清可以使用的統計方法。

SEO
資料視覺化
產品數據分析
實驗結果分析
統計知識概念協助
機器學習的 Data Pattern 可以輔助分析師觀察資料並做出決策

Stage.3 需要細分型的角色：分析型 Data Analyst、工程型 Machine Learning Engineer

重要程度：⭐⭐⭐⭐

ML Product 最有名的是「推薦系統」，如 Netflix 的推薦系統。這階段是以 ML 作為一種手段去驅動產品開發，將產品直接上線到終端使用者上去做搜尋、推薦、廣告投放等，就需要有人做機器學習演算法開發和後續一連串系統的設計和建置，初期階段有很大的比例會需要工程型的角色，後期才會是調算法。

機器學習演算法開發
軟體工程：建置相關系統，需要基礎後端技能
資料工程：建置相關 Data Pipeline，需要基礎資料工程技能
ML Ops：建置機器學習模型上線的管理及流程優化

Dcard 目前配置

Data Infrastructure (Infra)
Business Intelligence (BI)
Machine Learning (ML)

Data Infrastructure 是目前的中流砥柱，所有開發都從 Data Infrastructure 開始。再來對內和對外會分為 BI 和 ML 兩個部分，BI 去支持公司的所有商業、產品、行銷的決策，ML則是關注在要放一個 ML 產品在 APP 或網頁上供人使用，如產品推薦、文章推薦、廣告推薦等。

Recap

所有東西都需要「良好的基礎建設」。
不是所由公司都需要在產品中運用機器學習，視自身產品需求而定。
定位自己公司在哪個階段(講者：2C可能更好！)，並可以去發展那個階段所需的技能。

補充資料：

ML 操作：機器學習操作 (ml-ops.org)

DevOps Taiwan — MLOps 從零到多雲實踐 (線上)

Netflix 推薦系統如何運作

Netflix TechBlog

Open Sourcing Amundsen: A Data Discovery And Metadata Platform | by Tao Feng | Lyft Engineering

Amundsen(GitHub)

筆手：HungWei Lin  
校稿：Wendy Hsu  
👉 歡迎加入台灣資料科學社群，有豐富的新知分享以及最新活動資訊喔！