📍 Eric Wang 目前任職於新加坡蝦皮總部,現為產品分析 Lead,有 8 年以上資料工程以及資料科學領域的經驗。目前他在蝦皮帶領 20+ 人的團隊,主要工作為開發 ML/causal inference model、領導實驗設計、與不同部門合作導入分析解決方案,以達到優化 Shopee App 的功能為目標。
📍 快速成長的公司通常是以業務驅動以及結果導向的,如果數據團隊無法找到自己的價值定位,可能會在內部競爭或外部災害(e.g. COVID-19)中被淘汰。在這次的 Meetup 中, Eric 將分享『 DA/DS可以提供的價值類型』、『團隊如何提供分析解決方案』以及『如何大規模的實踐分析解決方案』!
蝦皮成長快速,在東南亞和台灣已經成為排名第一的購物 App,擁有超過千萬活躍賣家,今年第一季的訂單就有四億筆,且每個季度繼續的翻倍成長。業務的涵蓋範圍也持續擴張,除了商城外,還包括了遊戲經營代理(Garena)、支付和貸款 (Sea Money) 等等業務。對於資料分析團隊來說,也必須在快速成長中持續的對公司營運產生價值。
資料對公司的價值何在?
今年在 COVID-19 籠罩下,許多公司紛紛縮減開支與裁減部分人力,據 Layoff.fyi 網站上公開的資料,美國地區 Data Analyst 和 Data Scientist 這兩種職位被影響到的數量排在 Top 5;在蝦皮,如果一個 Team 無法對公司的快速成長有所貢獻,也一樣會進行組織重構,因此明確了解自己的價值是很重要的。
圖的左邊是傳統上我們對分析價值的認定,隨著分析的難度越高(從敘述性的分析到預測型的分析),帶來的價值也會隨之提升。
但實務上要回答分析帶來的價值,必須先反思兩個關鍵問題:
今年 Uber 和 Airbnb 等公司裁員時,CEO 們常常會提到一句話:我們要回到公司的核心業務 (Core Business)。 那麼我們怎麼看一間公司的 Core Business? 答案是獲利模式,透過了解公司怎麼賺錢,就能了解資料跟業務的結合方式。
以 Banking 跟 Fintech 來說,主要的獲利模式會是 1. 利差 2. 投資收入 3. 服務的手續費收入。利差主要跟央行和大環境有關,資料科學的幫助有限。投資收入一般來說會放大部分在被動收入的債券,主動做投資配置的優化空間並不如專門做量化交易的公司,所以資料科學在 Banking 能夠貢獻的部分,通常會落在服務這塊。
而以蝦皮所在的 E-commerce 領域為例,除了獲利外我們更關注的是增長,包含 Order、GMV (Gross merchandise value,總成交金額) 以及 User Base 的增長,所以在選擇 DA/DS 題目的時候,你就要問自己的分析方案怎麼跟公司的核心連結起來,以及能夠為這些指標帶來什麼樣的協助。
確認完公司的核心業務後,我們進一步討論 Model/Analysis 的三種定位。
第一種和業務目標的連結是最明確的,也就是模型和分析就是主要的業務,例如貸款業務中的風險評分卡、或是自營業務中投資組合優化。
但大部分的人可能會遇到的場景可能是另外兩種:
第二種模式指的是,模型跟分析是核心業務的一部分 (Must-to-have),例如電商產品迭代過程中的 A/B Test 與 Causal Inference 是不可少的;或是像廣告投放的業務,投放成效的好壞很大程度決定了廣告業務發展,在這種狀況下,分析與模型是讓這個業務可以做得好的大前提或唯一選項。
最後一種模式則是 Nice-to-have 的支援型分析。值得注意的是,一樣的 Methodology 或者模型,如果應用在不同的地方,可能對公司的影響也會差很多,像 Uplift model 如果是應用在 App 的 Push Notification 這類行銷成本不是那麼大的業務,對公司的貢獻在計算上就會不太一樣。
所以如果要衡量個人/團隊做的分析價值/模型價值,必須同時考量公司的核心業務為何、以及模型在整個業務流程中的定位類型。
蝦皮內部的 analytics function 可以分成三種類型: Algorithm、Insights & Application、和在某些業務團隊下的 BI function。
我的組屬於第二種 Insights & Application,通常做的決策是針對整個東南亞來考量,當選定一到兩個 Local country 做實驗後,一邊要跟 PM 和Marketing 團隊去定義題目的範圍 Scope,另一邊也要研究如何提供不同的方案來客製化不同國家的需求。
在 App 上有很多不同的 Campaign 要顯示,20 個 Circle 裡,用戶在第一頁只能看到有限的前 8 – 10 個,那我們該怎麼優化整體的 Performance?
在這個案子中,我們首先需要了解 PM 想要優化的 KPI 是什麼?另外限制是什麼?可以採取的 Action 是什麼?
舉例來說,PM 想優化的目標是所有 Circle 的總點擊數,但對 Local 來說,他們可能只想改善某些低點擊率 (Click-through rate) 的circle。
在限制上,某些 icon 是蝦皮固定需要顯示的,那我們就只能針對另外 10 個可以變動的 Circle 去優化;而在技術面上,模型問題其實相對單純,像是用戶點擊的 Prediction 以及後續的 A/B test,但如何把模型結果連結到不同 Circles Sequence 的顯示策略,需要額外定義 Evaluation Metrics 去最大化KPI。
提出初步方案後,就要用 A/B Test 去驗證方案的可行性。
A/B Test 可以説是 Product Improvement 的一個標準程序。然而在與不同地區合作的時候,除了本身的設計、也得評估在地的流量、確保 Local 的設定是否為正確。若 A/B Test 失敗了,得瞭解實驗可能失敗的原因,除了關注的 Metrics 之外,其他的 Metrics 是不是也有不同的變化。
這個 Case 做的 A/B Test 主要是把不同人群對應到的 Circle 用不同方式做呈現,控制組 (Control Group) 看到的是預設,實驗組 (Treatment Group) 則會根據過往記錄放在不同 Sequence 裡。
但同時我們不會驗證所有的 Sequence,這是因爲每個實驗組還是需要足夠的流量,才能在統計上面證明顯著性;以最終的實驗結果來說,我們只會針對能看到明顯提升的組別進行排序客制化,若效果一般的組別,則可以選擇做 Error Analysis 調整或是直接提供預設的 Sequence。
驗證完 PoC 的效果後,我們還會跟 Product Manager 盤點目前的 Working flow。找出 Work Flow 中間接分析方案之間的斷點;處理斷點的方式除了使用 Engineering Team 的 Solution 外,有必要的話也可以考慮自建。
至於如何從本地端把 PoC 應用到其他國家的在地端,第一步是需要瞭解他們有沒有類似的問題,對於分佈不同國家的蝦皮,他們有自己的經營方式,重視的項目,因此團隊得顧慮他們的痛點而調整,這樣才能讓他們接受新東西,但調整的代價、其中的權衡是要做功課互相討論,才能延伸到執行層面。
簡報的右邊是一個例子,我們這個專案的目的在於提升整個 Circle 的點擊率(CTR),當試著使用到其他國家時,有個團隊提到他們主要的 KPI 在於提升 Circle 點進去之後的 Campaign 的 Order 數量,此時就必須評估是否能客製方案能進一步達成 Local 的目標。
當然在評估任何方案之前,我們還是會回到分析的階段去衡量是否存在用分析/模型提升的空間;右圖顯示了特定 Campaign 的 User Funnel,在通過Circle 點入 Campaign 的使用者中,有 40% 會繼續點擊裏面的商品,到最後購買的人不到 2%。但同時我們也發現最初進來的使用者有大約 1/5 的人在平台上購買與 Circle 內展示相似的商品,代表進來的使用者是有購買能力的,只是我們在 Campaign 上的選品不足夠吸引他們購買。所以我們就會在Circle Personalization 的基礎上再提供 Item Selection 的推薦方案,除了把合適的人導入到他們感興趣的 Circles,進一步提升他們在 Campaign 內下單的機率。
想加入新加坡蝦皮團隊嗎?尋找適合的職缺:https://careers.shopee.sg/
筆記:[Paul Lo](https://medium.com/@paullo0106)、[Lynus Hung](https://medium.com/@diagonalyang)
校稿:[Eric Wang](https://www.linkedin.com/in/eric-tang-hsuan-wang-87b116139/)、Tzu-Yi Yen、Ji-Ying Lu、Jason Wang👉 歡迎加入台灣資料科學社群,有豐富的新知分享以及最新活動資訊喔!