從數據收集、處理、標籤定義再到實踐數據應用

以數據驅動行銷策略-數據標籤

講者：Yvonne Chuang｜Product Manager @ Vpon Big Data Group

前言

從數據收集、處理、標籤定義再到實際應用，看如何實踐數據應用並協助行銷執行。

莊雅涵，曾擔任數位廣告投放經理，有3年以上的廣告投放經驗，而後擔任 Data Consultant，與前端一同協助客戶導入數據產品服務，現在為 Vpon 數據產品經理，致力於打造活化數據應用的產品，放大數據價值。

活動主辦單位： Taiwan Data Science Meetup 台灣資料科學社群

一、如何收集數據

在數據應用中，如何收集數據是非常重要的部分。

在介紹收集數據之前，我們需要先理解 Vpon 過去的公司角色定位。Vpon 在過去是以廣告聯播網(Ad Network)起家，過往所蒐集的數據都著重在第二方廣告數據上。

廣告聯播網 ：以 Vpon 為例，協助 App publisher 做廣告流量變現，方式是使用 AD SDK 嵌入到 App 上，當廣告主想要投放廣告時，可以透過 Vpon 的廣告聯播網做廣告投放，Vpon 則會發出廣告請求到 App Publisher 端，當 App Publisher 收到請求後，Vpon 就可以順利投放廣告給 App Publisher 端的使用者，並且順利讓 App Publisher 進行廣告變現。

同時 Vpon 會透過 AD SDK 進行數據收集。比方說，某一個 App 使用者在某地使用 App，App 可能會跳出讓使用者有興趣的廣告，當使用者點擊廣告後，他可能會有瀏覽、購買等行為出現。在同一時間，AD SDK 會發送出一個帶有人事時地物等 非特定個人隱私資料 的請求給 Vpon。

Vpon 收集的資料，其實被稱為 Mobile Advertising ID (MAID)，每台行動裝置都附有一組裝置辨別碼 Mobile Advertising ID，能讓開發者和行銷人員出於廣告目的追蹤使用者活動。同時，使用者可以透過手機重設 MAID，也可以啟用「限制廣告追蹤」(LAT，Limit Ad Tracking) 來阻止廣告主使用 MAID 投放定向廣告。

MAID 有兩種格式，就像手機分安卓和 iOS一樣，安卓的 MAID 又稱為 Android Advertising ID / Google Advertising ID，簡稱為 AAID/ADID/AdID/GAID，iOS 的 MAID 又稱為 Identifier for Adverting / Identifier for Advertisement，簡稱為 IDFA。兩者除了英文字母大小的差異外，都是由數字和英文字母混合並以 8–4–4–4–12 的格式組成 MAID。

一般會較著重在 Cookie ID 的蒐集，較少蒐集 MAID，但 Vpon 便是專注在 MAID。以下會分別列舉 MAID 和 Cookie ID 的不同：

MAID

單一行動裝置，不重置情況下，只有唯一 MAID
精準判斷位置資訊
生命週期長，每人平均手機使用時間為 2 年
ID 相容性高

Cookie ID

不同網頁、瀏覽器會產生不同 Cookie
網頁只能收到 IP Address
生命週期中位數為 68 天
ID 相容性低，有時效性

二、數據處理及標籤定義

同時，除了 MAID 外，Vpon 也會和第三方數據進行合作，如消費數據，並整合政府公開數據。多元的數據蒐集後，會由 Vpon Data Engineer Team 來進行數據處理(ETL，Extract — Transform — Load)，最後儲存到雲端資料庫。

把原始資料轉換成可利用的數據，雅涵舉例了幾個例子：

Timestamp → Date、Weekday、Hour
MAID → 安卓 / iOS
language → 各國語言
App → App 名稱、App 分類
location(經緯度) → 具可讀性的地理位置、地點類型

經過 ETL 後，Vpon 便會以 使用者實際行為 去進行標籤定義。例如，有一位安卓手機使用者在某段短期時間經常前往 3C 賣場，可以說明這位使用者有 3C 產品購買需求。同時，可以透過 App 安裝來挖掘出該使用者的興趣或傾向或生活型態，如安裝台北等公車可能代表使用者是台北通勤族，安裝投資先生、三竹股市可能代表對投資理財有興趣。

Vpon 也整理出四大類別： 位置、人口統計、行為和興趣 。透過四大類別標籤的組合，可以產生出 3000 種以上的標籤，最後 Vpon 可以透過標籤辨識使用者的屬性和偏好，並做使用者輪廓分析。

雅涵用兩種標籤類來介紹： App 興趣偏好、POI 興趣點

App 興趣偏好

分析裝置 App 使用類型，獲取用戶的行為和偏好，並掌握品牌 APP 外的使用者輪廓。以下舉例可能的分類標籤方式（非實際標籤內容）：

高端用戶

財經：鉅亨網、商周、股市
商務旅館：Hotels.com
航空旅遊：中華航空
新聞時事：CNN、TED

年輕潮流

娛樂交友：17Live、Zenly
潮流時尚：Jusky街星
校園論壇：Dcard、Zuvio
遊戲：荒野亂鬥、亂與製作人

母嬰育兒

媽咪育兒：媽咪拜、280days
健康塑身：體重管理
電商購物：momo、樂天

POI 興趣點

POI，Point of Interest，是指電子地圖上某個地標、景點，Vpon 最小距離可匡列到半徑 50m x 50m，透過線下行為掌握人流。比方說，如果想知道有哪些人可能對於家居、裝潢有興趣，可以匡列以 POI 興趣點(如IKEA)為中心的 50m x 50m 的範圍內的人群，或許就可以定義這樣的人群有去過 IKEA。除了用一個 POI 興趣點去描繪使用者輪廓外，也可以透過多維度標籤去挖掘使用者的造訪動機，如除了去 IKEA外，是否還曾去過房仲、建案等地點。同時，也可以透過造訪時間和頻率去辨識使用者是否是員工。

不侵犯個人隱私的 K 匿名化技術 K-anonymity 和 L 多樣性 L-diversity

定義完標籤後，其實 Vpon 也可以根據客戶要求做 匿名化 和 多樣性 處理來避免侵犯個人隱私。

K 匿名化，是為了 防止間接識別 的問題。以台灣為例，個人資料保護法其實有要求避免直接或間接的辨別個人資料。而 Vpon 所蒐集的 MAID 非個人資料保護法中定義的個人資料，但為行為數據標籤。儘管不會蒐集個資，但有可能透過其他標籤間接的識別出特定某個人。因此，為了降低間接識別的風險，會避免 k = 1 該標籤只有一個人的情況發生。

L 多樣性，是為了 避免敏感資料 ，如病例、犯罪等，或各國定義的敏感資料。因此 Vpon 也會做處理，比如說承接上面使用 K 匿名化後，可能會定義出有四個人基於興趣和工作地相同而被定義為 k = 4，但如果他們都前往過同一家診所(L=1)，是有可能讓人知道這群人做了什麼事情，為了保證 L 多樣性，會避免 L = 1。

K 匿名化：[ i>k /i>-匿名性- 维基百科，自由的百科全书](https://zh.wikipedia.org/wiki/K-%E5%8C%BF%E5%90%8D%E6%80%A7)L 多樣性：[l-diversity — Wikipedia](https://en.wikipedia.org/wiki/L-diversity)

三、實際應用情境

以一個信貸產品為例，客戶期望提供給從事科技產業的工程師，有興趣做金融投資，未來計畫買房、買車或生育的目標族群優惠利率，客戶想觸及到目標族群，推廣新的信貸產品，並且增加申請信貸人數。

在讀完上述雅涵的分享後，閱讀本文的讀者們，何不花個 3–5 分鐘 定義看看這樣的目標受眾可以使用哪些標籤，以及有哪些 App 會被定義為該標籤呢？(若忘記了，可以回頭看看二、數據處理及標籤定義中提到的 App 興趣偏好喔！)

透過標籤定義及數據撈取後，便可以上架到 Facebook Ads、Google AdWords、theTradeDesk 和 Vpon 廣告聯播網進行廣告投放。

除了將數據標籤名單上架至廣告平台進行廣告投放外，Vpon 也會協助客戶做自有 CRM 貼標，以達到CRM360。如客戶 App 有一個使用者是會員，當他在使用 App 時，App 就會貼給他各種標籤，而 Vpon 則可以提供客戶該使用者在 App 外的外部標籤，讓該客戶對於會員的輪廓更加完整。除了可以進行更精準的廣告投放外，也可以進行一些模型預測等行銷運用。

四、Q&A

Q 1：請問雅涵，收集到這些 raw data 後，是如何進行實際的貼標作業，都是採人工貼標？還是有其他的方式，能夠精準的定義標籤？

定義標籤除了根據客戶需求的客製化貼標外，其實團隊內部也會有 ML 團隊的人來協助自動化貼標。

Q 2：比較好奇前期導入和產品架構。在面對那麼多不同產業與資料成熟度的企業後，有沒有總結出一些方法框架能夠協助客戶更快onboard？在產品上怎麼支援企業第三方和第一方的數據導入與整合？有哪些坑可以提醒大家不要踩？感謝！

導入數據到客戶端，其實每個產業客戶的痛點都不同。比如說，旅遊業會比較在乎移動軌跡的差別。
最重要的是，客戶的實際目標。客戶要的是產品的提升、產品使用後的追蹤、還是提升產品使用體驗，了解客戶目標才能夠給予更好的建議。

Q 3：想知道兩位分別在團隊內各自負責什麼工作

Product Manager 主要是做產品的規劃，了解哪些產品可以標準化，和後端工程師溝通。

Q 4：好奇 Yvonne 的轉職經歷，包含契機跟準備，想問需要那些硬實力

在 Campaign Manager 時要很理解 Segment 背後的邏輯、如何操作廣告投放才能讓成效好，以及如何協助客戶達到他們的目標。所以其實目前 Data Product Manager 在做的跟之前做的也是相關的工作內容，如 targeting、segment、individuals tagging 等 Data 相關、應用在行銷上的部分。
後來轉到 Data Consultant 後，做的事情和 Campaign Manager 有很大的不同。因為 Campaign Manager 是 Operation、執行的人，需要自己去想如何才能讓自己更好。但 Data Consultant 會接觸到客戶第一線的需求，因此要去想如何才能幫助客戶理解他們的目標。
轉到 Data Product Manager 的原因是，產品需求很大，也知道客戶痛點，想要幫助產品做產品化、讓產品更完善。
硬實力：SQL，在做 Data Consultant 時需要用 SQL 撈資料給客戶做參考。

Q 5：(to Yvonne) 在 ios14 以後，多數 app 都很難繼續拿到 user 同意追蹤，這對很多廣告公司有巨大影響。請問你們在收集 MAID 過程中有特別找其他方法解決這問題帶來的影響嗎？

這其實是整體環境因素。以使用者來說，對自身資料安全當然都是很重視，讓使用者可以有主控權。因此在 Data 環境底下，我們就要去思考一個使用者為什麼要讓大家蒐集他們的數據。
第一方蒐集數據的 App 開發商就要思考(1)蒐集數據是否合規、(2)是否讓使用者知道他們使用數據的情境、(3)是否可以為使用者帶來價值，一旦有為使用者帶來價值，使用者通常會因為有帶來價值而願意被蒐集。
同樣，作為數據公司，Vpon 也很重視蒐集的數據是否合法合規，是否有保護到每一位使用者的權益，並創造價值給第一方開發商讓他們能提供更好的服務給使用者。
因此雖然衝擊大，但 Vpon 會鼓勵第一方(App 開發商)去蒐集數據並讓使用者了解數據會使用在哪些部分、創造什麼價值和便利性，讓使用者願意提供數據給 App 開發商。

Q 6：TO 雅涵:想請問 vpon 有沒有人安排人員在做產品提案?(如設計開發新的廣告投放系統) 如果準備一些關於廣告投放的數位產品有沒有利於面試 product manager 呢?

其實主要是看哪方面的 Product Manager，如果是廣告產品相關的話就會有用，可以清楚地的知道你對整個廣告產業和邏輯是清楚的。但如果是 Data 方面的 Product Manager，可能會需要更了解 Data 的運用和 cycle 的運作。

Q 7：想問雅涵 : product manager 的工作需要具備多強的資料科學分析能力?

資料科學的能力，主要是我們如何去解釋這個資料，好讓資料轉化成，在面對客戶或商用場景時，是有用的資料。最重要的是認知資料背後的原理和邏輯，並且轉化成商業邏輯，用客戶聽得懂的語言說給客戶聽。
硬實力如 Python 和軟體開發，會交給後端專業人員。

雅涵當天也有分享徵才資訊，歡迎對 Data 及 MarTech 有興趣及熱情的人加入 Vpon Data Team 團隊，並歡迎和我進行交流

LinkedIn: Yvonne Chuang
Vpon: Vpon威朋大數據集團，威朋大數據股份有限公司。

筆手： **HungWei Lin
** 校稿： Yvonne Chuang 👉 歡迎加入台灣資料科學社群，有豐富的新知分享以及最新活動資訊喔！