編輯導(dǎo)語: 標(biāo)簽體系在企業(yè)的數(shù)字化進(jìn)程中是經(jīng)常需要用到的,也是數(shù)據(jù)建設(shè)過程中必不可少的環(huán)節(jié)。那么如何進(jìn)行標(biāo)簽的設(shè)計(jì)與加工呢?作者根據(jù)自身的一些項(xiàng)目交付經(jīng)驗(yàn)進(jìn)行了總結(jié),一起來看一下吧。
在企業(yè)的數(shù)字化進(jìn)程中,標(biāo)簽體系的創(chuàng)建與使用在業(yè)務(wù)場(chǎng)景需求中經(jīng)常用到,也基本是數(shù)據(jù)建設(shè)過程中必不可少的環(huán)節(jié)。
一般有互聯(lián)網(wǎng)基因的大公司,有專業(yè)的數(shù)據(jù)技術(shù)人才儲(chǔ)備,會(huì)自己實(shí)現(xiàn)整個(gè)標(biāo)簽加工使用流程、技術(shù)選型等,也存在不具備相應(yīng)人才的公司需要標(biāo)準(zhǔn)產(chǎn)品幫他們快速實(shí)現(xiàn)這個(gè)過程,無需再自己探索,B端的標(biāo)準(zhǔn)產(chǎn)品可以幫客戶快速實(shí)現(xiàn)標(biāo)簽體系的搭建與標(biāo)準(zhǔn)化管理,解決業(yè)務(wù)問題。
本次我們一些項(xiàng)目交付經(jīng)驗(yàn),先來聊聊標(biāo)簽的設(shè)計(jì)與加工。
標(biāo)簽的建設(shè)與應(yīng)用一般需要經(jīng)過幾個(gè)步驟:
一、標(biāo)簽體系設(shè)計(jì)
標(biāo)簽服務(wù)于業(yè)務(wù)應(yīng)用場(chǎng)景,好的標(biāo)簽體系設(shè)計(jì)能夠讓業(yè)務(wù)人員在使用時(shí)隨需隨取,及時(shí)查詢出需要的數(shù)據(jù),就算不具備這個(gè)標(biāo)簽時(shí),業(yè)務(wù)人員也可以自己快速加工出來,無需尋求數(shù)據(jù)開發(fā)的幫助。那需要做到
- 標(biāo)簽類目劃分合理
- 標(biāo)簽涵蓋的數(shù)據(jù)源豐富,標(biāo)簽完善
- 后續(xù)擴(kuò)展性高,即基于基礎(chǔ)標(biāo)簽加工出新的標(biāo)簽時(shí),方便快速
標(biāo)簽體系的設(shè)計(jì)一般會(huì)按照以下步驟:
1. 數(shù)據(jù)梳理
根據(jù)現(xiàn)有業(yè)務(wù)背景,以及數(shù)據(jù),梳理出大概的標(biāo)簽體系。如企業(yè)一般數(shù)據(jù)大概來源于這幾部分:
1)用戶基礎(chǔ)數(shù)據(jù)
用戶ID、性別、年齡、手機(jī)號(hào)、郵箱、身份證號(hào)、會(huì)員等級(jí)等基礎(chǔ)信息。
2)業(yè)務(wù)交易數(shù)據(jù)
如在零售領(lǐng)域,用戶發(fā)生的每一筆交易都會(huì)有記錄,如下圖:
3)用戶行為數(shù)據(jù)
如用戶在APP、PC、小程序等的瀏覽、點(diǎn)擊、收藏、評(píng)論行為,可反映出用戶的行為特點(diǎn)。
4)活動(dòng)/積分?jǐn)?shù)據(jù)
會(huì)員商城的cha會(huì)員等級(jí)、積分兌換等數(shù)據(jù)。
5)售后投訴數(shù)據(jù)
客戶投訴、售后處理等數(shù)據(jù)。
基于對(duì)數(shù)據(jù)的梳理,可進(jìn)行標(biāo)簽基本體系的梳理,梳理出一部分有價(jià)值的標(biāo)簽。
2. 基于OLP模型體系化梳理標(biāo)簽
OLP模型是目前比較通用的建立標(biāo)簽體系的模型,OLP指“實(shí)體-關(guān)系-屬性”模型,用下方場(chǎng)景舉例:
- 實(shí)體:指對(duì)象,如人、書籍、門店等,可針對(duì)每個(gè)實(shí)體建立一套標(biāo)簽體系
- 屬性:實(shí)體帶的特征,如人有性別、年齡屬性,書籍有價(jià)格、內(nèi)容屬性,門店有售賣渠道、地址位置等屬性,屬性是一種類型的標(biāo)簽
- 關(guān)系:通過動(dòng)作產(chǎn)生關(guān)系,如基于購買動(dòng)作,人和書籍產(chǎn)生關(guān)系,基于這個(gè)動(dòng)作可產(chǎn)生消費(fèi)時(shí)段偏好、支付方式偏好等標(biāo)簽
基于該模型,對(duì)標(biāo)簽進(jìn)行查漏補(bǔ)缺,梳理出標(biāo)簽類目與標(biāo)簽。
3. 定義標(biāo)簽與加工口徑
- 標(biāo)簽中文、英文名:標(biāo)簽的中文名稱、英文名稱
- 標(biāo)簽所屬類目:標(biāo)簽所屬一級(jí)、二級(jí)、三級(jí)類目
- 標(biāo)簽類型:根據(jù)不同維度的劃分,采用其中一種。比如統(tǒng)計(jì)類標(biāo)簽、預(yù)測(cè)類標(biāo)簽、自定義標(biāo)簽等,亦或是原子標(biāo)簽、衍生標(biāo)簽、組合標(biāo)簽、算法標(biāo)簽等
- 標(biāo)簽值定義:定義每個(gè)標(biāo)簽的標(biāo)簽值,如“近一個(gè)月買入金額區(qū)間”標(biāo)簽,可根據(jù)購買金額的區(qū)間段定義“零/低端”、“普通”、“中端”、“準(zhǔn)高端”、“高端”等標(biāo)簽值
- 標(biāo)簽含義(描述):描述該標(biāo)簽業(yè)務(wù)含義,如“最近30天的購買商品的金額區(qū)間,對(duì)用戶消費(fèi)力進(jìn)行評(píng)估”
- 標(biāo)簽業(yè)務(wù)口徑:標(biāo)簽以哪個(gè)數(shù)據(jù)定義為準(zhǔn),如“用戶活躍城市”標(biāo)簽,以用戶購買次數(shù)最多的城市為口徑加工,而不是瀏覽次數(shù)、評(píng)論次數(shù)等
- 標(biāo)簽技術(shù)口徑:描述該標(biāo)簽從哪個(gè)表的哪個(gè)字段取值,SQL取數(shù)邏輯是什么
- 業(yè)務(wù)方來源:該標(biāo)簽的業(yè)務(wù)需求方是誰
- 標(biāo)簽更新周期:描述標(biāo)簽更新頻次,天(如T 1、T 2等)、周、月、小時(shí)、分鐘更新等
- 標(biāo)簽更新優(yōu)先級(jí):同一時(shí)間端跑多個(gè)標(biāo)簽時(shí),若資源有限,先跑優(yōu)先級(jí)高的標(biāo)簽
基于以上工作,最終得出一份標(biāo)簽體系表,以這份表和業(yè)務(wù)方最終確認(rèn)標(biāo)簽劃分、標(biāo)簽與標(biāo)簽值、標(biāo)簽加工口徑是否有疑義,沒問題,便可進(jìn)入標(biāo)簽開發(fā)環(huán)節(jié)。
二、標(biāo)簽?zāi)P驮O(shè)計(jì)
進(jìn)入具體開發(fā)之前,需考慮標(biāo)簽?zāi)P蛯釉O(shè)計(jì),在數(shù)倉加工出來哪些數(shù)據(jù),標(biāo)簽產(chǎn)品加工哪些數(shù)據(jù)。標(biāo)簽?zāi)P鸵琅f遵循數(shù)倉建模的“ODS-DWD-DWS-ADS”分層設(shè)計(jì),基于DWD、DWS層抽象一層標(biāo)簽?zāi)P蛯?,加工?biāo)簽基礎(chǔ)標(biāo)簽,屆時(shí)在標(biāo)簽產(chǎn)品上讓業(yè)務(wù)人員通過規(guī)則可加工生成新的標(biāo)簽。
一般遵循“公共層數(shù)據(jù)”、“大數(shù)據(jù)量計(jì)算”的標(biāo)簽放在數(shù)倉中數(shù)據(jù)開發(fā)寫SQL實(shí)現(xiàn),“通過規(guī)則可定義”、“標(biāo)簽規(guī)則經(jīng)常修改”的標(biāo)簽在標(biāo)簽產(chǎn)品中配置。數(shù)倉一般實(shí)現(xiàn):
1. 公共層數(shù)據(jù)
包含基礎(chǔ)屬性數(shù)據(jù)、基礎(chǔ)指標(biāo)(指標(biāo)也可以作為一種標(biāo)簽,如最近30天購買金額、最近30天訪問次數(shù)等),這些數(shù)據(jù)不僅給標(biāo)簽系統(tǒng)用,也可以給BI報(bào)表、數(shù)據(jù)門戶使用,所以放在數(shù)倉中加工表。
1)基礎(chǔ)信息類標(biāo)簽
2)交易類標(biāo)簽
3)行為類標(biāo)簽
2. 大數(shù)據(jù)量計(jì)算的標(biāo)簽
如計(jì)算歷史最高花費(fèi)金額、商品的歷史最高庫存、累計(jì)消費(fèi)金額、用戶排序等,這些標(biāo)簽的計(jì)算基于的數(shù)據(jù)量大,最好放在hive中跑批上線。
在數(shù)倉中加工好標(biāo)簽基礎(chǔ)表,這些表中的標(biāo)簽一般稱之為原子標(biāo)簽,再將該表對(duì)接標(biāo)簽產(chǎn)品,在標(biāo)簽產(chǎn)品中進(jìn)行衍生類、組合類標(biāo)簽加工。
三、標(biāo)簽?zāi)P驮O(shè)計(jì)
基于標(biāo)簽?zāi)P偷脑O(shè)計(jì),一部分基礎(chǔ)指標(biāo)類的標(biāo)簽在數(shù)倉已建設(shè)完成,一部分標(biāo)簽需要在產(chǎn)品界面上實(shí)現(xiàn)。我們接下來看下業(yè)務(wù)人員如何在袋鼠云標(biāo)簽產(chǎn)品中配置標(biāo)簽。
1. 根據(jù)業(yè)務(wù)對(duì)象,創(chuàng)建實(shí)體、關(guān)系
假設(shè)一個(gè)電商類客戶,需要建立一套用戶標(biāo)簽體系,則首先創(chuàng)建“用戶”實(shí)體對(duì)象,并在實(shí)體對(duì)象下可以接入標(biāo)簽多張基礎(chǔ)表,如用戶基礎(chǔ)信息表、用戶行為事件的指標(biāo)表等,這些表的字段可作為原子標(biāo)簽直接使用,作為后續(xù)加工衍生、組合標(biāo)簽的基礎(chǔ)。
同時(shí),在后續(xù)加工衍生標(biāo)簽時(shí),在某些場(chǎng)景上會(huì)用到多個(gè)實(shí)體下的原子標(biāo)簽加工,這時(shí)候可以用“關(guān)系”將2個(gè)實(shí)體關(guān)聯(lián)起來,如將“用戶”實(shí)體與“書籍”實(shí)體通過用戶表的“最近購買商品ID”、以及書籍表的“書籍ID”關(guān)聯(lián)起來,便可以用到2個(gè)表的字段進(jìn)行某個(gè)標(biāo)簽的加工,如下圖:
2. 讀入原子標(biāo)簽
從標(biāo)簽基礎(chǔ)表中讀入原子標(biāo)簽,進(jìn)行原子標(biāo)簽的元數(shù)據(jù)管理。
讀入原子標(biāo)簽時(shí),有些字段可能存儲(chǔ)的是編號(hào)或一些枚舉值,但業(yè)務(wù)人員需要看到具有真實(shí)業(yè)務(wù)含義的值,此處可做一層字典值映射。比如將“省市編號(hào)”映射為具體的省市名稱。
3. 創(chuàng)建衍生標(biāo)簽
基于接入的數(shù)據(jù)表的原始字段和原子標(biāo)簽,通過“且、或”關(guān)系、“求和、去 重計(jì)數(shù)、計(jì)數(shù)、最大值、最小值、均值”聚合函數(shù)、“等于、不等于、小于、小于等于、大于、大于等于、包含、不包含等”操作符,對(duì)源表字段進(jìn)行加工,生成衍生標(biāo)簽。
如基于用戶訪問次數(shù)、交易次數(shù),加工“用戶活躍度“衍生標(biāo)簽,包含“高活躍”、“一般活躍”、“睡眠狀態(tài)”標(biāo)簽值,對(duì)用戶活躍度進(jìn)行衡量。
除通過可視化規(guī)則加工標(biāo)簽外,也會(huì)開放SQL界面寫SQL加工標(biāo)簽,因?yàn)樵趯?shí)際場(chǎng)景中,客戶場(chǎng)景不禁相同,有些復(fù)雜標(biāo)簽需要SQL快速實(shí)現(xiàn),在產(chǎn)品界面上也可直接操作。
同時(shí),雖然產(chǎn)品上會(huì)開放基于函數(shù)計(jì)算的標(biāo)簽加工、SQL類的標(biāo)簽加工,但還是會(huì)建議客戶將公共層的指標(biāo)類標(biāo)簽、及復(fù)雜類標(biāo)簽放在數(shù)倉中實(shí)現(xiàn),以使標(biāo)簽配置這層輕量,屆時(shí)進(jìn)行數(shù)據(jù)跑批時(shí)快速。
4. 創(chuàng)建組合標(biāo)簽
基于原子標(biāo)簽和衍生標(biāo)簽,可進(jìn)行組合標(biāo)簽的創(chuàng)建,如基于最近交易時(shí)間、最近1年交易次數(shù),最近1年交易金額區(qū)間這3個(gè)標(biāo)簽,加工“用戶綜合價(jià)值”組合標(biāo)簽,將客戶分為“低價(jià)值用戶”、“一般保持用戶”、“重要發(fā)展用戶”等。
5. 創(chuàng)建實(shí)時(shí)、算法標(biāo)簽
- 實(shí)時(shí)標(biāo)簽:如基于用戶實(shí)時(shí)行為數(shù)據(jù)通過Flink引擎計(jì)算實(shí)時(shí)標(biāo)簽,如用戶點(diǎn)擊APP上的一個(gè)商品廣告,且加入購物車,判斷該客戶屬于“某類型商品感興趣用戶”,作為客戶短期興趣標(biāo)簽。
- 算法標(biāo)簽:如基于用戶的基金交易行為,預(yù)測(cè)該用戶屬于追漲、殺跌、高拋等哪種類型的客戶,作為客戶的風(fēng)險(xiǎn)偏好標(biāo)簽。
最終將這些實(shí)時(shí)與算法標(biāo)簽的元數(shù)據(jù)可統(tǒng)一接入標(biāo)簽平臺(tái)統(tǒng)一管理。
標(biāo)簽邏輯創(chuàng)建好之后,同時(shí)配置標(biāo)簽的更新周期、更新優(yōu)先級(jí),進(jìn)行標(biāo)簽的定時(shí)跑批、手動(dòng)跑批等。
標(biāo)簽體系設(shè)計(jì)與加工先講到這里,歡迎大家一起討論。
本文由 @木研 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。