1.1、规则匹配流程
在实际画像项目中,业务数据存储在多个不同的存储引擎中,比如HBase表、Hive表、MySQL表及HDFS等等,此时整个项目支持多数据源加载数据。
标签模型可以从任意存储引擎加载业务数据,构建标签。
关于【 人口属性 】中主要标签如下所示,基本上属于规则匹配类型标签和统计类型标签。
开发的标签如下所列:
开发规则匹配标签时,查看 注册会员表 中各个字段对应的含义说明。
1.2、标签模型:职业标签在标签管理平台新建对应的标签(业务标签和属性标签),编写标签模型类,实现标签计算。
`job` varchar(60) DEFAULT NULL COMMENT '职业;1学生、2公务员、3军人、4警察、5教师、6白领'
-- SQL 语句
SELECT job, COUNT(1) AS cnt FROM tags_dat.tbl_users GROUP BY job ;
1.2.1、新建标签
新建 **业务(4级)**标签 : 职业标签
标签名称:职业
标签分类:电商-某商城-人口属性
更新周期:
业务含义:注册用户的职业
标签规则:
inType=hbase
zkHosts=bigdata-cdh01.itcast.cn
zkPort=2181
hbaseTable=tbl_tag_users
family=detail
selectFieldNames=id,job
程序入口:
com.chb.tags.models.rule.JobModel
算法名称:
MATCH
算法引擎:
tags-model_2.11.jar
模型参数:
--driver-memory 512m --executor-memory 512m --num-executors 1 --executor-cores 1
新建 属性(5级)标签 :1学生、2公务员、3军人、4警察、5教师、6白领,相关字段信息如下:
在标签管理平台WEB新建标签(业务标签4级标签和属性标签5级标签),参考用户性别标签 模型修改其中标签计算部分,使用UDF函数,完成标签匹配计算,示意图如下: