标签模型计算

宝哥大数据发布时间：2021-04-21 14:12:29 ，浏览量：3

在这里插入图片描述

本模块是用户画像的核心：主要负责根据原始数据以及标签规则进行相应的计算，比如规则匹配/统计/挖掘等相关操作，最终得到标签结果，将结果存入HBase中。在这里插入图片描述

从上述图中可以分析出，每个标签模型计算时与存储系统交互：

如上图标签模型开发，包含四个步骤：

1）、加载标签数据，获取标签规则rule

2）、加载业务数据

3）、打标签

4）、保存用户标签数据

二、标签模型开发流程

针对上述各个模块的描述，如何对具体业务标签进行开发模型（前端和后台）集成，相关流程说明如下。

2.1、提交流程

搭建一个用户画像的管理平台，在这个平台上，可以按照不同的等级去管理标签或者定义标签的执行周期，以及计算任务的提交等等操作。

一个标签（业务标签、4级标签）对应一个模型，一个模型就是一个Spark Application程序。在这里插入图片描述

一个完整的任务提交流程，如上图所示，需要先创建出 1、2、3级标签、再创建 4级标签的时候将任务的Jar包上传、以及指定运行参数、最后创建5级标签，之后就可以开始运行模型任务。

在新建业务标签和属性标签时，有个标签字段：标签规则【rule】

2.2、执行流程

当某个业务标签的模型任务提交后的具体执行流程又是怎样的呢？如何才能得到最终计算的标签结果？在这里插入图片描述任务在执行的时候，数据获取有2部分：

1）、MySQL中的标签规则数据
2）、HBase中的原始数据（业务数据）

通过SparkSQL对数据进行计算（DataFrame DSL编程），将最终得到的结果标签存入HBase，再用Elasticsearch或者Solr做二级索引，方便进行数据的查询操作。

标签数据存储HBase表中：

tbl_profile
- RowKey：userId
- ColumnFamily: user, item
  - user列簇下标签：面向注册会员的偏好、行为习惯和人口属性的画像还原
  - item列簇下标签：对商品信息的画像还原
此处以用户标签为准：
- user:userId，存储用户的ID
- user:gender, 存储具体标签的值，如性别标签值：男或女

关注

打赏

1688896170

查看更多评论

[ 申请 ]友情链接：