ML之FE:数据处理—特征工程之高维组合特征的处理案例(矩阵分解)——基于LoR算法的广告点击预估问题
目录
特征工程之高维组合特征的处理思路
1、原始数据:语⾔言和类型两种离散特征
2、为了提高拟合能力,语言和类型可以组成二阶特征
3、以逻辑回归算法为例例
4、所有的特征,才开始看起来没有任何问题
问题出现
问题解决
特征工程之高维组合特征的处理思路 1、原始数据:语⾔言和类型两种离散特征
3、以逻辑回归算法为例例
表示x_i和x_j的组合特征,w_ij的维度等于 |x_i|*|x_j| = 2*2 = 4
4、所有的特征,才开始看起来没有任何问题
但当引入ID类型的特征时,就会出现大规模数据。
(1)、⽤用户ID和物品ID对点击的影响
(2)、用户ID和物品ID的组合特征对点击的影响
问题出现
若用户的数量=m,物品的数量为n,那么学习的参数的规模mxn。但是可是,在互联⽹网环境下,数量 都可以达到千万量级,几乎无法学习这么大规模的参数。
问题解决有效的方法就是将用户和物品分别用k维的低维向量表示(k
关注
打赏
热门博文
- Computer:C语言/C++语言的简介、发展历史、应用领域、编程语言环境IDE安装、学习路线之详细攻略
- DBMS/Database:数据库管理的简介、安装(注意事项等)、学习路线(基于SQLSever深入理解SQL命令语句综合篇《初级→中级→高级》/几十项代码案例集合)之详细攻略
- DayDayUp之Job:牛客网—算法工程师—剑指offer之66道在线编程(解决思路及其代码)——1~20
- High&NewTech:一文了解计算机思维、数学思维的本质区别,以及算法和程序的认知比较
- Algorithm:【Algorithm算法进阶之路】之十大经典排序算法
- DataScience:数据生成之在原始数据上添加小量噪声(可自定义噪声)进而实现构造新数据(dataframe格式数据存储案例)
- CV:Image.open 和cv2.imread的简介、区别及PIL.Image格式/OpenCV格式相互转换代码实现之详细攻略
- Py之shap:shap.explainers.shap_values函数的简介、解读(shap_values[1]索引为1的原因)、使用方法之详细攻略
- Py之PaddleFL:PaddleFL/paddle_fl的简介、安装、使用方法之详细攻略
- Python语言学习:Python语言学习之正则表达式常用函数之re.search方法【输出仅一个匹配结果(内容+位置)】、re.findall方法【输出所有匹配结果(内容)】案例集合之详细攻略