自然语言处理NLP星空智能对话机器人系列:NLP on Transformers 101 第16章:Kaggle BERT比赛CommonLit Readability Prize赛题解析
第16章:Kaggle BERT比赛CommonLit Readability Prize赛题解析、Baseline代码解析、及比赛常见问题 1,以问题为导向的Kaggle Data Competition分析 2,为何Kaggle上的NLP 80%以上都是文本分类比赛,并必须使用Neural Networks? 3,文本复杂度衡量不同类型实现技术分析 4,比赛的Training数据集分析:id、url_legal、license、excerpt、target、standard_error 5,比赛的评价指标分析 6,Readability:NLP Classification or Regression based on neural networks 7,Kaggle比赛通用步骤:Data - Cleaning - Store - GridSearch - Model - Prediction 8,比赛外部数据集分析 9,比赛使用的硬件条件分析 10,Training Set、Validation Set、Test Set 11,比赛的双层Pretraining技术解析 12,Pretraining的三大类型解析:ITPT、IDPT、CDPT 13,传统的Statistics Method建模 + 树模型 14,Statistical features构建源码分析 15,融合统计信息并使用Regression模型解析 16