【NLP-新闻文本分类】处理新闻文本分类所有开源解决方案汇总

Better Bench 发布时间：2021-02-20 22:21:08 ，浏览量：7

引言
1 textCNN or Bert
- 1.1 简介
- 1.2 textcnn
- 1.3 bert
2 Bert
- 2.1 简介
- 2.2 文件说明
3 LSTM or CNN or Transformer
- 3.1 简介
- 3.2 模型得分
4 多模型融合
- 4.1 简介
- 4.2 模型得分
5 TextRNN

引言

赛题参考【NLP-新闻文本分类】1 数据分析和探索

1 textCNN or Bert 1.1 简介

（1）环境

tensorflow 1.x
pytorch

（2）作者博客和github 天池博客分享 Github源码

1.2 textcnn

使用 TextCNN 模型的代码。讲解文章：阿里天池 NLP 入门赛 TextCNN 方案流程讲解

1.3 bert

使用 Bert 模型的代码。讲解文章分为 3 篇：

阿里天池 NLP 入门赛 Bert 方案 -1 数据预处理
阿里天池 NLP 入门赛 Bert 方案 -2 Bert 源码讲解
阿里天池 NLP 入门赛 Bert 方案 -3 Bert 预训练与分类

2 Bert

rank1第一名分享

2.1 简介

（1）环境

Tensorflow == 1.14.0
Keras == 2.3.1
bert4keras == 0.8.4

（2）github github源码

2.2 文件说明

EDA：用于探索性数据分析。
data_utils：用于预训练语料的构建。
pretraining：用于Bert的预训练。
train：用于新闻文本分类模型的训练。
pred：用于新闻文本分类模型的预测。

3 LSTM or CNN or Transformer 3.1 简介

（1）环境

Keras==2.3.1
tensorflow==1.15.0

（2）Github Github源码

3.2 模型得分模型线下线下LSTM0.94856147760.9563CNN0.94369116920.9532Transformer0.93636753280.9465 4 多模型融合

Rank4分享

4.1 简介

（1）环境

pytorch
sklearn
gensim
Tensorflow2.0+
xgboost
lightgbm
tqdm
huggingface/transformers

（2）博客和Github 知乎-博客 github源码

4.2 模型得分模型得分tfidf_lightgbm_cv0.943~0.945textbirgru+pl0.959textcnn-FC0.943bertbilstmattn0.9597bert系列没有特别多的记录0.955+bert_mini系列0.951~0.952bert_small系列没有特别多的记录0.955+fasttext-text retrieval0.93

融合测试基本上textbigru_cv+bertbilstmattn (无pl) 此时也有0.969的成绩加上pl其实就比较接近0.97了后来我尝试了加上几个bert系列(后悔没有加上pl，否则可能还会提高) 结合tfidf做了一下对应lr, lightgbm, xgboost的stacking-B榜分数达到0.9702 总结: 其实我在线下验证集上达到了0.971, 但是我觉得可能B榜的类别分布与训练集不一样，所以我只有0.9702。

5 TextRNN

（1）github GitHub源码

关注

打赏

1688896170

查看更多评论

【NLP-新闻文本分类】处理新闻文本分类所有开源解决方案汇总

[ 申请 ]友情链接：