目录
- 详细赛题
- 1 初赛赛题分析
- 2 赛题处理思路
- 3 准备工作
这是本人的目前的思考拙见,如果有问题,请在评论区指出,还在持续思考实时更新
详细赛题【阿里天池赛题】2021年赛道一:医学影像报告异常检测
1 初赛赛题分析(1)最多17个输入,但不固定,17类label,每个label0-1分类,但需要计算每个label的概率 样本数量为10份 训练集10000 测试集3000 (2)初赛是一个文本多标签多分类问题 sklearn包中的两个函数来计算预测结果和预测概率
- predict():返回预测标签结果
- predict_proba():预测属于某个标签的概率
(1)详细分析赛题 待完善。。。 (2)数据预处理
- 缺失值填充(pandas包)
- 异常值处理
- 是否有噪音,是否需要数据清洗
- 数据分布(Label类别分布、句子长度分布、统计特征的分布异常值、统计字段的缺失比例)+不均衡分布处理 (3)特征工程(特征值抽取)
- 脱敏数据特征提取
- 文本的向量处理(参考天池的新闻文本分类也是处理文本向量)
- 抽取的角度(需要头脑风暴)
- 特征处理(归一化、特征、标签编码) (4)分类模型
- 分类算法:NB(Naive Bayes),决策树、SVM、KNN、LR(Logistic Regression)等
- 集成学习:RF(Random Forest)、GBDT、Adaboost、XGBoost、LightGBM、GatBoot等
- 神经网络:DL模型如CNN、LSTM、RNN等 当数据量不大,暂不优先考虑神经网络 (5)优化
- 算法优化
- 参数优化
查找相关和类似赛题(关键词:文本分类、多分类、文本向量处理、文本向量神经网络、脱敏数据处理)
- 文本分类:天池新闻文本赛题
- 二分类:Kaggle泰坦尼克号二分类问题
- 文本多分类:FlyAI医疗文本分类
- 脱敏数据的处理赛题:2018 腾讯广告算法大赛、2018 高校大数据挑战赛—快手活跃用户预测、2018JD Dialog Challenge 任务导向型对话系统挑战赛(比赛信息汇总)
- 数据处理相关赛题:天猫重复购买预测