您当前的位置: 首页 > 

Better Bench

暂无认证

  • 1浏览

    0关注

    695博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

【阿里天池赛题】医学影像报告异常检测--赛题思路分析

Better Bench 发布时间:2021-01-25 20:55:36 ,浏览量:1

目录
  • 详细赛题
  • 1 初赛赛题分析
  • 2 赛题处理思路
  • 3 准备工作

这是本人的目前的思考拙见,如果有问题,请在评论区指出,还在持续思考实时更新

详细赛题

【阿里天池赛题】2021年赛道一:医学影像报告异常检测

1 初赛赛题分析

(1)最多17个输入,但不固定,17类label,每个label0-1分类,但需要计算每个label的概率 样本数量为10份 训练集10000 测试集3000 (2)初赛是一个文本多标签多分类问题 sklearn包中的两个函数来计算预测结果和预测概率

  • predict():返回预测标签结果
  • predict_proba():预测属于某个标签的概率
2 赛题处理思路

(1)详细分析赛题 待完善。。。 (2)数据预处理

  • 缺失值填充(pandas包)
  • 异常值处理
  • 是否有噪音,是否需要数据清洗
  • 数据分布(Label类别分布、句子长度分布、统计特征的分布异常值、统计字段的缺失比例)+不均衡分布处理 (3)特征工程(特征值抽取)
  • 脱敏数据特征提取
  • 文本的向量处理(参考天池的新闻文本分类也是处理文本向量)
  • 抽取的角度(需要头脑风暴)
  • 特征处理(归一化、特征、标签编码) (4)分类模型
  • 分类算法:NB(Naive Bayes),决策树、SVM、KNN、LR(Logistic Regression)等
  • 集成学习:RF(Random Forest)、GBDT、Adaboost、XGBoost、LightGBM、GatBoot等
  • 神经网络:DL模型如CNN、LSTM、RNN等 当数据量不大,暂不优先考虑神经网络 (5)优化
  • 算法优化
  • 参数优化
3 准备工作

查找相关和类似赛题(关键词:文本分类、多分类、文本向量处理、文本向量神经网络、脱敏数据处理)

  • 文本分类:天池新闻文本赛题
  • 二分类:Kaggle泰坦尼克号二分类问题
  • 文本多分类:FlyAI医疗文本分类
  • 脱敏数据的处理赛题:2018 腾讯广告算法大赛、2018 高校大数据挑战赛—快手活跃用户预测、2018JD Dialog Challenge 任务导向型对话系统挑战赛(比赛信息汇总)
  • 数据处理相关赛题:天猫重复购买预测
关注
打赏
1665674626
查看更多评论
立即登录/注册

微信扫码登录

0.0353s