文本分类


题目要求

探索文本分类机器学习问题,重点关注:

  1. 文本数据预处理:特征工程;
  2. 模型构建、训练与评测;
  3. 如何使用GridSearch进行超参数调优。

作业要求:

  1. 仔细阅读范例代码:start_code.py,熟悉和了解处理过程;
  2. 仿照上述代码,针对于给定的电影评论数据集,完成以下工作:
    (1) 预处理数据:随机划分训练集和测试集;
    (2) 构建一个文本分类器,将电影评论分为积极的或消极的;
    (3) 使用网格搜索(GridSearch)找到一组最好的参数;
    (4) 评估模型在测试集上的性能。

电影评论数据集:pos子目录为正例文本(1000个),neg子目录为负例文本(1000个);一个文件一个样例。

代码参考

点我跳转

知识涉及


文章作者: ╯晓~
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ╯晓~ !
评论
  目录