题目要求
探索文本分类机器学习问题,重点关注:
- 文本数据预处理:特征工程;
- 模型构建、训练与评测;
- 如何使用GridSearch进行超参数调优。
作业要求:
- 仔细阅读范例代码:start_code.py,熟悉和了解处理过程;
- 仿照上述代码,针对于给定的电影评论数据集,完成以下工作:
(1) 预处理数据:随机划分训练集和测试集;
(2) 构建一个文本分类器,将电影评论分为积极的或消极的;
(3) 使用网格搜索(GridSearch)找到一组最好的参数;
(4) 评估模型在测试集上的性能。
电影评论数据集:pos子目录为正例文本(1000个),neg子目录为负例文本(1000个);一个文件一个样例。