(一)20-newsgroups 数据集

利用自省函数

(二)特征提取

一些说明:

CountVectorizer,会将文本转换为token计数矩阵,行数为文章数,列数为字典中词数,以出现作为值

TfidfTransformer, 将计数矩阵转换为标准化tf或tf-idf表示

TfidfVectorizer,将文本转换为TF-IDF特征矩阵

参考资料:

(三)朴素贝叶斯

(四)模型评估

(五)随机梯度下降的线性分类器

参考文档:

(六)基于网格搜索的超参数优化

参考文档:

(七)作业代码

1. 预处理数据

2. 构建文本分类器

3. 使用网格搜索

4. 评估模型在测试集上性能