计算语言学 ≈ 自然语言处理 = 语言信息处理 ≠ 计量语言学
PPT:
- 2.语言学基础
- 语言学研究的系统性和层次性
- 词汇系统
- 句法系统
- 语法系统
- 语用系统
- 3.语料库和语言知识库
- 语料库就是存放语言材料的仓库
- 语料库是以电子计算机为载体的承载语言的基础资源
- 典型语料库
- Brown Corpus,世界上第一个根据系统性原则采集样本的标准语料库
- LLC口语语料库、朗文语料库
- 典型中文语料库
- 北京大学语料库
- 典型词汇知识库
- WordNet(解决词典中同义信息的组织问题)
- 知网 HowNet(以汉语和英语的词语所代表的概念为描述对象)
- 北语 BCC 语料库
四、数学基础⭐
自然语言处理的两种基本方法
- 基于规则的分析方法(理论基础:Chomsky文法理论)
- 规则库开发
- 推导算法设计
- 基于语料库的统计方法(理论基础:数理统计、信息论)
- 语料库建设
- 统计模型建立
概率论基础(1)
试验:一个可观察的人工或自然的过程
样本空间:是一个试验的全部可能出现的结果的集合。
事件:一个试验的一些可能结果的集合
基本事件、复合事件:含有一个、多个样本点的随记事件。
三个公理:
- $P(A) \ge 0$
- $P(Ω)=1$
- $P(A∪B)=P(A)+P(B) \quad if \quad A∩B=∅$
概率论基础(2)
- 联合概率
- 表示为:$P(A,B), P(AB), P(A∩B)$
- $P(A,B)=P(A)×P(B|A)=P(B)×P(A|B)$
- 条件概率
- 概率的乘法原理
- $P(A,B,C)=P(A)×P(B|A)×P(C|A,B)$
- 事件独立:
- $P(A|B)=P(A),P(B|A)=P(B)$
- $P(A,B)=P(A)×P(B)$
- 事件A与B在条件C下相互独立:
- $P(A,B|C)=P(A|C)×P(B|C)$
- $P(A|B,C)=P(A|C)$
- $P(B|A,C)=P(B|C)$
概率论基础(3)
全概率公式
:
$$P(A)=\sum_{i=1}^nP(B_i)P(A|B_i)$$贝叶斯公式
:
$$P(B|A)=\frac{P(A|B)P(B)}{P(A)}$$$P(B)$ 为 先验概率
- 不考虑先决条件而得到的该事件的概率
$P(A|B)$ 为似然估计
求出 后验概率 $P(B|A)$
- 在具备该事件出现的信息的条件下得到该事件的概率
关于贝叶斯分类器
仔细理解这个贝叶斯:
$$p(类别|特征)=\frac{p(特征|类别)p(类别)}{p(特征)}$$
由此加上一定的假设,就是朴素贝叶斯分类器的基本原理:
$$y=\arg\max_{y_i}P(Y=y_i)\prod_{j=1}^nP(X_j=x^{(j)}|Y=y_i)$$
关于熵、自信息等:请参考信息学中的熵
- 数据分类
- 训练集、测试集、验证集
- 封闭测试与开放测试
- 开放测试指的是测试样本不属于训练样本集合,否则称为封闭测试
- 性能评价
准确率
Precision,判为对的中有多少个正例。$$P=\frac{tp}{tp+fp}$$召回率
Recall,正例有多少个被判为对了。$$R=\frac{tp}{tp+fn}$$F1 值
$$F1=\frac{2×P×R}{P+R}$$- 正确率 Accurary $$Accuracy=\frac{tp+tn}{all}$$
- 错误率 Error $$Error=\frac{fn+fp}{all}$$
注:tp
: true positive,预测为正例,判断对了。fn
: false negative, 预测为负例,判断错了
五、统计语言模型⭐
- 语言模型
- 用来计算一个句子的概率的概率模型
- 噪声信道模型
$$\hat{I}=\arg\max_I(p(I|O))=\arg\max_Ip(I)p(O|I)$$I
:语言文本O
:声音信号、字符图像信号、拼音输入等P(I)
:语言模型P(O|I)
:声学、图像、翻译等模型
- 齐普夫定律⭐
- 针对某个语料库,若某个词 w 的词频是 f,而且该词在词频表中的序号为 r,则$$f×r=k(k为常数)$$
- 数据稀疏⭐
- 由于训练样本不足而导致所估计的分布不可靠
- 平滑
- 加1平滑
- 小于1平滑
- Good Turing平滑
- $p_0=n_1/N$
- $r^*=(r+1)n_{r+1}/n_r$
- 样本中出现 r 次的事件的概率:
$$P_r=\frac{r^*}{N}=\frac{r+1}{N}\frac{n_{r+1}}{n_r}$$
六、汉语自动分词
- 曲折语(英语、德语、俄语等)
- 分词(词语识别)
- 形态还原
- POS-Tagging 词性标注
- 分析语(汉语)
- 分词
- POS-Tagging 词性标注
- 黏着语(日语)
- 分词
- 形态还原
- POS-Tagging 词性标注
汉语自动分词:通过计算机把组成汉语文本的字串自动转换为词串的过程(Segmentation)
词:由语素构成的、最小的、能够独立运用的、有意义的语言单位。
- 3.分词原则:
- 合并原则
- 切分原则
- 4.分词主要难题
- 分词规范
- 分词起义
- 未登录词识别
- 5.自动分词的基本方法
- 最大匹配分词
- 正向最大匹配
- 逆向最大匹配
- 双向最大匹配
- 基于语言模型的最大概率法分词
- $P(Seg)=p(w1,w2,…,wi)≈p(w1)×p(w2)×…×p(wi)$
- 词图构造
- 最短路径分词
- 半词法分词
- 基于字标注的方法
- 最大匹配分词
七、隐马尔科夫模型⭐
隐马是对马尔可夫模型的一种扩充,
- 随机过程
- 随机变量的时间序列 $q_1q_2⋯q_t$
- 马尔可夫假设
- 随机过程中各个状态 $q_t$ 的概率分布只与它的前一个状态 $q_{t−1}$ 有关
- 马尔可夫模型可视为一种有限状态自动机
- 隐马尔可夫模型 λ 可以表示为一个五元组(S, V, A, B, π)
- S 是一组状态的集合。
- V 是一组输出符号组成的集合。
- A 是状态转移矩阵
- B 是输出符号的概率分布。
- π 是初始状态概率分布
- 三个问题
- 评估问题(概率计算)
- 解码问题(预测问题)
- 学习问题(训练问题),不考
计算1:三状态马尔可夫的天气预测
计算2:向前算法,硬币问题HHT概率,别忘了乘 $b(输出符号)$
计算3:向后算法,硬币问题HHT概率,注意:$a_{ij}$
计算4:韦特比算法,硬币问题HHT最佳路径,向前算法变一下就是了
注意看表,$a_{21}$ 在第二行,第一列
参考资料:HMM模型基础
八、汉语词性标注
- 词性标注
- 判定自然语言句子中每个词的词类并给每个词赋以词类标记
- 基本方法
- 基于规则的
- 基于统计的
- 统计规则相结合的
九、词义计算
- 词义的相关概念
- 词语相似度计算
- 基于语义词典的方法
- 比较两个词在 WordNet 等语义词典中是否相邻
- 基于语料统计的方法
- 比较词语在语料库中的上下文
- 基于语义词典的方法
TF-IDF
$tf$:词项 $t_i$ 在该文档出现的次数/文档所有词项数
$idf$:逆文档频率
$$idf=log(N/dfi)$$
$N$:文档库中的文档数量,$df_i$:含有词项 $t_i$ 的文档数量
$tf∗idf$:某词项在某特定文档中出现的次数越多, 而其在越少的文档中出现, 那么这个词越能反映文档内容,越有可能成为关键词。
- 词义消歧 Word sense disambiiguation
- 基于统计的方法
- 基于词袋模型的消歧
- 基于贝叶斯判别的消歧
- 基于词典的方法
- 基于词典释义的消歧,Lesk方法
- 基于义类词典的消歧
- 基于双语词典的消歧
- 基于统计的方法
other
作业参考:
(1)词语搭配统计,代码参考
(2)正向最大匹配分词,代码参考
(3)贝叶斯垃圾邮件分类,代码参考
关于考试:
- 计算题
- 简述题
- 证明题
考察:词义计算、相似度计算、TFIDF计算
考察:熵的计算,条件熵的计算,信息增益的计算
考察:隐马尔可夫模型
了解消歧方法名,(10)句法分析不考