计算语言学


计算语言学 ≈ 自然语言处理 = 语言信息处理 ≠ 计量语言学

PPT:

  • 2.语言学基础
    • 语言学研究的系统性和层次性
    • 词汇系统
    • 句法系统
    • 语法系统
    • 语用系统
  • 3.语料库和语言知识库
    • 语料库就是存放语言材料的仓库
    • 语料库是以电子计算机为载体的承载语言的基础资源
    • 典型语料库
      • Brown Corpus,世界上第一个根据系统性原则采集样本的标准语料库
      • LLC口语语料库、朗文语料库
    • 典型中文语料库
      • 北京大学语料库
    • 典型词汇知识库
      • WordNet(解决词典中同义信息的组织问题)
      • 知网 HowNet(以汉语和英语的词语所代表的概念为描述对象)
      • 北语 BCC 语料库

四、数学基础⭐

自然语言处理的两种基本方法

  • 基于规则的分析方法(理论基础:Chomsky文法理论)
    • 规则库开发
    • 推导算法设计
  • 基于语料库的统计方法(理论基础:数理统计、信息论)
    • 语料库建设
    • 统计模型建立

概率论基础(1)

试验:一个可观察的人工或自然的过程

样本空间:是一个试验的全部可能出现的结果的集合。

事件:一个试验的一些可能结果的集合

基本事件复合事件:含有一个、多个样本点的随记事件。

三个公理:

  • $P(A) \ge 0$
  • $P(Ω)=1$
  • $P(A∪B)=P(A)+P(B) \quad if \quad A∩B=∅$

概率论基础(2)
  • 联合概率
    • 表示为:$P(A,B), P(AB), P(A∩B)$
    • $P(A,B)=P(A)×P(B|A)=P(B)×P(A|B)$
  • 条件概率
  • 概率的乘法原理
    • $P(A,B,C)=P(A)×P(B|A)×P(C|A,B)$
  • 事件独立:
    • $P(A|B)=P(A),P(B|A)=P(B)$
    • $P(A,B)=P(A)×P(B)$
  • 事件A与B在条件C下相互独立:
    • $P(A,B|C)=P(A|C)×P(B|C)$
    • $P(A|B,C)=P(A|C)$
    • $P(B|A,C)=P(B|C)$

概率论基础(3)
  • 全概率公式
    $$P(A)=\sum_{i=1}^nP(B_i)P(A|B_i)$$

  • 贝叶斯公式:
    $$P(B|A)=\frac{P(A|B)P(B)}{P(A)}$$

  • $P(B)$ 为 先验概率

    • 不考虑先决条件而得到的该事件的概率
  • $P(A|B)$ 为似然估计

  • 求出 后验概率 $P(B|A)$

    • 在具备该事件出现的信息的条件下得到该事件的概率

关于贝叶斯分类器

仔细理解这个贝叶斯:

$$p(类别|特征)=\frac{p(特征|类别)p(类别)}{p(特征)}$$
由此加上一定的假设,就是朴素贝叶斯分类器的基本原理:

$$y=\arg\max_{y_i}P(Y=y_i)\prod_{j=1}^nP(X_j=x^{(j)}|Y=y_i)$$


关于熵、自信息等:请参考信息学中的熵


  • 数据分类
    • 训练集、测试集、验证集
    • 封闭测试与开放测试
      • 开放测试指的是测试样本不属于训练样本集合,否则称为封闭测试
  • 性能评价
    • 准确率 Precision,判为对的中有多少个正例。$$P=\frac{tp}{tp+fp}$$
    • 召回率 Recall,正例有多少个被判为对了。$$R=\frac{tp}{tp+fn}$$
    • F1 值 $$F1=\frac{2×P×R}{P+R}$$
    • 正确率 Accurary $$Accuracy=\frac{tp+tn}{all}$$
    • 错误率 Error $$Error=\frac{fn+fp}{all}$$

注:
tp: true positive,预测为正例,判断对了。
fn: false negative, 预测为负例,判断错了

五、统计语言模型⭐

  • 语言模型
    • 用来计算一个句子的概率的概率模型
  • 噪声信道模型
    $$\hat{I}=\arg\max_I(p(I|O))=\arg\max_Ip(I)p(O|I)$$
    • I:语言文本
    • O:声音信号、字符图像信号、拼音输入等
    • P(I):语言模型
    • P(O|I):声学、图像、翻译等模型

  • 齐普夫定律⭐
    • 针对某个语料库,若某个词 w 的词频是 f,而且该词在词频表中的序号为 r,则$$f×r=k(k为常数)$$
  • 数据稀疏⭐
    • 由于训练样本不足而导致所估计的分布不可靠
  • 平滑
    • 加1平滑
    • 小于1平滑
    • Good Turing平滑
      • $p_0=n_1/N$
      • $r^*=(r+1)n_{r+1}/n_r$
      • 样本中出现 r 次的事件的概率:

$$P_r=\frac{r^*}{N}=\frac{r+1}{N}\frac{n_{r+1}}{n_r}$$

六、汉语自动分词

  • 曲折语(英语、德语、俄语等)
    • 分词(词语识别)
    • 形态还原
    • POS-Tagging 词性标注
  • 分析语(汉语)
    • 分词
    • POS-Tagging 词性标注
  • 黏着语(日语)
    • 分词
    • 形态还原
    • POS-Tagging 词性标注

汉语自动分词:通过计算机把组成汉语文本的字串自动转换为词串的过程(Segmentation)

:由语素构成的、最小的、能够独立运用的、有意义的语言单位。

  • 3.分词原则:
    • 合并原则
    • 切分原则
  • 4.分词主要难题
    • 分词规范
    • 分词起义
    • 未登录词识别
  • 5.自动分词的基本方法
    • 最大匹配分词
      • 正向最大匹配
      • 逆向最大匹配
      • 双向最大匹配
    • 基于语言模型的最大概率法分词
      • $P(Seg)=p(w1,w2,…,wi)≈p(w1)×p(w2)×…×p(wi)$
      • 词图构造
    • 最短路径分词
    • 半词法分词
    • 基于字标注的方法

七、隐马尔科夫模型⭐

隐马是对马尔可夫模型的一种扩充,

  • 随机过程
    • 随机变量的时间序列 $q_1q_2⋯q_t$
  • 马尔可夫假设
    • 随机过程中各个状态 $q_t$ 的概率分布只与它的前一个状态 $q_{t−1}$ 有关
  • 马尔可夫模型可视为一种有限状态自动机

  • 隐马尔可夫模型 λ 可以表示为一个五元组(S, V, A, B, π)
    • S 是一组状态的集合。
    • V 是一组输出符号组成的集合。
    • A 是状态转移矩阵
    • B 是输出符号的概率分布。
    • π 是初始状态概率分布
  • 三个问题
    • 评估问题(概率计算)
    • 解码问题(预测问题)
    • 学习问题(训练问题),不考

计算1:三状态马尔可夫的天气预测
计算2:向前算法,硬币问题HHT概率,别忘了乘 $b(输出符号)$
计算3:向后算法,硬币问题HHT概率,注意:$a_{ij}$
计算4:韦特比算法,硬币问题HHT最佳路径,向前算法变一下就是了

注意看表,$a_{21}$ 在第二行,第一列

参考资料:HMM模型基础

八、汉语词性标注

  • 词性标注
    • 判定自然语言句子中每个词的词类并给每个词赋以词类标记
  • 基本方法
    • 基于规则的
    • 基于统计的
    • 统计规则相结合的

九、词义计算

  • 词义的相关概念
  • 词语相似度计算
    • 基于语义词典的方法
      • 比较两个词在 WordNet 等语义词典中是否相邻
    • 基于语料统计的方法
      • 比较词语在语料库中的上下文

TF-IDF

$tf$:词项 $t_i$ 在该文档出现的次数/文档所有词项数

$idf$:逆文档频率
$$idf=log(N/dfi)$$
$N$:文档库中的文档数量,$df_i$:含有词项 $t_i$ 的文档数量

$tf∗idf$:某词项在某特定文档中出现的次数越多, 而其在越少的文档中出现, 那么这个词越能反映文档内容,越有可能成为关键词。


  • 词义消歧 Word sense disambiiguation
    • 基于统计的方法
      • 基于词袋模型的消歧
      • 基于贝叶斯判别的消歧
    • 基于词典的方法
      • 基于词典释义的消歧,Lesk方法
      • 基于义类词典的消歧
      • 基于双语词典的消歧

other

作业参考:

(1)词语搭配统计,代码参考

(2)正向最大匹配分词,代码参考

(3)贝叶斯垃圾邮件分类,代码参考

关于考试:

  • 计算题
  • 简述题
  • 证明题

考察:词义计算、相似度计算、TFIDF计算
考察:熵的计算,条件熵的计算,信息增益的计算
考察:隐马尔可夫模型

了解消歧方法名,(10)句法分析不考


文章作者: ╯晓~
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ╯晓~ !
评论
  目录