自然语言处理(NLP)作为人工智能的重要分支,其核心是让计算机理解、解释和生成人类语言。要掌握NLP,首先需要了解支撑人类语言运作的基本原理 - 这就是语言学基础。
语言学基础为 NLP 提供了理论框架和分析工具,主要包括以下几个关键方面:
语音学与音韵学(Phonetics & Phonology)
语音学(Phonetics)
语音学研究语音的物理特性和产生机制,关注语音的声学和生理特征。
发音器官与发音方式
辅音分类 按照发音方式和发音部位分类:
发音方式 :
发音部位 :
元音分类 按照舌位和唇形分类:
汉语语音特点
音韵学(Phonology)
音韵学研究语音系统的结构和规律,关注语音在特定语言中的功能。
音位(Phoneme)
音位变体(Allophone)
音韵规则
在NLP中的应用
形态学(Morphology)
形态学研究词的内部结构和构词规律,是词汇层面分析的基础。
基本概念
词素(Morpheme)
词根、词缀和词干
构词方式
派生(Derivation)
复合(Compounding)
屈折(Inflection)
中文形态学特点
词的概念
复合为主 :
重叠构词 :
词类活用
词干提取(Stemming)
词形还原(Lemmatization)
中文分词
词性标注
句法学(Syntax)
句法学研究句子的结构和组织规律,是理解语言语法的核心。
短语结构
句子成分
句法分析方法
短语结构文法(Phrase Structure Grammar)
依存文法(Dependency Grammar)
树形表示
中文句法特点
语序特点
特殊结构
语法化程度
句法分析的挑战
歧义问题
长距离依赖
省略现象
句法分析器
句法树库
应用任务
语义学(Semantics)
语义学研究语言的意义,是自然语言理解的核心。
词汇语义
语义关系
句子语义
命题(Proposition)
语义角色(Semantic Roles)
论元结构(Argument Structure)
语义表示
逻辑表示
框架语义学(Frame Semantics)
概念图
语义歧义
词汇歧义
结构歧义
语用歧义
词汇语义资源
语义分析任务
应用领域
语用学(Pragmatics)
语用学研究语言在具体交际情境中的使用,关注语境对意义的影响。
语境(Context)
言语行为理论(Speech Act Theory)
言外行为类型
语用现象
指示语(Deixis)
预设(Presupposition)
含义(Implicature)
合作原则(Cooperative Principle)
中文语用特点
礼貌策略
高语境文化
面子理论
对话系统
情感分析
机器翻译
中文语言特点
中文作为汉语系的代表,具有独特的语言特点,这些特点为中文NLP带来了特殊的挑战和机遇。
分词的必要性
无空格分隔
词的概念复杂
分词歧义
组合歧义
交集歧义
真歧义
分词方法
基于词典的方法
基于统计的方法
基于深度学习的方法
汉字、词汇与语法结构
汉字特点
方块字结构
象形表意特征
多音多义现象
词汇特点
构词方式丰富
词汇语义透明度高
词类转换灵活
语法结构特点
语序相对固定
语法手段多样
语法化程度低
中文NLP的特殊挑战
文本预处理挑战
分词困难
简繁转换
编码问题
语言变体处理
方言差异
文体差异
港澳台用语
语义理解挑战
语境依赖性强
文化内涵丰富
语言使用灵活
文本的层次结构
文本作为语言的载体,具有多层次的结构特征。理解这些层次结构对于设计有效的NLP系统至关重要。
字符层面(Character Level)
基本单位
字符定义
字符类型
字符级处理
编码处理
字符序列模型
应用场景
词汇层面(Word Level)
词汇定义
词汇类型
词汇表示
独热编码(One-hot Encoding)
词向量(Word Embeddings)
上下文词向量
词汇关系
形态关系
分布关系
词汇级处理
词汇规范化
停用词过滤
低频词处理
短语层面(Phrase Level)
短语定义
短语类型
短语识别
基于规则的方法
短语表示
词向量组合
短语嵌入
句子层面(Sentence Level)
句子定义
句子类型
句子表示
句子嵌入
句法结构表示
句子级处理
句子分割
句子压缩
句子改写
篇章层面(Discourse Level)
篇章结构
衔接手段
篇章关系
篇章分析
指代消解
主题建模
情感轨迹分析
篇章表示
全局向量
图表示
记忆网络
语言模型与概率语法
语言模型基础
语言模型定义
N-gram模型
马尔可夫假设
模型训练
局限性
神经网络语言模型
前馈神经网络模型
基本结构
优势
循环神经网络模型
RNN结构
LSTM/GRU
Transformer模型
自注意力机制
预训练语言模型
概率语法模型
概率上下文无关文法
参数估计
应用
依存语法模型
概率依存文法
解析算法
语言资源与标注
语料库资源
通用语料库
英文语料库
中文语料库
标注语料库
词性标注语料
语义标注语料
英文资源
WordNet
FrameNet
中文资源
HowNet
同义词词林
评估数据集
标准任务数据集
分词与词性标注
句法分析
语义分析
应用任务数据集
文本分类
问答系统
语言学与NLP的交叉研究
计算语言学
研究领域
语音技术
语法分析
语义计算
认知语言学与NLP
语言习得建模
儿童语言习得
神经认知模型
语言进化建模
计算模拟
多智能体系统
社会语言学与NLP
语言变异处理
方言识别
社会语言特征
语言政策支持
语言资源建设
语言教育技术