概念笔记 AI / ML 进阶 2026-05-15

NLP — 自然语言处理

💡
一句话定义

NLP(Natural Language Processing)是让计算机理解、生成和推理人类语言的技术领域。它是人工智能的核心分支之一,连接了语言学、计算机科学和深度学习三个学科。

为什么需要 NLP?

人类每天产生超过 2.5 百亿亿字节的数据,其中约 80% 是非结构化文本——邮件、文档、社交媒体、客服对话、法律合同、医疗病历。对于计算机而言,这些文本不过是一串字节。没有 NLP,这些数据的价值几乎为零。

具体来说,NLP 解决三大类问题:

一句话概括:没有 NLP,人机交互就只能停留在点击按钮和填写表单的时代。

核心直觉

想象你是一个只会说数学的外星人。有人给你一本中文小说,你看到的不是故事,而是数百万个汉字排列组合。你不知道"开心"和"快乐"是近义词,不知道"不错"在反讽时意思是"很差"。

NLP 就是教会计算机做三件事:

  1. 把文字变成数字(Tokenization + Embedding)—— 外星人学会了用数字编码每个汉字
  2. 理解数字之间的关系(Model / Attention)—— 外星人发现"开心"和"快乐"的数字编码很接近
  3. 把数字变回文字(Decoding / Generation)—— 外星人用数字重新组合出新的句子
关键洞见

NLP 的本质问题不是"理解语言"——计算机永远不会像人一样"理解"语言。NLP 的问题是:如何在数学上建模语言的统计规律,使机器的输出在统计意义上等价于人类语言行为。

发展脉络

NLP 不是一夜之间冒出来的,它经历了五次范式转移,每一次都重新定义了"什么是可能的":

1950s — 规则时代
基于人工编写的语法规则和词典。研究者试图用形式逻辑定义语言结构。成果有限——人类语言太复杂、例外太多。
1980s — 统计时代
从规则转向概率模型。隐马尔可夫模型(HMM)、n-gram 语言模型成为主流。核心转变:语言不是规则,是概率
2013 — 深度学习浪潮
Word2Vec 证明了词向量可以捕获语义关系。RNN/LSTM 开始在序列建模上超越传统方法。
2017 — Transformer 革命
Google 发表 "Attention is All You Need"。自注意力机制彻底取代了 RNN 的序列依赖,开启了预训练大模型时代。
2022 — LLM 时代
ChatGPT 发布,GPT 系列证明了大规模预训练 + 指令微调 + RLHF 可以产生接近通用 AI 的语言能力。NLP 从"分类任务"走向"生成任务"。

它是怎么工作的?

现代 NLP 系统的处理流程可以抽象为一个经典 Pipeline。无论底层是 RNN 还是 Transformer,宏观步骤是相似的:

文本输入 Raw Text 分词 Tokenization 向量化 Embedding 模型编码 Encoding 输出解码 Decoding "今天天气不错" ["今天","天气","不错"] [0.23, -0.71, ...] 上下文语义向量 分类/生成/抽取

步骤详解

核心任务分解

NLP 不是一个单一任务,而是一个任务谱系。按抽象层级从低到高排列:

层级典型任务说明
词级 分词、词性标注(POS)、命名实体识别(NER) 确定每个词的边界和语法角色
句级 句法分析、依存分析、情感分析 理解句子结构和态度倾向
段级 文本分类、信息抽取、摘要生成 从段落中提取和重组信息
篇章级 机器翻译、阅读理解、对话系统 跨句子推理和长程依赖建模
生成级 文本生成、代码生成、创意写作 从零生成连贯、有目的的文本
ℹ️
LLM 时代的任务坍缩

在 GPT 等大模型出现后,许多传统独立任务(分词、NER、情感分析)被统一为"序列到序列生成"(Seq2Seq)范式。你不再需要一个专门的情感分析模型——直接让 LLM 判断即可。但这不代表底层能力消失了,而是被编码进了大模型的参数中。

三大技术范式

理解 NLP 的关键,是理解它经历了三种截然不同的"做研究的方式"。这三种范式至今仍有各自的适用场景:

基于规则(Rule-based)

人工编写语法规则 + 词典匹配。代表:正则表达式、专家系统。适合高度结构化的场景(如解析固定格式的日志),但无法处理语言的多样性和歧义性。

1950s - 1980s 主流 | 精确但脆弱

统计学习(Statistical ML)

从数据中自动学习语言模型。代表:TF-IDF、n-gram、SVM、CRF。核心思想:语言是一个随机过程,通过统计规律建模。适合标注数据充足的分类任务。

1990s - 2012 主流 | 数据驱动但浅层

深度学习 / 神经网络(Deep Learning)

端到端学习,从原始文本直接映射到输出。代表:LSTM、Transformer、BERT、GPT。通过海量数据和算力自动发现语言特征。

2013 至今主流 | 强大但需要大量资源

📌
为什么深度学习"赢了"?

深度学习并不总是更好的。它在数据量足够大、计算资源充足时碾压前两种方法,但对于低资源语言、小样本场景或需要精确控制的工业流水线(如银行合同解析),规则系统 + 统计模型的组合仍然是最可靠的选择。

现代 NLP 技术栈

如果你要在 2026 年构建一个 NLP 应用,你会接触到以下技术层:

技术层关键技术代表工具/模型
分词 BPE, WordPiece, SentencePiece, Unigram tiktoken, sentencepiece, HuggingFace Tokenizers
词嵌入 静态嵌入 (Word2Vec, GloVe) / 上下文嵌入 (BERT) GloVe, fastText, sentence-transformers
预训练模型 Encoder-only (BERT), Decoder-only (GPT), Encoder-Decoder (T5) LLaMA, Qwen, GLM, BERT, T5
微调方法 全参数微调, LoRA, QLoRA, RLHF, DPO PEFT (HuggingFace), trl, DeepSpeed
推理优化 量化 (INT8/INT4), KV Cache, Speculative Decoding vLLM, llama.cpp, ONNX Runtime, TensorRT-LLM
应用框架 RAG, Agent, Function Calling, Structured Output LangChain, LlamaIndex, Semantic Kernel

三种预训练架构的选择

Encoder-only (BERT)

双向注意力,擅长理解任务。适合文本分类、NER、语义相似度。对生成任务不擅长。

✅ 分类 / 理解任务首选

Decoder-only (GPT)

因果注意力(只能看左侧),擅长生成任务。当前 LLM 的主流架构。适合对话、写作、代码生成。

✅ 生成任务首选,当前最主流

Encoder-Decoder (T5/BART)

联合编码-解码,适合需要同时理解输入和生成输出的任务。如翻译、摘要。

✅ 翻译 / 摘要任务首选

与相关概念的关系

ℹ️
NLP vs NLU vs NLG

NLP 是整个领域的总称。NLU(自然语言理解)专注于"理解"——分类、抽取、推理。NLG(自然语言生成)专注于"生成"——写作、翻译、对话。可以将 NLP 看作 NLU + NLG 的合集。

ℹ️
NLP vs 计算机视觉(CV)

CV 处理像素,NLP 处理 token。CV 的输入是连续信号(图像),NLP 的输入是离散符号(文字)。但两者的底层模型架构正在融合——Transformer 同时统治了这两个领域。

📌
依赖于:机器学习 / 深度学习

NLP 的模型训练、损失函数设计、优化算法都建立在 ML/DL 基础之上。不理解反向传播、梯度下降、过拟合,就无法理解 NLP 模型为什么能工作以及为什么失败。

被 LLM / AI Agent 使用

NLP 的研究成果是 LLM 和 AI Agent 的基石。Tokenizer 来自 NLP 的分词研究,注意力机制来自 NLP 的序列建模,RLHF 来自 NLP 的文本评估研究。LLM 可以视为 NLP 领域的"大一统模型"。

典型应用场景

工业级应用

专业领域应用

常见误解与陷阱

误以为:LLM "理解"语言

LLM 不理解语言的意义,它学习的是 token 之间的统计共现模式。它能说出"苹果是红色的",不是因为知道苹果是什么,而是因为在训练语料中"苹果"和"红色"频繁共现。这种区别在常识推理和幻觉问题上尤为明显。

误以为:大模型一定能替代专用 NLP 模型

对于标准 NLP 基准测试(如 GLUE、SuperGLUE),小而精的专用模型(如 DeBERTa)在特定任务上的表现往往优于通用大模型,且推理成本低 10-100 倍。大模型的优势在于泛化能力和零样本能力,而非在所有任务上都最优。

误以为:NLP 已经"解决"了

NLP 仍面临根本性挑战:多语言公平性(95% 的 NLP 研究集中在英语和中文)、偏见和歧视(模型会复制训练数据中的社会偏见)、可解释性(我们无法完全解释模型为什么做出某个判断)、以及对 adversarial 攻击的脆弱性。

误以为:更多数据 = 更好性能

数据质量比数量更重要。互联网上存在大量低质量、重复、有毒的文本。用这些数据训练的模型会继承这些缺陷。数据清洗、去重、质量过滤是现代 NLP 工程中极其重要但常被低估的环节。

延伸阅读

📝 个人笔记