目录

面试题-如何处理中文分词

JAY.LIN 收录于大模型面试以及知识点整理

2025-09-03 约 335 字预计阅读 1 分钟

https://bing.ee123.net/img/rand?artid=151146915

目录

【面试题】如何处理中文分词？

一句话金句： 跳过传统分词，让模型自己学。

通俗解释：

传统方法 (过时)： 先用一个外部工具（如结巴分词）把句子切成词（如 ["我"， "喜欢"， "机器学习"]），再喂给模型。风险是分词一旦错了，模型后面全错。
现代方法 (主流)： 直接把中文句子看成是由一个个汉字组成的序列，然后对这个汉字序列应用BPE或WordPiece等子词算法。
- 模型会自己学会哪些字经常在一起出现，应该组合成一个语义单元（比如“机器学习”可能会被模型组合在一起）。
- 这种方法避免了传统分词的错误传递，更加灵活有效。

面试得分点：

指出传统方法的误差传播弊端。
强调所有主流模型（BERT、GPT等）现在都直接将汉字作为基本输入单位。