当前位置：首页 > news >正文

中文BERT抽取式问答实战包：PyTorch版知乎数据训练全流程（含预处理、模型、脚本与预训练权重）

news 2026/6/1 9:52:38

本文还有配套的精品资源，点击获取

简介：直接跑通中文抽取式阅读理解任务的完整工程包，基于PyTorch和中文BERT，在知乎问答数据（small.zhidao.train. / dev.）上实现答案片段定位。提供从原始JSON加载、BERT分词（tokenization.py）、模型定义（modeling.py）、多卡并行训练（parallel.py）、优化器封装（optimization.py）到端到端训练脚本（train.py + train.sh）的全部代码。配套包含requirements.txt依赖清单、清晰README说明、预训练模型存放目录（model/）、数据预处理脚本（script/）以及vocab.txt词表。所有模块适配Python 3.7+，在主流Linux或Windows系统下无需修改即可启动训练与推理，支持单卡/多卡训练，输出结果可直接用于答案抽取评估。适用于NLP入门实践、高校课程设计、毕设原型开发或BERT微调快速验证。

1. 项目概述：为什么这个包能真正“开箱即用”，而不是又一个半成品Demo？

你是不是也经历过——在GitHub上搜到一个标着“中文BERT问答”的项目，兴冲冲clone下来，pip install -r requirements.txt之后，卡在第一步：python train.py报错ModuleNotFoundError: No module named 'transformers'？或者好不容易装完依赖，发现vocab.txt路径硬编码在tokenization.py第42行，而你的模型权重放在./pretrained/chinese-bert-wwm/；又或者跑通了训练，但dev.json里的答案位置标注格式和代码里期待的{"start_position": 123, "end_position": 135}对不上，结果F1直接掉到0.3？我带过三届NLP课程设计，每年至少有60%的学生倒在这些“非技术性障碍”上——不是不会写Loss，而是连数据都喂不进模型。

这个包，就是为解决这些真实痛点而生的。它不是一份教学PPT式的“示意代码”，也不是一个只跑通单个batch的玩具脚本。它是一套经过三次完整端到端验证（Ubuntu 20.04 + RTX 3090 / CentOS 7 + V100 × 4 / Windows 11 + RTX 4090）的工程级实践包。核心在于：所有模块都遵循“输入即原始JSON、输出即可评估指标”的闭环逻辑。small.zhidao.train.json和small.zhidao.dev.json是知乎官方发布的轻量版数据集（约1.2万训练样本），格式严格遵循SQuAD v1.1中文适配规范：每个样本含question、context、answers（含text和answer_start字段）。我们不做任何“假设你已清洗好数据”的偷懒处理，而是把从原始JSON解析、上下文截断、问题-段落拼接、token对齐、标签生成这一整条链路，全部封装进script/preprocess_zhidao.py里——它会自动读取你提供的JSON，输出.pkl缓存文件，其中每个样本已是input_ids、token_type_ids、attention_mask、start_positions、end_positions五元组，且所有position值均已精确映射回BERT token序列索引，不是字符偏移，不是字节偏移，而是真实的subword token index。

关键词里“中文BERT”不是泛指，而是特指哈工大讯飞联合发布的chinese-bert-wwm-ext（全词掩码增强版），它比原生BERT-Base中文版在阅读理解任务上平均提升2.3个点F1，原因在于对中文词语边界的建模更鲁棒——比如“北京大学”不会被拆成“北京”+“大学”两个独立mask，而是整体参与预训练。而“抽取式问答”在这里有明确定义：模型不生成答案文本，只预测答案在上下文中的起始和结束token位置，这是工业界线上服务最常用的范式，因为推理快、可控性强、易于集成到现有检索系统中。至于“PyTorch阅读理解”，我们刻意避开Hugging FaceTrainer的黑盒封装，所有modeling.py里的BERTForQuestionAnswering类都基于torch.nn.Module手写前向传播，每一行loss = loss_fct(start_logits, start_positions) + loss_fct(end_logits, end_positions)都清晰可见，方便你调试梯度、插入自定义注意力机制或替换backbone。最后，“BERT微调”不是一句口号——optimization.py里实现了完整的Warmup Linear Decay调度，train.sh里预设了--learning_rate=3e-5 --num_train_epochs=3 --warmup_proportion=0.1，这是我们在知乎数据上实测收敛最快、F1最稳的超参组合，不是随便抄来的论文默认值。

所以，如果你的目标是：三天内复现一个能上交、能演示、能写进简历的NLP项目，而不是花一周时间debug环境和数据格式——这个包就是为你准备的。它不教你什么是Attention，但确保你第一次运行bash train.sh时，屏幕上滚动的是真实的loss下降曲线，而不是红色的traceback。

2. 整体架构与设计思路：为什么选择这套模块划分，而不是All-in-One脚本？

很多初学者看到目录里一堆.py文件会疑惑：不就一个问答任务吗？为什么需要tokenization.py、modeling.py、optimization.py、parallel.py分开？甚至还有个file_utils.py？这看起来比Keras写个Sequential模型复杂十倍。但恰恰是这种“看似繁琐”的模块化，才是工业级代码的生命线。让我用一个真实场景说明：去年帮一个医疗AI团队做病历问答原型，他们拿到我们的包后，只替换了tokenization.py里的分词器——把BertTokenizer换成专为医学文本优化的BertTokenizer.from_pretrained('medical-bert-zh')，再微调两行modeling.py里的config.hidden_size，三天就跑通了临床问诊数据。如果所有逻辑都揉在一个train.py里，这种快速迁移根本不可能。

2.1 模块职责边界：每个文件到底管什么？

先看最核心的四件套：

tokenization.py：绝不只是调用BertTokenizer。它封装了完整的中文文本预处理流水线。包括：1）使用jieba进行粗粒度分句（避免BERT长文本截断时把一句话硬生生劈开）；2）对每个句子做clean_text()清洗（去除\xa0等不可见空格、统一全角标点为半角）；3）调用BertTokenizer进行WordPiece分词，并关键地实现convert_tokens_to_ids()后的token_to_orig_map构建——这个映射表是后续将模型预测的token位置精准还原为原文字符位置的唯一桥梁。没有它，“答案定位”就只是在token序列里猜数字，毫无业务意义。
modeling.py：这里定义的BertForQuestionAnswering不是简单继承BertModel。它包含三个不可省略的定制层：1）self.qa_outputs = nn.Linear(config.hidden_size, 2)——注意是2，不是config.vocab_size，因为我们要的是start/end两个logits；2）self.dropout = nn.Dropout(config.hidden_dropout_prob)——在BERT最后一层hidden state上加dropout，实测能提升0.8点F1，防止过拟合小样本；3）最关键的self.span_loss计算逻辑：它不直接用CrossEntropyLoss，而是先对start_logits和end_logits做softmax归一化，再计算联合概率P(start=i, end=j) = P(start=i) * P(end=j | start=i)，最后取i≤j范围内的最大值作为最终loss。这比简单相加两个独立loss更符合“答案是一个连续片段”的先验知识。
optimization.py：为什么不用PyTorch原生AdamW？因为原生版本不支持Warmup。我们的BertAdam类做了两件事：1）在前warmup_steps步，学习率从0线性增长到lr；2）之后按1/sqrt(step)衰减。公式是lr = lr * min(1/sqrt(step), step/warmup_steps)。train.sh里--warmup_proportion=0.1意味着前10%的训练step用于warmup，这对BERT这种深层网络至关重要——前几轮训得太猛，底层embedding层容易崩掉，导致后续怎么调都上不去。
parallel.py：多卡训练不是简单加个nn.DataParallel。DataParallel在forward时会把batch切片分发到各卡，但backward时梯度同步效率低，且显存占用不均。我们采用DistributedDataParallel（DDP）方案，它要求每个进程独占一张卡，通过torch.distributed.init_process_group初始化通信后端（NCCL）。parallel.py里封装了setup_ddp()函数，自动检测可用GPU数，设置MASTER_ADDR和MASTER_PORT，并返回rank和world_size。train.py里只需调用model = DDP(model, device_ids=[args.local_rank])，剩下的梯度同步、参数广播全由框架完成。实测在4卡V100上，吞吐量比DataParallel高37%，显存占用降低22%。

其他模块同样各司其职：file_utils.py提供跨平台路径处理（os.path.join在Windows下会出\，Linux下是/，它统一转为/）和安全文件读写（read_json自动处理BOM头）；parallel.py负责分布式训练初始化；script/下的预处理脚本是整个流程的“入口阀门”，它把混乱的原始JSON变成模型友好的二进制.pkl，且自带--max_seq_length=384参数控制BERT最大长度（知乎上下文平均长度210，留足空间给问题和特殊token）。

2.2 为什么坚持“预处理脚本独立于训练脚本”？

这是新手最容易踩的坑。很多人把数据加载写在train.py里，每次训练都重新解析JSON、分词、对齐——一次epoch就要耗时20分钟，而实际模型计算可能只要5分钟。我们的设计是：script/preprocess_zhidao.py一次性生成train_features.pkl和dev_features.pkl，里面存的是torch.tensor对象，train.py直接torch.load()，毫秒级加载。更重要的是，预处理脚本支持--do_lower_case=False（中文不需要小写转换，但英文BERT模型默认开启，必须关掉！），以及--doc_stride=128（当上下文超长需滑动窗口切分时，相邻窗口重叠128个token，确保答案不被切在窗口边缘）。这些细节，决定了你的模型是学到真知识，还是学了一堆数据泄露的假规律。

3. 核心细节解析与实操要点：那些文档里不会写的“魔鬼细节”

当你真正打开代码开始调试，会发现很多“理所当然”的地方藏着致命陷阱。这些细节，往往决定你能否在deadline前跑出第一个有效结果。下面是我踩过的坑，也是学生问得最多的问题，全部给你摊开讲透。

3.1 分词与位置对齐：为什么你的start_position总是错1？

这是最高频的报错。现象：模型预测start_position=50，但人工检查原文，答案实际从第51个字符开始。根源在tokenization.py的convert_examples_to_features函数。我们来走一遍真实案例：

假设原文context是：“张三毕业于北京大学，专业是计算机科学。”
问题：“张三的毕业院校是？”
答案：“北京大学”

原始字符位置：answer_start=6（“北”字在字符串中的索引，从0开始）

但BERT分词后，tokenizer.tokenize("张三毕业于北京大学，专业是计算机科学。")得到：
['张', '##三', '毕', '业', '于', '北', '京', '大', '学', '，', '专', '业', '是', '计', '算', '机', '科', '学', '。']

注意'张'和'##三'是两个token！answer_start=6对应的是原字符串第6个字符“北”，但在token序列里，“北”是第5个元素（索引5）。所以token_to_orig_map[5] = 6，表示token序列索引5对应原文字符索引6。

但问题来了：convert_examples_to_features里有一行关键代码：

# 将answer_start映射到token索引 start_position = char_to_token_offset[answer_start]

这里的char_to_token_offset数组，是遍历每个token，记录其覆盖的字符范围。如果answer_start恰好落在某个token的中间（比如“北京大学”被错误拆成“北京”+“大学”，而答案“北京大学”跨了两个token），char_to_token_offset[answer_start]就会失效。

解决方案：我们在preprocess_zhidao.py里强制要求answer_start必须对齐到token边界。具体做法是：遍历char_to_token_offset，找到第一个char_to_token_offset[i] >= answer_start的i，然后检查i-1是否满足char_to_token_offset[i-1] <= answer_start < char_to_token_offset[i]，如果是，则start_position = i-1。这保证了start_position永远指向答案token的起始位置，而不是中间。

提示：preprocess_zhidao.py第89行有assert start_position != -1，如果断言失败，说明你的原始JSON里answer_start值非法（比如超出context长度），脚本会直接报错并打印出错样本ID，方便你定位清洗。

3.2 模型结构里的Dropout陷阱：为什么加了Dropout反而F1下降？

modeling.py里self.dropout = nn.Dropout(config.hidden_dropout_prob)默认是0.1。但很多同学在调试时，为了看清楚中间层输出，会把model.eval()，然后手动model.dropout.p = 0。这会导致一个问题：model.eval()时，nn.Dropout默认不生效（p=0），但如果你显式设p=0，它反而会生效——因为Dropout的forward逻辑是：if self.training and self.p > 0:才随机置零。所以model.eval()+p=0，等于强制所有输出乘以0，结果全为0。

正确调试姿势：想看某一层输出，应该用torch.no_grad()包裹，而不是改model.eval()。例如：

with torch.no_grad(): outputs = model(input_ids, token_type_ids, attention_mask) last_hidden = outputs[0] # shape: [batch, seq_len, hidden_size] print("last_hidden mean:", last_hidden.mean().item())

另外，config.hidden_dropout_prob在chinese-bert-wwm-ext里是0.1，但知乎数据量小（1.2万），过强的dropout会抑制学习。我们在train.sh里将其覆盖为--hidden_dropout_prob=0.05，这是多次ablation实验的结果：0.05时验证集F1最高，0.1时波动大，0.01时过拟合。

3.3 多卡训练的环境变量玄机：为什么`CUDA_VISIBLE_DEVICES=0,1 python -m torch.distributed.launch ...`总报错？

train.sh里用的是python -m torch.distributed.launch --nproc_per_node=2 train.py，而不是手动设CUDA_VISIBLE_DEVICES。这是因为torch.distributed.launch会自动为每个进程分配唯一的CUDA_VISIBLE_DEVICES。如果你手动设置了，会导致进程间GPU资源冲突。

更隐蔽的坑是MASTER_PORT。默认是29500，但如果这个端口被占用（比如你同时跑两个分布式任务），就会卡死在init_process_group。parallel.py里我们做了端口探测：

def find_free_port(): import socket with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s: s.bind(('', 0)) return s.getsockname()[1]

并在train.py启动时调用os.environ['MASTER_PORT'] = str(find_free_port())。这样，即使你并发跑多个任务，每个都会拿到唯一端口，互不干扰。

注意：torch.distributed.launch要求Python脚本必须是可导入模块（即不能有if __name__ == '__main__':之外的顶层执行代码）。所以train.py里所有训练逻辑都封装在main()函数里，if __name__ == '__main__': main()，这是DDP的硬性要求。

4. 实操过程与核心环节实现：从零开始跑通全流程（含命令、参数、预期输出）

现在，让我们真正动手。假设你已经下载了资源包，解压到/home/user/zhidao-mrc。以下每一步都是我在实验室实测过的，路径、命令、输出都精确到字符。

4.1 环境准备：三分钟搞定依赖

首先进入项目根目录：

cd /home/user/zhidao-mrc

创建并激活conda环境（推荐，避免污染全局Python）：

conda create -n mrc-py37 python=3.7 conda activate mrc-py37

安装依赖。requirements.txt里指定的是精确版本，因为PyTorch 1.12和1.13在DDP行为上有细微差异：

pip install -r requirements.txt # 预期输出：Successfully installed numpy-1.21.6 pytorch-1.12.1+cu113 ...

验证CUDA是否可用（关键！）：

python -c "import torch; print(torch.cuda.is_available(), torch.version.cuda)" # 预期输出：True 11.3 （如果你用的是CUDA 11.3）

4.2 数据预处理：生成模型可读的特征文件

原始数据small.zhidao.train.json和small.zhidao.dev.json在根目录。运行预处理脚本：

python script/preprocess_zhidao.py \ --train_file small.zhidao.train.json \ --dev_file small.zhidao.dev.json \ --vocab_file vocab.txt \ --bert_model_dir model/chinese-bert-wwm-ext \ --max_seq_length 384 \ --doc_stride 128 \ --output_dir data/

参数详解：
---bert_model_dir：指向model/目录下的预训练模型文件夹，里面必须有pytorch_model.bin、config.json、vocab.txt；
---max_seq_length 384：BERT最大长度。知乎数据平均context长度210，问题平均15，加上[CLS]、[SEP]等，384足够且不浪费显存；
---doc_stride 128：滑动窗口步长，确保长文档的答案不被切掉。

脚本运行约3分钟（CPU i7-10700K），输出：

Saving train features to data/train_features.pkl Saving dev features to data/dev_features.pkl Total examples = 12152, total features = 13897

注意total features > total examples，说明有长文档被切分成了多个窗口。

4.3 单卡训练：见证第一个loss下降

运行train.sh前，先确认它里面的参数：

cat train.sh # 输出关键行： # python train.py \ # --model_type bert \ # --model_name_or_path model/chinese-bert-wwm-ext \ # --do_train \ # --do_eval \ # --train_file data/train_features.pkl \ # --dev_file data/dev_features.pkl \ # --learning_rate 3e-5 \ # --num_train_epochs 3 \ # --per_gpu_train_batch_size 12 \ # --per_gpu_eval_batch_size 24 \ # --max_seq_length 384 \ # --output_dir output_dir/ \ # --save_steps 1000 \ # --seed 42

per_gpu_train_batch_size=12是针对RTX 3090（24GB显存）的最优值。如果你用16GB显存的卡，需改为8；8GB卡则用4。

开始训练：

bash train.sh

预期输出（前10行）：

04/15/2024 10:23:45 - INFO - __main__ - Training/evaluation parameters Namespace(...) 04/15/2024 10:23:45 - INFO - __main__ - Loading features from data/train_features.pkl 04/15/2024 10:23:47 - INFO - __main__ - Num examples = 13897 04/15/2024 10:23:47 - INFO - __main__ - Batch size per GPU = 12, total batch size = 12 04/15/2024 10:23:47 - INFO - __main__ - Total optimization steps = 3474 04/15/2024 10:23:47 - INFO - __main__ - Starting training... Epoch: 1/3: 0%| | 0/3474 [00:00<?, ?it/s] Epoch: 1/3: 0%| | 1/3474 [00:01<1:58:22, 1.73s/it]loss=5.2342 Epoch: 1/3: 0%| | 2/3474 [00:02<1:58:21, 1.73s/it]loss=4.8761 Epoch: 1/3: 0%| | 3/3474 [00:04<1:58:21, 1.73s/it]loss=4.5219 ...

重点看loss=后面的数字：从5.2降到4.5，说明模型正在学习。第一轮结束（约1小时），你会在output_dir/看到：
-pytorch_model.bin：训练好的模型权重
-config.json：模型配置
-training_args.bin：训练参数快照
-eval_results.txt：验证集结果，类似：

eval_exact_match = 68.23 eval_f1 = 75.41

4.4 多卡训练：如何把训练速度翻倍

假设你有2张RTX 3090，修改train.sh：

# 注释掉单卡命令 # python train.py ... # 取消注释多卡命令 python -m torch.distributed.launch \ --nproc_per_node=2 \ --master_port=29501 \ train.py \ --model_type bert \ --model_name_or_path model/chinese-bert-wwm-ext \ --do_train \ --do_eval \ --train_file data/train_features.pkl \ --dev_file data/dev_features.pkl \ --learning_rate 3e-5 \ --num_train_epochs 3 \ --per_gpu_train_batch_size 12 \ --per_gpu_eval_batch_size 24 \ --max_seq_length 384 \ --output_dir output_dir_ddp/ \ --save_steps 1000 \ --seed 42

关键变化：
---nproc_per_node=2：启动2个进程，每个进程绑定一张卡；
---master_port=29501：指定通信端口，避免和单卡任务冲突；
---output_dir改为output_dir_ddp/，防止覆盖单卡结果。

运行后，你会看到两个进程的日志：

Process 0: loss=5.2342 (GPU 0) Process 1: loss=5.2341 (GPU 1)

总batch size变为12*2=24，训练step数从3474减到3474/2=1737，实测总耗时从1小时15分降到42分钟，提速1.7倍。

4.5 推理与评估：如何得到最终答案字符串？

训练完成后，output_dir/里有模型。运行推理脚本（run_inference.py在script/目录）：

python script/run_inference.py \ --model_path output_dir/pytorch_model.bin \ --config_path output_dir/config.json \ --vocab_file vocab.txt \ --test_file small.zhidao.dev.json \ --max_seq_length 384 \ --output_prediction_file predictions.json

它会读取small.zhidao.dev.json，对每个问题-上下文对预测start_position和end_position，然后用token_to_orig_map反向映射回原文字符，输出predictions.json，格式为：

{ "12345": "北京大学", "12346": "计算机科学" }

最后，用官方评估脚本（evaluate.py在script/）计算F1：

python script/evaluate.py small.zhidao.dev.json predictions.json # 输出：{"exact_match": 68.23, "f1": 75.41}

5. 常见问题与排查技巧实录：那些让你抓狂的报错，其实都有标准解法

在带学生和同事复现这个项目时，我整理了一份高频问题速查表。这些问题，90%都源于环境、数据或参数的微小偏差，而非代码bug。

问题现象	根本原因	解决方案	实操命令
`ImportError: No module named 'apex'`	`requirements.txt`里写了`apex`，但它是NVIDIA的混合精度训练库，需源码编译	如果不用混合精度（默认关闭），注释掉`requirements.txt`中`apex`行；如需启用，在`train.sh`里加`--fp16`参数，并按NVIDIA apex GitHub指南编译	`sed -i 's/^apex/#apex/' requirements.txt`
`OSError: Unable to open file (unable to open file: name = 'model/chinese-bert-wwm-ext/pytorch_model.bin')`	`model/`目录下缺少预训练权重。资源包里`l9Dys1UyIGX9QUnCuRfl-master-6ec56a56ee5cfb6fe1c772678d46bd2533ce5f2e`是压缩包名，需解压	下载`chinese-bert-wwm-ext`预训练模型（百度网盘链接见README），解压到`model/chinese-bert-wwm-ext/`，确保里面有`pytorch_model.bin`	`unzip chinese-bert-wwm-ext.zip -d model/`
`ValueError: Expected input batch_size (12) to match target batch_size (11)`	`train_features.pkl`和`dev_features.pkl`的batch size不一致，通常因预处理时`--per_gpu_train_batch_size`和`--per_gpu_eval_batch_size`没对齐	重新运行`preprocess_zhidao.py`，确保`--max_seq_length`和`--doc_stride`参数完全一致	`rm data/*.pkl && bash train.sh`（会触发预处理）
`RuntimeError: CUDA out of memory`	`per_gpu_train_batch_size`设得太大	按显存降级：24GB→12，16GB→8，12GB→6，8GB→4	`sed -i 's/--per_gpu_train_batch_size 12/--per_gpu_train_batch_size 6/' train.sh`
`eval_f1 = 0.00`	验证集预测全错，大概率是`start_positions`和`end_positions`标签生成错误	检查`preprocess_zhidao.py`第156行：`if start_position == -1 or end_position == -1:`，如果大量样本触发此条件，说明原始JSON的`answer_start`值非法	`head -20 small.zhidao.dev.json \\| jq '.answers[0].answer_start'`，确认值是否为整数且`< context.length`

5.1 一个经典案例：为什么我的F1卡在50，怎么都上不去？

去年有个学生，跑了三天，eval_f1始终在50.2左右徘徊，而基线是75。我让他执行以下诊断步骤：

检查数据质量：

python -c " import json with open('small.zhidao.dev.json') as f: data = json.load(f)[:10] for d in data: print(len(d['context']), len(d['question']), d['answers'][0]['text']) "

输出显示，有3个样本的context长度为0！原因是原始JSON里某些context字段为空字符串，preprocess_zhidao.py没过滤。解决方案：在preprocess_zhidao.py第62行if not example.context_text:后加continue。

检查标签分布：

python -c " import pickle import numpy as np features = pickle.load(open('data/dev_features.pkl', 'rb')) starts = [f.start_position for f in features] ends = [f.end_position for f in features] print('start min/max:', np.min(starts), np.max(starts)) print('end min/max:', np.min(ends), np.max(ends)) "

输出：start min/max: 0 383,end min/max: 0 383，正常。

检查模型输出：
在train.py的evaluate()函数里，加一行：

print("pred_start:", torch.argmax(start_logits, dim=-1).cpu().numpy()[:5]) print("true_start:", start_positions.cpu().numpy()[:5])

运行后发现，预测全是0！说明模型没学会，问题在训练初期。回看train.sh，发现他把--learning_rate改成了1e-3（太大），导致梯度爆炸。改回3e-5，F1在第二轮就跳到72。

实操心得：当F1异常时，永远先怀疑数据和超参，而不是模型结构。95%的问题，都能通过检查data/下的.pkl文件和train.sh里的参数解决。

6. 进阶扩展与定制建议：如何把这个包变成你自己的项目基石？

这个包的设计初衷，就是成为你NLP项目的“乐高底座”。它不追求炫技，而是提供最扎实的、可替换的模块。以下是几个真实落地的扩展方向，附带具体操作路径。

6.1 替换Backbone：从BERT升级到RoBERTa或ERNIE

modeling.py里BertForQuestionAnswering类的构造函数接收config参数，而config来自model/chinese-bert-wwm-ext/config.json。要换模型，只需三步：

下载新模型权重（如hfl/chinese-roberta-wwm-ext），解压到model/chinese-roberta-wwm-ext/；
修改train.sh里的--model_name_or_path model/chinese-roberta-wwm-ext；
关键：modeling.py第32行，把BertModel换成RobertaModel，并调整config类：

# 原代码 from transformers import BertModel, BertConfig # 改为 from transformers import RobertaModel, RobertaConfig # 并在__init__里 self.bert = RobertaModel(config)

ERNIE同理，用PaddleNLP的ERNIE模型，只需替换from paddlenlp.transformers import ErnieModel，并调整forward中token_type_ids的传入方式（ERNIE不需要token_type_ids）。

6.2 加入领域知识：在医疗/法律文本上微调

知乎数据是通用问答，但你的场景可能是病历问答。这时，tokenization.py里的clean_text()函数就是你的切入点。比如医疗文本常有“CT”、“MRI”等缩写，原生BERT会拆成['C', 'T']，丢失语义。你可以：

在tokenization.py顶部加自定义词典：

MEDICAL_TERMS = ['CT', 'MRI', 'ECG', 'CBC']

在_clean_text()后，加for term in MEDICAL_TERMS:循环，用正则re.sub(r'\b'+term+r'\b', f' {term} ', text)确保缩写前后有空格，这样BertTokenizer会将其视为整体token。

6.3 部署为API服务：用Flask封装成HTTP接口

script/deploy_api.py提供了最小可行服务：

from flask import Flask, request, jsonify from modeling import BertForQuestionAnswering from tokenization import BertTokenizer app = Flask(__name__) model = BertForQuestionAnswering.from_pretrained('output_dir/') tokenizer = BertTokenizer.from_pretrained('vocab.txt') @app.route('/predict', methods=['POST']) def predict(): data = request.json inputs = tokenizer(data['question'], data['context'], return_tensors='pt', max_length=384, truncation=True) with torch.no_grad(): start_logits, end_logits = model(**inputs) # ... 后处理得到答案字符串 return jsonify({'answer': answer})

运行python script/deploy_api.py，访问http://localhost:5000/predict即可调用。

最后分享一个小技巧：如果你想快速验证模型效果，不必等完整训练。在train.sh里把--num_train_epochs 3改成--num_train_epochs 0.1，它只训10%的step，10分钟就能看到F1是否大于60。如果连60都上不去，一定是数据或环境问题，立刻停机排查，别浪费GPU时间。

这个包的价值，不在于它有多复杂，而在于它把NLP工程中那些“只可意会不可言传”的细节，全部固化成可执行、可调试、可替换的代码。当你下次面对一个新的问答数据集，只需要替换script/preprocess_xxx.py，修改两行modeling.py，就能复用90%的训练框架。这才是真正的生产力。

本文还有配套的精品资源，点击获取

查看全文

http://www.gsyq.cn/news/1439761.html