当前位置：首页 > news >正文

5步实战指南：如何为novel-downloader添加新的小说网站支持

news 2026/6/8 19:19:29

5步实战指南：如何为novel-downloader添加新的小说网站支持

【免费下载链接】novel-downloader一个可扩展的通用型小说下载器。项目地址: https://gitcode.com/gh_mirrors/no/novel-downloader

novel-downloader是一个功能强大的可扩展通用型小说下载器，专为技术爱好者和开发者设计，支持从100+个小说网站批量下载小说内容。本指南将详细介绍如何为该项目添加新的小说网站支持，涵盖从项目结构理解到规则开发的完整流程，帮助开发者快速掌握网站适配技术。

项目概述与适用场景

novel-downloader是一个基于TypeScript开发的浏览器油猴脚本，能够在支持用户脚本的浏览器中运行，自动从小说网站抓取内容并生成TXT和EPUB格式文件。该项目特别适合需要批量下载小说进行离线阅读、文本分析或数据归档的技术用户。通过模块化的规则设计，开发者可以轻松扩展支持更多小说网站。

核心概念解析：规则系统架构

规则分类体系

novel-downloader将小说网站分为三种主要类型，每种类型对应不同的目录结构：

单页式网站（src/rules/onePage/）：章节内容在同一页面内展示
双页式网站（src/rules/twoPage/）：目录和内容分页显示
特殊网站（src/rules/special/）：需要特殊处理的复杂网站

基础规则类（BaseRuleClass）

所有规则都继承自BaseRuleClass抽象类，该类定义了核心接口：

abstract class BaseRuleClass { abstract bookParse(): Promise<Book>; abstract chapterParse( chapterUrl: string, chapterName: string | null, isVIP: boolean, isPaid: boolean, charset: string, options: object ): Promise<ChapterParseObject>; }

模板函数机制

项目提供了mkRuleClass模板函数，简化了常见网站规则的创建过程：

export function mkRuleClass({ bookUrl, bookname, author, aList, getContent, contentPatch, // ...其他参数 }: MkRuleClassOptions): PublicConstructor<BaseRuleClass>

配置与部署步骤

环境准备与项目克隆

首先需要准备开发环境并获取项目源码：

# 克隆项目到本地 git clone https://gitcode.com/gh_mirrors/no/novel-downloader # 进入项目目录 cd novel-downloader # 安装依赖 yarn install

项目结构分析

了解项目目录结构是开发的基础：

novel-downloader/ ├── src/ │ ├── rules/ # 规则目录 │ │ ├── onePage/ # 单页式网站规则 │ │ ├── twoPage/ # 双页式网站规则 │ │ └── special/ # 特殊网站规则 │ ├── main/ # 核心类定义 │ ├── lib/ # 工具库 │ └── ui/ # 用户界面 ├── test/ # 测试文件 └── tools/ # 开发工具

开发工具配置

项目使用TypeScript和Webpack进行构建，开发时建议使用VS Code等现代编辑器，并安装TypeScript相关插件以获得更好的开发体验。

图：novel-downloader项目结构展示，展示了开发者工具中的网络请求监控界面

实战步骤：添加新网站支持

步骤1：分析目标网站结构

在开始编写规则前，首先需要分析目标网站的结构：

章节列表页面：查看章节链接的HTML结构和CSS选择器
章节内容页面：分析正文内容的DOM结构和清理需求
网站特性：确认是否需要登录、是否有反爬机制、是否有VIP章节

步骤2：选择合适的规则模板

根据网站类型选择合适的目录创建规则文件：

单页式网站：在src/rules/onePage/下创建新文件
双页式网站：在src/rules/twoPage/下创建新文件
特殊网站：在src/rules/special/下创建新文件

步骤3：实现基础规则类

以单页式网站为例，创建example.ts文件：

import { mkRuleClass } from "./template"; import { getHtmlDOM } from "../../lib/http"; import { log } from "../../log"; export const exampleRule = mkRuleClass({ bookUrl: "https://example.com", bookname: document.querySelector("h1.book-title")?.textContent?.trim() || "", author: document.querySelector(".author")?.textContent?.trim() || "", introDom: document.querySelector(".book-intro") as HTMLElement, introDomPatch: (content) => content, coverUrl: document.querySelector<HTMLImageElement>(".book-cover img")?.src, aList: document.querySelectorAll("#chapter-list a"), getContent: (doc) => doc.querySelector("#chapter-content"), contentPatch: (content) => { // 清理广告和无关元素 content.querySelectorAll(".ad, .comment, .share").forEach(el => el.remove()); return content; }, concurrencyLimit: 5, sleepTime: 100, maxSleepTime: 1000, needLogin: false, nsfw: false, });

步骤4：处理特殊情况

图片验证码处理

对于使用图片验证码的网站，可以使用OCR工具：

import { OCRDecoder } from "../../lib/decoders/OCRDecoder"; // 在规则中添加OCR处理 const ocr = new OCRDecoder(); const verifyCode = await ocr.decodeImage($('#verifyCode').attr('src'));

字体加密处理

参考晋江文学城的字体解密实现：

// 参考 src/rules/lib/jjwxcFontDecode.ts // 实现字体映射和字符替换逻辑

步骤5：注册新规则

在src/rules.ts中导入并注册新规则：

import { exampleRule } from './rules/onePage/example'; // 在rules数组中添加新规则 export const rules = [ // ... 其他规则 exampleRule, ];

高级技巧与优化建议

性能优化策略

并发控制：根据网站承受能力调整concurrencyLimit参数
请求间隔：设置合理的sleepTime和maxSleepTime避免被封禁
缓存利用：合理使用SessionMappingCache减少重复请求

错误处理机制

try { // 解析逻辑 } catch (error) { log.error(`解析章节失败: ${chapterUrl}`, error); // 实现重试逻辑或跳过机制 }

调试与日志

启用调试模式可以查看详细日志：

// 在浏览器控制台查看下载状态 console.log("当前下载进度:", progress);

图：小说网站目录页面示例，展示章节列表结构

故障排查与优化建议

常见问题解决方案

问题1：章节列表无法正确解析

解决方案：使用浏览器开发者工具检查CSS选择器是否正确，可能需要使用更具体的选择器或添加延迟加载处理。

问题2：内容提取包含广告

解决方案：完善contentPatch函数，添加更多的清理规则：

contentPatch: (content) => { const selectorsToRemove = [ '.advertisement', '.related-articles', '.share-buttons', 'script', 'style', 'iframe' ]; selectorsToRemove.forEach(selector => { content.querySelectorAll(selector).forEach(el => el.remove()); }); return content; }