小说文本整理器
小说文本整理器 是专门为网络小说、电子书等长篇文本设计的一站式整理工具。能自动修复格式错乱、清理广告水印、规范章节标题、按章节重排、可选繁简转换 —— 让杂乱的小说文本变得整齐易读。

这个工具能解决什么问题?
下载的小说常见痛点:
- 排版乱:段落不分、章节连写、空行混乱
- 广告水印:下载器标记、群号推广、"分卷阅读"
- 格式不统一:繁简混杂、全角/半角字符乱
- 断行错乱:句子被错误打断、不该断的地方多空行
- 章节错位:目录乱序、章节标题没换行
页面结构
左右两栏布局:
- 左栏:文件上传 + 文本输入 + 三个主操作按钮 + 结果卡
- 右栏:三段式配置 Collapse + 保护词典面板
左栏:输入与操作
文件上传
- 拖拽或点击上传,支持 TXT、MD 等文本格式
- 默认多文件模式,可同时拖入整个小说合集
- 单文件模式下(在高级设置里开启)新上传会替换当前文件
三个主操作按钮
完成后内容会自动复制到剪贴板并显示在结果卡。
右栏:三段配置(Collapse)
1. 排版(默认展开)
- 智能换行(默认开):根据中文标点、纯数字行、特殊起始符判断段落边界,重新合并/分段
- 子开关 段落缩进(仅在智能换行启用时显示,默认开):每段开头加
\t缩进,更像正规书籍
- 子开关 段落缩进(仅在智能换行启用时显示,默认开):每段开头加
- 智能分段(默认关):长段落按句子算法(compromise 英文 NLP + 中文标点)拆分成更短的段落,手机阅读更友好
2. 内容清理(默认折叠)
- 章节标题格式化(默认开):识别"第X章"、"Chapter N"等格式并规范化
- 清除行尾数字(默认关):仅对长度 ≥ 10 的行移除末尾数字(避免误删短标题里的年份)
- 修整空格(默认开):移除每行首尾空格
- 去除相邻重复行(默认关):仅删除相邻重复行(不是全文去重,避免误删频繁出现的短对白如"嗯"、"好")
- 特殊起始文本输入:填小说名或常见标题词。匹配的行会强制独立成段(避免被误合并)
- 过滤词 + 过滤阈值:
- 过滤词框:逗号分隔的关键词(
群号,下载器),所有含这些词的整行被删除 - 过滤阈值:长度大于 N 的行豁免删除(保护正文);填 0 表示不启用豁免
- 过滤词框:逗号分隔的关键词(
3. 高级设置(默认折叠)
- 繁简转换 Segmented:
- 不转换 → 跳过此步
- 繁→简 → 使用
tw → cn转换 - 简→繁 → 使用
cn → tw转换
- 单文件模式:限制为一次只处理一个文件
- 直接导出:处理完直接下载,跳过页面预览(仅单文件模式可见)
保护词典(与简繁转换工具共享)
页面右下角的「保护词典」面板:
- 总开关:启用 / 禁用全部规则
- 显示当前 s2t / t2s 规则数量
- 管理规则按钮:打开抽屉,增删改单条规则、批量导入/导出
- 失效提示:若繁简转换模式设为"不转换",面板下方提示"规则当前未生效"
工具与「简繁转换」共享同一份保护词典(同 localStorage 键),一处编辑两处生效。仅在高级设置的繁简转换实际启用时才参与处理。
自动处理流程(开始处理按钮)
按钮触发的完整管道:
- 繁简转换(如启用):应用对应的保护规则
- 规范换行 + 清理小说杂质:统一
\r\n→\n、移除常见下载器水印 /分卷阅读标记 / 等号横线行 - 全角转半角:英文字母、数字、标点统一为半角
- 章节标记格式化:把
第X章:中的冒号换为空格、压缩章节标记后的多余空格 - 章节分割(如启用):拆分行内连写的章节标题
- 关键词过滤(如填了):删除含关键词的整行(受阈值豁免保护)
- 行尾数字清除(如启用):长行去掉末尾数字
- 智能分段(如启用):长段落拆分
- 智能换行 / 段落缩进:合并断句、分段、加缩进、压缩多余空行
结果区
完成后底部出现结果卡:
- 自动复制到剪贴板
- 复制 / 导出文件 / 编辑结果:与简繁转换工具一致
- 结果 → 原文本:把结果填回输入区做下一步(少用)
启用「直接导出」时跳过结果显示直接下载。
使用建议
第一次使用
- 先用一小段(1-2 章)测试效果,调好配置再处理整本
- 关键词过滤先填 1-2 个明显的水印词,确认无误后再扩充清单
进阶技巧
- 过滤阈值是核心:设成 50(或文本平均段落长度)能精确删除短水印行而保留长正文
- 章节重排单独跑:只想理顺章节顺序时点章节重排,不要走"开始处理"全流程
- 保护词典预先编辑:简繁混杂的稀有人名先加入词典,再走"开始处理"
适用场景
- 从盗版小说站下载的格式混乱文本
- 爬虫 / 自动下载器获取的小说合集
- OCR / PDF 复制后的长篇文本
- 准备导入 Kindle / Moon+ Reader / 微信读书前的预处理
技术说明
对于复杂的混淆水印(故意打乱字符顺序的推广信息),可以用「过滤词」+「过滤阈值」组合处理。极复杂的混淆建议先用「多功能文本处理」工具配合自定义正则处理后,再交给本工具做排版。
工具完全在浏览器本地运行,不上传任何数据。

