小说文本处理器
本工具 专为小说类长文本处理设计,内置多项智能化文本优化功能,支持高效批量处理与格式规范,适用于各类网络小说、电子书内容的整理与优化。
处理流程
-
繁体转简体
将文本中所有繁体字自动转换为简体,保证语言一致性。
-
默认清理处理:
- 移除多余标记或无效文本(如以“分卷阅读”开头且长度不超过 10 的行)
- 将英文字母、数字等全角字符统一转换为半角
- 替换常见乱码字符(如
等)
- 清除中文之间空格,仅保留格式必要的空格(如“第 XX 章”后的空格)
-
章节标题处理:
- 对以“第”开头并包含“章”字的行进行识别和规范化
- 如果章节标题超过 30,自动换行处理,避免标题格式失衡
-
关键词过滤(可自定义):
- 可设置关键词列表,自动删除包含指定词语的行
- 支持最大字符数限制,超出则保留原文,避免误删重要内容
-
尾部数字清除处理:
- 当某行长度超过 10 且以数字结尾时,自动移除行尾数字
-
智能换行:
- 基于中文标点与特定符号判断自然断句位置
- 除常见中文标题和纯数字行外,自动合并过短的连续行
- 段落缩进:每个段落前自动添加缩进,增强排版美观
手动替换规则
对于某些变形文本,如群号或推广信息,可使用循环执行的正则表达式以批量清理处理:
样本文本 |
正则表达式 |
每'.日."更;新.'新:壹!小'说?群!.5;9":9;9':;5,9,",3,8!:.9? |
每'(.{44}) |
群陆⑨⑨九⑨六壹叁⑤ |
群(.{9}) |