小说文本处理器
本工具 专为小说类长文本处理设计,内置多项智能化文本优化功能,适用于批量小说内容的清洗和格式优化。
处理流程
-
繁体转简体
将文本中所有繁体字自动转换为简体,保证语言一致性。
-
默认清理处理:
- 移除多余标记或无效文本(如以“分卷阅读”开头且长度不超过 10 的行)
- 全角字符(如“ABC123”)自动转换为半角
- 替换常见乱码字符(如
等)
- 中文间的多余空格清除,保留如“第 XX 章”中“章”后的空格
-
章节标题处理:
- 对以“第”开头并包含“章”字的行进行识别和规范化
- 如章节标题超长,将自动进行换行,避免标题格式失衡
-
关键词过滤(可自定义):
- 可设置关键词列表,自动删除包含指定词语的行
- 支持最大字符数限制,超出则保留原文,避免误删重要内容
-
智能换行:
- 基于中文标点与特定符号判断自然断句位置
- 自动合并过短的连续行,优化文本流畅性
- 段落缩进:每个段落前自动添加缩进,增强排版美观
手动替换规则
对于某些变形文本,如群号或推广信息,可使用循环执行的正则表达式以批量清理处理:
样本文本 |
正则表达式 |
每'.日."更;新.'新:壹!小'说?群!.5;9":9;9':;5,9,",3,8!:.9? |
每'(.{44}) |
群陆⑨⑨九⑨六壹叁⑤ |
群(.{9}) |