小说文本处理器

本工具 专为小说类长文本处理设计,内置多项智能化文本优化功能,适用于批量小说内容的清洗和格式优化。

处理流程

  1. 繁体转简体
    将文本中所有繁体字自动转换为简体,保证语言一致性。

  2. 默认清理处理

    • 移除多余标记或无效文本(如以“分卷阅读”开头且长度不超过 10 的行)
    • 全角字符(如“ABC123”)自动转换为半角
    • 替换常见乱码字符(如 等)
    • 中文间的多余空格清除,保留如“第 XX 章”中“章”后的空格
  3. 章节标题处理

    • 对以“第”开头并包含“章”字的行进行识别和规范化
    • 如章节标题超长,将自动进行换行,避免标题格式失衡
  4. 关键词过滤(可自定义)

    • 可设置关键词列表,自动删除包含指定词语的行
    • 支持最大字符数限制,超出则保留原文,避免误删重要内容
  5. 智能换行

    • 基于中文标点与特定符号判断自然断句位置
    • 自动合并过短的连续行,优化文本流畅性
    • 段落缩进:每个段落前自动添加缩进,增强排版美观

手动替换规则

对于某些变形文本,如群号或推广信息,可使用循环执行的正则表达式以批量清理处理:

样本文本 正则表达式
每'.日."更;新.'新:壹!小'说?群!.5;9":9;9':;5,9,",3,8!:.9? 每'(.{44})
群陆⑨⑨九⑨六壹叁⑤ 群(.{9})