多功能文本处理

多功能文本处理(Text Toolbox)是一款集成式的浏览器文本工具,把日常最常用的清洗、提取、格式化操作集中到一个页面上。无论是从网页粘贴下来的混乱文本、字段列表,还是需要批量重排的内容,都能一键处理。

多功能文本处理界面

这个工具能解决什么问题?

  • 提取特定内容:从大段文本中找出网址、JSON 键名、特定模式的字段
  • 清理冗余信息:删除广告行、GPT 引用标记、HTML 标签、空行
  • 批量格式化:给每行加前缀/后缀,转成 Markdown 列表、CSV、SQL IN 等格式
  • 数据排序整理:升降序、反转、去重(可叠加"排除列表")
  • 复杂组合任务:先过滤、再正则、最后加前后缀的多步骤管道

页面结构

工具页面从上到下依次是 3 个卡片:

  1. 待匹配文本 —— 输入区 + 文件上传 + 右下角的「智能清理」开关
  2. 正则引擎 —— 正则输入框 + 5 个预设 + 3 个匹配标志 + 两个执行按钮
  3. 行处理工具 —— 按用途分组的所有行级操作

处理完成后底部会出现结果区,提供复制 / 导出 / 格式化 / 结果回填等操作。

输入区

  • 粘贴:直接把内容粘贴到顶部文本框
  • 文件上传:右下的"拖拽或点击上传"按钮,支持 TXT、MD、JSON、CSV 等富文本格式
  • 智能清理开关(默认开启):开启时,几乎所有处理按钮执行前先剪掉每行首尾空格、跳过空行;关闭则保留原始结构

正则引擎

  • 正则输入框:手动输入任意 JavaScript 正则
  • 5 个常用预设(Tag.CheckableTag):点击即填入正则并应用对应标志
    • URL(无参数):匹配标准 https:// 链接(不含尾部参数)
    • URL(宽松匹配):匹配链接含括号、分号等更多场景
    • 去序号(.、):删除行首的"1. "、"2、"等序号格式
    • 提取 JSON 键名:提取 JSON 中所有的键名(multiline)
    • GPT cite 引用标记:清除 GPT/Claude 输出中常见的 [1](cite...) 引用残留
  • 3 个匹配标志:全局匹配 (g) / 多行模式 (m) / 忽略大小写 (i)
  • 两个按钮
    • 执行匹配:把所有命中行抽出来,按命中数提示
    • 移除匹配内容:从原文中删除所有命中部分,并把连续 3+ 换行压缩为 2 个

行处理工具(按用途分组)

整理

  • 升序排列 / 降序排列:按 Unicode 字符串顺序排序(点一下切换方向)
  • 反转顺序:行顺序前后颠倒
  • 去重:删除完全重复的行(搭配下方"排除"列表使用 —— 排除列表内的关键词会被自动跳过去重)
  • 格式化文本:清理多余空行 + 智能清理(根据开关决定是否 trim)

筛选

  • 输入逗号分隔的关键词,例如 广告,推广,群号
  • 点击「筛选行」按钮:删除所有含这些关键词的整行,输出到结果区

前后缀

  • 前缀框:每行开头添加的内容(默认空)
  • 后缀框:每行结尾添加的内容(默认 ,100,可清空或改成任意内容)
  • 示例:前缀 - 、后缀空 → 把纯文本一键转成 Markdown 列表
  • 示例:前缀 '、后缀 ', → 把字符串列表转成 SQL IN (...) 子句

转换

  • 智能分段:用 compromise 英文 NLP 库识别句子边界 + 中文段落规则
  • JSON 美化:宽容解析(支持未加引号的键、单引号、注释)+ 2 空格缩进格式化
  • 常用链接替换:把所有 https://huggingface.co 替换为 https://modelscope.cn/models(适合在国内访问 HF 模型时改链)

高级(同行按钮)

  • 正则提取 + 前后缀:先用正则提取内容,再批量加前后缀(一步完成两个操作)
  • 分类任务批量处理:URL → 数字配对的专用流程 —— 在每行中找 URL,然后查找跟在 URL 后面的"点赞/转发/评论/播放/差/曝光/阅读"等数字,按分类输出 CSV 格式
  • 相邻行交换:每两行一组前后颠倒(输入必须是偶数行)
  • 自定义操作:用"URL(宽松匹配)"提取所有链接 + 反转顺序 + 用逗号合并(适合做 URL 列表反查)

排除(搭配去重)

  • 行处理工具卡片最下方的多行输入框
  • 用于「去重」按钮:列在这里的关键词会被跳过,不参与去重判定
  • 例如:排除列表填 首页\n关于,去重时这两行即使重复也都保留

结果区

完成后底部出现结果区,提供:

  • 复制:一键复制结果到剪贴板
  • 导出文件:下载为 text-processed.txt
  • 格式化:清理结果中的多余空行
  • 结果 → 原文本:把当前结果填回输入区,做下一步处理(多步处理利器)

使用建议

新手起步

  • 先试预设:「正则引擎」卡片下点击预设标签一键填入
  • 小数据测试:处理重要数据前用一小段试跑
  • 组合操作:「过滤 → 提取 → 加前后缀」三步搞定大多数清洗任务

高效技巧

  • 智能清理默认开启即可,绝大多数场景适用
  • 复杂任务善用「结果 → 原文本」做多步管道
  • 写不出正则时让 AI 帮忙(描述需求 + 输入样例 + 期望输出)

工具完全在浏览器本地运行,不上传任何数据,可放心处理敏感信息。