多功能文本处理
多功能文本处理(Text Toolbox)是一款集成式的浏览器文本工具,把日常最常用的清洗、提取、格式化操作集中到一个页面上。无论是从网页粘贴下来的混乱文本、字段列表,还是需要批量重排的内容,都能一键处理。

这个工具能解决什么问题?
- 提取特定内容:从大段文本中找出网址、JSON 键名、特定模式的字段
- 清理冗余信息:删除广告行、GPT 引用标记、HTML 标签、空行
- 批量格式化:给每行加前缀/后缀,转成 Markdown 列表、CSV、SQL IN 等格式
- 数据排序整理:升降序、反转、去重(可叠加"排除列表")
- 复杂组合任务:先过滤、再正则、最后加前后缀的多步骤管道
页面结构
工具页面从上到下依次是 3 个卡片:
- 待匹配文本 —— 输入区 + 文件上传 + 右下角的「智能清理」开关
- 正则引擎 —— 正则输入框 + 5 个预设 + 3 个匹配标志 + 两个执行按钮
- 行处理工具 —— 按用途分组的所有行级操作
处理完成后底部会出现结果区,提供复制 / 导出 / 格式化 / 结果回填等操作。
输入区
- 粘贴:直接把内容粘贴到顶部文本框
- 文件上传:右下的"拖拽或点击上传"按钮,支持 TXT、MD、JSON、CSV 等富文本格式
- 智能清理开关(默认开启):开启时,几乎所有处理按钮执行前先剪掉每行首尾空格、跳过空行;关闭则保留原始结构
正则引擎
- 正则输入框:手动输入任意 JavaScript 正则
- 5 个常用预设(Tag.CheckableTag):点击即填入正则并应用对应标志
- URL(无参数):匹配标准
https://链接(不含尾部参数) - URL(宽松匹配):匹配链接含括号、分号等更多场景
- 去序号(.、):删除行首的"1. "、"2、"等序号格式
- 提取 JSON 键名:提取 JSON 中所有的键名(multiline)
- GPT cite 引用标记:清除 GPT/Claude 输出中常见的
[1]、(cite...)引用残留
- URL(无参数):匹配标准
- 3 个匹配标志:全局匹配 (g) / 多行模式 (m) / 忽略大小写 (i)
- 两个按钮:
- 执行匹配:把所有命中行抽出来,按命中数提示
- 移除匹配内容:从原文中删除所有命中部分,并把连续 3+ 换行压缩为 2 个
行处理工具(按用途分组)
整理
- 升序排列 / 降序排列:按 Unicode 字符串顺序排序(点一下切换方向)
- 反转顺序:行顺序前后颠倒
- 去重:删除完全重复的行(搭配下方"排除"列表使用 —— 排除列表内的关键词会被自动跳过去重)
- 格式化文本:清理多余空行 + 智能清理(根据开关决定是否 trim)
筛选
- 输入逗号分隔的关键词,例如
广告,推广,群号 - 点击「筛选行」按钮:删除所有含这些关键词的整行,输出到结果区
前后缀
- 前缀框:每行开头添加的内容(默认空)
- 后缀框:每行结尾添加的内容(默认
,100,可清空或改成任意内容) - 示例:前缀
-、后缀空 → 把纯文本一键转成 Markdown 列表 - 示例:前缀
'、后缀',→ 把字符串列表转成 SQLIN (...)子句
转换
- 智能分段:用
compromise英文 NLP 库识别句子边界 + 中文段落规则 - JSON 美化:宽容解析(支持未加引号的键、单引号、注释)+ 2 空格缩进格式化
- 常用链接替换:把所有
https://huggingface.co替换为https://modelscope.cn/models(适合在国内访问 HF 模型时改链)
高级(同行按钮)
- 正则提取 + 前后缀:先用正则提取内容,再批量加前后缀(一步完成两个操作)
- 分类任务批量处理:URL → 数字配对的专用流程 —— 在每行中找 URL,然后查找跟在 URL 后面的"点赞/转发/评论/播放/差/曝光/阅读"等数字,按分类输出 CSV 格式
- 相邻行交换:每两行一组前后颠倒(输入必须是偶数行)
- 自定义操作:用"URL(宽松匹配)"提取所有链接 + 反转顺序 + 用逗号合并(适合做 URL 列表反查)
排除(搭配去重)
- 行处理工具卡片最下方的多行输入框
- 用于「去重」按钮:列在这里的关键词会被跳过,不参与去重判定
- 例如:排除列表填
首页\n关于,去重时这两行即使重复也都保留
结果区
完成后底部出现结果区,提供:
- 复制:一键复制结果到剪贴板
- 导出文件:下载为
text-processed.txt - 格式化:清理结果中的多余空行
- 结果 → 原文本:把当前结果填回输入区,做下一步处理(多步处理利器)
使用建议
新手起步
- 先试预设:「正则引擎」卡片下点击预设标签一键填入
- 小数据测试:处理重要数据前用一小段试跑
- 组合操作:「过滤 → 提取 → 加前后缀」三步搞定大多数清洗任务
高效技巧
- 智能清理默认开启即可,绝大多数场景适用
- 复杂任务善用「结果 → 原文本」做多步管道
- 写不出正则时让 AI 帮忙(描述需求 + 输入样例 + 期望输出)
工具完全在浏览器本地运行,不上传任何数据,可放心处理敏感信息。

