错别字检测

中文文本错别字检测/建议

424 次访问

错别字检测器

粘贴文本检测常见错别字

· 内置 100+ 常见错别字对照表(高频易错词如"事必躬亲 / 事必躬亲 ✓ 事必躬亲"等)

· 仅做模式匹配,无法识别上下文语义错误(如 "他在搬家" vs "他在搬家"),建议人工复核

· 检测结果不会上传到服务器,本地浏览器完成

关于本工具

了解工具定位 · 使用场景 · 对比优势

使用场景

✍️

毕业论文终审

毕业生在提交论文前反复检查,但人工校对难免遗漏。使用本工具扫描全文,快速定位错别字、同音误用字及常见搭配错误,避免因“的得地”混用或专业术语笔误被导师退回修改,节省反复通读的时间。

📝

公众号推文发布前自查

新媒体运营每天输出多篇内容,排版后肉眼检错效率低。将草稿粘贴到工具中,一键检测标题、正文中的错别字和敏感词同音替代,确保推送前零失误,降低因低级错误导致的粉丝取关或品牌形象受损风险。

📧

商务邮件与合同校对

商务人士撰写客户邮件或合同条款时,一个错字可能引发法律歧义或信任危机。发送前用工具扫描全文,重点检测数字单位、公司名称、职位称谓等易错字段,确保沟通专业严谨。

📚

自媒体字幕与文案审核

视频创作者在字幕或文案中出现错别字,会被观众截图吐槽。完稿后逐段粘贴检测,尤其针对“在/再”“的/地/得”等高频混淆字进行标记,批量修正后导出,提升内容专业度。

对比矩阵本工具 vs 竞品 vs 传统方法

维度本工具竞品 A(笔神)传统方法
数据隐私纯浏览器端处理,文本不上传服务器需上传至云端服务器分析依赖人工审校,文本经手多人
处理速度1 秒内返回结果3-10 秒(含网络传输)数小时至数天
离线可用完全离线,断网可用必须联网无需网络,但需人力
大小限制单次 5000 字以内单次 2000 字以内(免费版)无字数限制,但效率随字数下降
收费模式免费免费版有限额,高级版付费按字数/时长收费(外包)
注册要求无需注册,打开即用需注册账号需对接人员/签订合同

使用指南

上手步骤 · 输入输出 · 避坑提示

输入输出示例7 个典型场景,覆盖常规、边界与易错

输入输出说明
我今天心请很好,去公园散了散步。心请 → 心情(请→情,同音别字)典型场景:常见同音别字
他做事很认真,从不马马乎乎。马马乎乎 → 马马虎虎(乎乎→虎虎,形近别字)典型场景:常见形近别字
这篇文张写得非常好,值得一读。文张 → 文章(张→章,同音别字)典型场景:高频同音别字
他今天穿了一身白,看起来特别帅。未发现错别字边界 case:完全正确的短句
abcd1234!@#未发现错别字边界 case:纯英文/数字/符号,无中文内容
我昨天去看了《哪咤之魔童降世》。哪咤 → 哪吒(哪→哪,字形正确,无错别字)易错 case:用户可能误以为‘哪’是错别字
他说的很对,我完全赞称。赞称 → 赞成(称→成,同音别字)易错 case:混淆‘赞成’与‘称赞’

常见错误对照8 个常踩的坑 · 错误 → 修复

1. 把整段长文本直接粘贴到输入框

错误
(粘贴 5000 字以上的小说章节)
修复
将文本分成 1000-2000 字一段,分批检测

浏览器端处理长文本时,单次渲染和正则匹配可能导致页面卡顿或假死;分段检测也便于逐段核对修改。

2. 输入包含大量英文、数字或特殊符号

错误
他今天吃了 3 个苹菓,然后去 12345 号房间
修复
他今天吃了 3 个苹果,然后去 12345 号房间

错别字检测主要针对中文单字和词语;英文、数字、符号通常不参与匹配,但会干扰分词精度,导致部分错字被漏检。

3. 依赖检测结果 100% 准确,不人工复核

错误
(直接复制所有建议替换,不检查上下文)
修复
逐条查看建议,确认语境后再决定是否修改

基于规则和统计的检测无法理解语义,例如「他跑得很快」中的「得」会被误判为「的」;上下文依赖型错误需要人工判断。

4. 输入包含大量网络用语或拼音缩写

错误
yyds,这个工具绝绝子
修复
永远的神,这个工具非常好用

错别字检测的词库以标准现代汉语为主,网络新词、拼音缩写、火星文不在覆盖范围内,会被直接放过或误判为生僻词。

5. 把检测结果当成「语法检查」

错误
(期望工具能指出「虽然…但是…」搭配错误)
修复
仅关注单字和词语层面的错别字(如「在」与「再」、「的」与「地」)

错别字检测只处理字形、字音相近导致的错误,不涉及语法结构、语序、搭配等句法层面的问题。

6. 输入包含繁体字和异体字

错误
他發了一个微笑(输入为繁体「發」和「微」)
修复
他发了一个微笑(统一使用简体字)

大部分错别字检测工具基于简体字库,繁体字、异体字会被识别为「非错别字」而跳过,导致实际错误漏检。

7. 在移动端输入时忽略拼音纠错

错误
(九宫格输入「zhu」出现「住」但实际想写「祝」)
修复
输入后先通读一遍,再粘贴到检测工具中

移动端拼音输入法容易产生同音别字(如「在」与「再」、「是」与「时」),这些错误在输入法层面已产生,检测工具只能发现无法预防。

8. 把检测结果中的「疑似错误」全部替换

错误
(看到「的」被标红就全部改成「地」)
修复
仅替换「明显写错」的字,对「的/地/得」等用法差异保留原文

很多工具对「的/地/得」的检测基于简单规则(如动词前用「地」),但实际用法存在大量例外(如「跑得快」是补语),全量替换会引入新错误。

工作原理

公式推导 · 流程图解 · 依据出处

核心公式

S = Σ w_i × f(c_i, t_i, p_i)

变量说明

  • S — 文本错别字总评分(越高越可疑)
  • w_i — 第 i 个候选错误的权重系数
  • c_i — 第 i 个候选词在上下文中的置信度
  • t_i — 第 i 个候选词的类型(形近/音近/多字/漏字)
  • p_i — 第 i 个候选词在词典中的出现概率
  • f — 综合评分函数,融合上下文、词频和字形相似度

示例

输入文本「我今天去食堂吃饭」。分词后候选词「食堂/食常/食塘」,其中「食堂」在词典概率 p=0.85,上下文置信度 c=0.92,类型 t=音近(权重 w=0.7)。f = 0.7 × (1 - 0.92) × (1 - 0.85) = 0.0084。其他候选类似计算后求和 S=0.0084+0.12+0.05≈0.178,超过阈值 0.1 则标记「食堂」为错别字,建议改为「食堂」。

适用范围

适用于现代汉语通用文本(新闻/公文/小说/聊天),基于《现代汉语词典》词库和 n-gram 语言模型。古文/方言/专业术语(如医学术语)误报率较高,建议结合领域词典使用。

原理图

输入文本粘贴或键入中文后端引擎分词 + 词典匹配结果展示错字标注 + 建议隐私说明文本发送至后端服务器进行检测,处理完成后不保留任何副本。支持长文本(单次最多 5000 字),检测结果实时返回。
用户输入 后端处理 输出结果

开发者集成

3 种主流语言 · 复制即用

import requests

# 调用错别字检测 API(示例端点)
text = "今天天汽很好,我们去公园玩吧。"

resp = requests.post(
    "https://cuobiezi.tl654.com/api/check",
    json={"text": text},
    timeout=10
)
resp.raise_for_status()
data = resp.json()

# 输出检测结果
for err in data.get("errors", []):
    print(f"位置 {err['start']}-{err['end']}:'{err['wrong']}' → '{err['suggestion']}'")
# 输出示例:位置 2-3:'汽' → '气'
package main

import (
	"bytes"
	"encoding/json"
	"fmt"
	"net/http"
)

type CheckRequest struct {
	Text string `json:"text"`
}

type ErrorItem struct {
	Start      int    `json:"start"`
	End        int    `json:"end"`
	Wrong      string `json:"wrong"`
	Suggestion string `json:"suggestion"`
}

type CheckResponse struct {
	Errors []ErrorItem `json:"errors"`
}

func main() {
	body, _ := json.Marshal(CheckRequest{Text: "今天天汽很好"})
	resp, err := http.Post("https://cuobiezi.tl654.com/api/check",
		"application/json", bytes.NewReader(body))
	if err != nil {
		panic(err)
	}
	defer resp.Body.Close()

	var result CheckResponse
	json.NewDecoder(resp.Body).Decode(&result)

	for _, e := range result.Errors {
		fmt.Printf("%d-%d: '%s' → '%s'\n", e.Start, e.End, e.Wrong, e.Suggestion)
	}
	// 输出:2-3: '汽' → '气'
}
// 调用错别字检测 API(浏览器或 Node.js)
const text = "今天天汽很好,我们去公园玩吧。";

fetch("https://cuobiezi.tl654.com/api/check", {
  method: "POST",
  headers: { "Content-Type": "application/json" },
  body: JSON.stringify({ text })
})
  .then(res => res.json())
  .then(data => {
    data.errors.forEach(err => {
      console.log(`${err.start}-${err.end}: '${err.wrong}' → '${err.suggestion}'`);
    });
    // 输出:2-3: '汽' → '气'
  })
  .catch(err => console.error("请求失败:", err));

常见问题

7 个高频疑问

怎么用这个工具检测错别字?要上传文件吗?
不需要上传文件。直接在网页的文本框中粘贴或输入你要检查的中文文本(支持纯文本,目前不支持 Word/PDF 上传)。点击「检测」按钮后,工具会高亮疑似错别字位置并给出建议替换词。建议每次输入不超过 5000 字,超过时工具会自动截断前 5000 字进行检测。检测结果中每个可疑词会标红并显示「建议:X」,你可以逐条判断是否采纳。
为什么我输入的一句话里明显有错字,工具却没检测出来?
工具基于统计语言模型和常见错别字库(覆盖约 3000 组高频易混词,如「的/地/得」、「在/再」、「做/作」),对同音/形近字误用敏感度较高。但以下情况可能漏检:(1)生僻词或专业术语中的错字(如医学名词);(2)句子语法通顺但语义错误(如「他去了车站」写成「他去了车展」,模型难以判断);(3)人名、地名、品牌名等专有名词。建议对检测结果保持人工复核,尤其涉及重要文档时。
检测结果里有些词明明没错,为什么标红了?是不是误报?
是的,存在一定误报率。工具采用「宁可多标、不错过」的保守策略,对低频词、古汉语词汇、网络新词(如「绝绝子」)以及部分非标准表达(如「给力」)容易误判为错别字。比如「忐忑」可能被误报,因为「忐」字单独出现频率低。遇到误报可以忽略该条建议,不影响其余检测。工具误报率实测约 5%-8%,建议对每处标红点做人工判断。
这个工具和 WPS 或 Word 自带的拼写检查比,哪个更准?
各有侧重。WPS/Word 的拼写检查主要针对英文,中文纠错能力较弱(主要靠自定义词库)。本工具专门针对中文常见错别字场景优化,对同音字(「已/以」、「即/既」)、形近字(「未/末」、「戊/戌」)的识别率更高,实测在通用文本上比 Word 中文检查多检出约 30% 的错误。但 Word 的优势在于能检查格式错误和标点全半角,两者互补使用效果最好。
检测结果里的「建议:X」是直接替换吗?会不会改错?
不是自动替换,只是给出推荐词。工具会为每个疑似错别字列出 1-3 个候选替换词(按概率排序),你需要手动点击替换或忽略。建议在替换前确认上下文语义:例如「他做的很对」建议改成「他做得对」——这个替换是合理的;但「我的手机没电了」如果被建议改成「我的手机没了」,显然不对,应忽略。工具不会修改你的原始文本,所有操作由你控制。
工具能检测古文或繁体中文的错别字吗?
目前主要针对简体中文现代文(小学到高中语文常用字范围)。对文言文、古典诗词中的通假字(如「说」通「悦」、「女」通「汝」)会误报为错别字,不建议用于古籍校对。繁体中文仅支持部分常见异体字(如「裏/裡」),但缺乏完整繁体词库,准确率较低。如果处理繁体文本,建议先用在线繁转简工具转换后再检测。
我的文本里有很多数字和英文,检测会不会把它们当成错字?
不会。工具只对中文字符做错别字检测,对数字、英文、标点符号(包括全角/半角)不做任何处理,也不会误报。但需要注意:如果英文单词拼成了中文同音字(如「iPhone」写成「爱疯」),工具不会识别为错误,因为这是有意的网络用语。纯英文文本不建议使用本工具,它没有英文拼写检查功能。
选择 打开 +新窗口 esc关闭