检测长文中的错别字,用它就对了!
不论是学生还是上班族,在学习和工作中,我们免不了需要撰写一些较长的文档。在写这类文档的时候,错别字是我们的一个大敌,如果文章错别字很多,那么阅读文档的人就会感觉这篇文档写得很不严谨、很不认真,而且质量很低。
所以在写文档的时候,我们需要尽可能地排查文中的错别字和一些语病,使其行文尽可能通畅、用词用字尽可能准确。然而,如果我们只是靠眼睛和大脑去完成这项工作的话,在面对长达数千字、上万字的长文时,整个过程是相当耗时与痛苦的。
根据笔者的了解,目前计算机领域内 NLP 技术的发展是十分迅速的,尤其是在深度学习热潮兴起后。在现有的技术下,开发一个处理中文文本、专门挑错别字及语病的系统是完全有可能的。
笔者曾经在撰写公众号文章时也饱受错别字的困扰,曾经笔者有用过很多错别字检查的插件等,但是效果都不是很理想,一方面是严格模式下误报率很高,另一方面是有的很明显的错别字会被系统漏掉。
这一度让笔者感到非常头疼,文章明明是过了一遍检测系统,但最终还是有错别字,这很显然不是笔者想要的结果。既然程序可以代替人完成这样的工作,那么我们自然会希望这样的程序实际效果能接近完美。
笔者在一番寻找后,终于是找到了一个相当不错的错别字检测系统 —— JCJC 错别字检测。
笔者最初去使用它的使用它还只是一个个人的作品,随着这个检测系统的不断进步,作者是开了一家名为「字根科技」的公司,开发了这一套系统的企业版,接了不少来自政府、企业的订单。
他们在 cuobiezi.net 面向个人用户提供了网页版的错别字检测服务,不过这个服务有免费和付费之分。
免费用户在使用上会有次数和字数的限制,即一天只能检查 3 次以及一次只能处理 2000 字。而专业版则能够不限次数的使用,一次最多能提交 50000 字,并且有建议词、行业强化等功能。
免费版更多是用来给大家体验、测试的,你可以用一段文本来测试这个系统的效果,而专业版则更适合于日常使用。专业版的收费相较于同类产品来说是非常便宜的,仅 30 元/年,这是一个任何个人都能负担得起的价格,所以你也可以直接付费 30 元来购买一年的专业版体验这个系统。
就笔者个人的使用经验来说,这个系统错别字的误报率相较于同类产品来说低很多,同类产品有的是使用收录、比对错别字词条的方式来识别错别字的,即使开发者在识别引擎上做了优化,其识别的误报率还是很高,很多本不是错别字的地方会被报错别字。
而字根科技的这一套系统用的则是 NLP 技术,它能够很准确地抓到文本中的错别字,单错别字这一项,如果不是严格模式,其误报率并不高。由于这类软件目前都没有办法完美解决误报问题,所以误报多少都会有,但是如果误报特别多,这实际上反而会拉低用户校对文档的效率。
所以对于这样的软件来说,做到低误报率是一件很重要的事情。
除了误报率外,还有一个很重要的点是漏报,没有用户希望文档在过了一遍这样的系统后还存在一些漏网的错别字,因为在使用这样的系统时,我们会优先信任它,认为它能够把文档中的错别字一个不漏地抓出来,但是如果到最后我们发现还是有错别字漏报了,且这样的文档可能已经发出去了,那么这款错别字检测系统将瞬间给用户留下一个比较严重的负面印象。
目前的错别字检测系统基本上都是宁可错杀一千也不放过一个的感觉,在尽量避免漏报的同时,误报率会随着漏报的减少而提升。
JCJC 错别字检测则不一样,它能够在将误报压得很低的同时做到普通模式基本不漏报,严格模式几乎不漏报。在日常使用中笔者一般是使用普通模式,漏报的情况在笔者印象里有出现过,但是次数很少,而且是在这套系统还比较早期的时候。
目前开发者对系统的算法应该是做了更多的优化,笔者近期使用它没有遇到过漏报的情况。
需要注意的是,笔者这里所指的漏报只是针对日常使用而言的,如果使用单纯的错别字大全进行错别字检测的话,错别字的检出率是不能达到 100% 的,这主要是因为错别字大全并不是真正的「文档」,在分词上系统会出错。
针对识别出来的错别字,它能够很准确地给出修改建议,在查出错别字之后我们也不需要去查这些词语正确的写法是什么,检测系统直接给我们提供了正确写法。
我们只需要返回文档,找到对应的词语将其修改正确就行了,使用非常方便。
比较奇怪的是像腾讯、阿里这样的大企业他们有着先进的 AI 技术和完善的基础设施,但在自然语言处理这一块他们提供的开放服务都更侧重于情感分析、分类、关键词提取这一块,他们并没有面向媒体行业等提供类似的查错别字的服务。
在笔者看来,要是这些大企业能够投入去做一个这样的功能,他们做出来的产品肯定会更稳定且效果更好,毕竟他们在技术方面的天花板要比个人开发者、小企业来说高很多。
既然字根科技这样的小企业能做这样一套系统,这些大企业自然也是能做的,而且能做得更好。
目前来看,JCJC 错别字检测还有进一步优化的空间,例如进一步压低误报等等。就目前笔者个人的实际体验来说,这一套检测系统已经相当不错了,笔者每天公众号的文章已经基本依赖这个系统来查错别字了,毕竟使用它来查错比笔者自己人工查错要高效很多。