the-the
函数有时在写文本时,你会重复单词,就像本句子开头的 "you you" 一样。我发现最常见的情况是重复 "the",因此,我称检测重复单词的函数为 the-the
。
作为第一步,你可以使用以下正则表达式搜索重复项:
\\(\\w+[ \t\n]+\\)\\1
这个正则表达式匹配一个或多个单词成分字符,后面跟着一个或多个空格、制表符或换行符。然而,它不能检测不同行上的重复单词,因为第一个单词的结束,即行尾,与第二个单词的结束,即空格,不同。 (有关正则表达式的更多信息,请参见 正则表达式搜索,以及 正则表达式语法 in GNU Emacs 手册 和 正则表达式 in GNU Emacs Lisp 参考手册。)
你可能尝试仅搜索重复的单词成分字符,但这不起作用,因为该模式检测到类似 "with the" 中的 "th" 的两个重复。
另一个可能的正则表达式搜索单词成分字符后跟非单词成分字符的模式,再次,这不是有用的。
这是我使用的模式。它不是完美的,但足够好。 ‘\\b’ 匹配空字符串,只要它位于单词的开头或结尾; ‘[^@ \n\t]+’ 匹配一个或多个字符,这