V2EX  ›  英汉词典

Lemmatization

定义 Definition

词形还原,指将一个词的各种屈折变化形式(如时态、复数等)还原为其基本形式(词元/词根形式)的过程。这是自然语言处理(NLP)中的一项重要技术。

发音 Pronunciation

/ˌlɛmətaɪˈzeɪʃən/

例句 Examples

Lemmatization helps search engines find results even when you use different forms of a word.
词形还原帮助搜索引擎在你使用一个词的不同形式时也能找到相关结果。

In natural language processing, lemmatization is preferred over stemming because it considers the full vocabulary and morphological analysis of words to return a proper base form.
在自然语言处理中,词形还原比词干提取更受青睐,因为它会考虑完整的词汇表和词的形态分析,从而返回正确的基本形式。

词源 Etymology

该词源自语言学术语 lemma(词元),来自希腊语 lēmma,意为"被取用的东西"或"假设",在语言学中特指一个词的标准形式或词典收录形式。后缀 -ization 表示"使之成为……的过程",源自拉丁语 -izātiō。整个词的意思就是"将词语还原为词元的过程"。该术语主要在20世纪后半叶随着计算语言学的发展而广泛使用。

相关词汇 Related Words

文学与学术引用 Literary References

  • 《Speech and Language Processing》(Daniel Jurafsky & James H. Martin)——自然语言处理领域的经典教材,详细讨论了 lemmatization 与 stemming 的区别和应用。
  • 《Foundations of Statistical Natural Language Processing》(Christopher Manning & Hinrich Schütze)——在文本预处理章节中深入探讨了词形还原技术。
  • 《Natural Language Processing with Python》(Steven Bird, Ewan Klein & Edward Loper)——通过 NLTK 工具库演示了 lemmatization 的实际操作。
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   928 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 33ms · UTC 19:43 · PVG 03:43 · LAX 12:43 · JFK 15:43
♥ Do have faith in what you're doing.