关于 TF-IDF 的常见误解
阅读时间:4分钟
五十年过去了,人们仍然不理解词频逆文档频率 (TF-IDF)。好吧,也许我可以帮助澄清一些困惑。以下是您可 哥斯达黎加 WhatsApp 数据 能不知道但自以为知道的五件关于 TF-IDF 的事情。
1. TF-IDF 是“一项新兴技术”。
不,差得远。事实上,它已经有近 50 年的历史了!它基于 Hans Peter Luhn (1957) 在词频方面的工作以及 Karen Spärck Jones (1972) 在逆文档频率方面的工作。只有恐龙才会认为半个世纪才刚刚开始!
但公平地说,五十年前它是一项新兴技术,是一项重要的进步,就像 Tony Hoare 的快速排序算法一样。请记住,这就是 TF-IDF 创建时的计算机的样子。
来源
。
机器学习工程师认为 TF-IDF 是探索语料库和预处理文本的有效方法。SEO 将其延伸为“让您的网页在 SERP 中排名更高”。#SEO
点击推文
2. TF-IDF 通过将关键词短语与大量文档中该关键词的频率进行比较来衡量关键词短语的重要性。
这既是误导,也是过于简单化。频率并不意味着重要性(或更关键的是)语义相关性。此外,IDF(逆文档频率)试图抑制过于频繁出现的单词的影响。
让我们快速看一下免费 TF-IDF 工具和使用更复杂方法的 MarketMuse 的输出之间的差异。让我们针对“开始播客”一词进行比较。
MarketMuse 研究应用程序
MarketMuse 的输出按相关性排序,最相关的内容显示在顶部。数字范围指的是提及的分布。请注意,经常提及的主题不一定位于列表顶部。
3.“目前尚不清楚谷歌是否在其算法中使用了 TF-IDF”
好吧,这是显而易见的!更不用说谷歌没有一种算法。它有很多算法,复数。TF-IDF 可以在这个集合中发挥重要作用。例如,它是一种有效的停用词删除方法。这些词在人类语言中经常出现,但信息价值不大(例如 and、or、but、the、a、an)。
但从概念上讲,TF-IDF 是一个非常简单的数学公式。因此,争论 Google 是否使用 TF-IDF 就像争论他们是否使用乘法、除法、加法和减法一样。它的作用(如果有的话)将是微不足道的。
4.“将其纳入你的页面SEO策略是一种很好的做法。”
不,不是。远非如此。我之前写过这篇文章。使用 TF-IDF 可能会让你感觉良好,但这是错误的。如果你还不清楚这一点,请参阅上面的比较。