TF : Частота терминов

IDF: обратная частота документа (idf): формула представляет собой логарифм (N/№ документа, в котором появляется слово)

Здесь N — общее количество документов.

Интуиция, стоящая за IDF, такова: представьте, что у нас есть 100 документов. Частота слова «страховка» равна 100, частота слова «попытка» также равна 100. Теперь дело в том, что попытка появляется во всем документе 1 раз, тогда как страховка появляется не во всем документе, а встречается в некоторых из них. документировать несколько раз.

IDF на срок

страхование = log(100/50) = log(2) = 0,30

попытка = журнал (100/100) = журнал (1) = 0

Таким образом, хотя частота обоих слов в корпусе одинакова, но «страхование» имеет больший вес по сравнению со «попыткой».

TF: Частота термина: Вес термина, который встречается в документе, является частотой термина. Он рассчитывается следующим образом

Количество раз, когда слово появляется в документе/общее количество слов в документе

Рассмотрим документ: «Как ты сегодня, да сегодня»

частота термина «сегодня» = 2/6 = 0,33

термин частота «да» = 1 / 6 = 0,16

Следовательно, вес термина сегодня больше по сравнению с весом термина «да», поскольку он встречается в документе несколько раз.

TF-IDF - это умножение tf * idf