TF : Частота терминов
IDF: обратная частота документа (idf): формула представляет собой логарифм (N/№ документа, в котором появляется слово)
Здесь N — общее количество документов.
Интуиция, стоящая за IDF, такова: представьте, что у нас есть 100 документов. Частота слова «страховка» равна 100, частота слова «попытка» также равна 100. Теперь дело в том, что попытка появляется во всем документе 1 раз, тогда как страховка появляется не во всем документе, а встречается в некоторых из них. документировать несколько раз.
IDF на срок
страхование = log(100/50) = log(2) = 0,30
попытка = журнал (100/100) = журнал (1) = 0
Таким образом, хотя частота обоих слов в корпусе одинакова, но «страхование» имеет больший вес по сравнению со «попыткой».
TF: Частота термина: Вес термина, который встречается в документе, является частотой термина. Он рассчитывается следующим образом
Количество раз, когда слово появляется в документе/общее количество слов в документе
Рассмотрим документ: «Как ты сегодня, да сегодня»
частота термина «сегодня» = 2/6 = 0,33
термин частота «да» = 1 / 6 = 0,16
Следовательно, вес термина сегодня больше по сравнению с весом термина «да», поскольку он встречается в документе несколько раз.
TF-IDF - это умножение tf * idf