Публикации по теме 'tf-idf'
TF-IDF
TF : Частота терминов
IDF: обратная частота документа (idf) : формула представляет собой логарифм (N/№ документа, в котором появляется слово)
Здесь N — общее количество документов.
Интуиция, стоящая за IDF, такова: представьте, что у нас есть 100 документов. Частота слова «страховка» равна 100, частота слова «попытка» также равна 100. Теперь дело в том, что попытка появляется во всем документе 1 раз, тогда как страховка появляется не во всем документе, а встречается в некоторых из..