Публикации по теме 'tf-idf'


TF-IDF
TF : Частота терминов IDF: обратная частота документа (idf) : формула представляет собой логарифм (N/№ документа, в котором появляется слово) Здесь N — общее количество документов. Интуиция, стоящая за IDF, такова: представьте, что у нас есть 100 документов. Частота слова «страховка» равна 100, частота слова «попытка» также равна 100. Теперь дело в том, что попытка появляется во всем документе 1 раз, тогда как страховка появляется не во всем документе, а встречается в некоторых из..