Введение наивного байесовского классификатора

Наивный байесовский классификатор — это вероятностный классификатор, который особенно хорошо работает для классификации текста (например, является ли электронное письмо спамом или нет при обнаружении спама). При получении некоторого текста он вычисляет вероятность того, что текст относится к определенному классу (например, вероятность того, что электронное письмо, содержащее текст «Выиграйте приз в размере 30 долларов США», является спамом). Затем классификатор выбирает класс с наибольшей вероятностью в качестве прогнозируемого класса.

Более конкретно, в упрощенном виде классификатор работает следующим образом:

  1. Как показано ниже, существуют известные распределения слов для спам-сообщений и электронных писем-любителей. Спамовые электронные письма обычно содержат такие слова, как «Деньги», «Приз», «Бесплатно» и т. д. В электронных письмах обычно используются такие слова, как «Сейчас», «Работать», «Как» и т. д.
  2. Основываясь на этих распределениях, мы хотим предсказать, является ли текст «Выиграйте приз в размере 30 долларов» спамом или нежелательной электронной почтой. Интуитивно понятно, что в данном случае этот текст скорее спам, чем ветчина.

Чтобы рассчитать фактическую вероятность того, является ли это электронное письмо спамом или ветчиной, учитывая, что в нем содержится текст «Выиграйте приз в размере 30 долл. США» (называемый «апостериорным»), нам потребуются следующие ингредиенты:

  1. Вероятность появления спама и нежелательных писем («предыдущие»)
  2. Условная вероятность наличия текста «Выиграй приз в размере 30 долларов», данного каждого из возможных классов, спама или ветчины («вероятность») — это соответствует распределениям слов, рассмотренным выше.
  3. Вероятность появления текста «Выиграй приз в размере 30 долларов» в любом тексте, независимо от того, является ли он спамом или ветчиной («доказательства»)

С этими ингредиентами апостериорная оценка рассчитывается, как показано ниже. Я лично понимаю эту формулу как то, что до умножается на вероятность, чтобы получить вероятность того, что электронное письмо будет «Выиграть приз в размере 30 долларов» и спамом (на основе теоремы условной вероятности) . И эта вероятность масштабируется с помощью доказательств, чтобы получить условную вероятность ранееприведенных доказательств (т. е. сзади).

Математически это можно выразить следующим образом.

Важным предположением для наивных байесовских классификаторов является то, что слова, из которых состоит текст, должны быть независимы друг от друга. Для текста «Выиграть приз в размере 30 долларов США» это означает, что «Выигрыш», «30 долларов США» и «Приз» должны быть вероятностно независимы друг от друга. Однако так будет не всегда. На практике эту проблему можно решить, удалив коррелирующие слова и сохранив более характерные для них слова.