Как Gmail классифицирует письма как спам или не спам?

Мы все используем Gmail каждый день для самых разных целей, например, для работы или в личных целях. и мы все заметили, что в нем есть одна папка под названием «Спам», которая классифицирует ваши письма и автоматически некоторые письма, которые бесполезны или могут быть потенциально мошенническими, попадают прямо в эту папку. Как Gmail классифицирует эти письма?, что мы подробно узнаем в этом блоге.

Gmail используется во всем мире, поэтому у него миллиарды пользователей по всему миру. и они не могут просматривать почту каждого пользователя, а затем сортировать их на спам или не спам. Это потребует много человеческих ресурсов, и для них это нецелесообразно. Не только это, но и нарушение конфиденциальности пользователя, если компания читает каждое письмо, что не очень хорошо для репутации любой организации. Чтобы решить эту проблему, все инженеры придумали решение под названием Машинное обучение.

Что такое машинное обучение?

Использование и разработка компьютерных систем, способных обучаться и адаптироваться без следования четким инструкциям, используя алгоритмы и статистические модели для анализа и получения выводов на основе закономерностей в данных. В основном это алгоритм, который предсказывает возможный вывод данных.

Как работает алгоритм машинного обучения?

Чтобы сделать алгоритм машинного обучения первым, мы должны обучить нашу модель с использованием данных, которые уже классифицированы людьми. Мы можем классифицировать данные с помощью ключевых слов, а затем помечать их как спам или не спам.

скажем, мы взяли данные о 1 лакхе писем, которые уже были классифицированы и помечены. Теперь нам нужно создать собственную функцию, которая будет предсказывать, является ли почта спамом или нет. в машинном обучении существует иная процедура, чем в традиционном программировании. В традиционном программировании сначала мы создаем нашу функцию, затем вводим ее, а после этого она обрабатывает и предоставляет нам вывод. Но в машинном обучении мы предоставляем нашей модели машинного обучения входные данные, а также выходные данные, а затем готовим нашу функцию. и когда наша функция готова, она может предсказать вывод в соответствии с нашими входными данными.

На этой диаграмме машинного обучения наша функция готова. теперь мы будем делать дальнейшую обработку на нем. Хотя наша функция готова, но мы не можем напрямую отправить ее в реальный мир. Если бы он не смог правильно предсказать в реальном мире, это создало бы проблему для компании. Поэтому мы должны сначала выяснить точность функции. Для этого нам нужно знать все об обучении, а также о тестировании нашей функции.

Обучение и тестирование модели.

Как упоминалось ранее, мы предполагали, что у нас есть данные о 1 тысяче писем, которые уже классифицированы и помечены как спам или не спам. Теперь мы сделаем две части этих данных, в которых 1-я часть будет содержать 80% данных, а остальные 20% будут 2-й частью.

Теперь первые 80% данных — это наши обучающие данные, с помощью которых мы будем обучать наш алгоритм и делать функцию. как указано на диаграмме машинного обучения, мы предоставим ввод, который в нашем случае является почтой, а также вывод, который представляет собой метку или решение.

Теперь мы обучили нашу модель с данными обучения, и мы готовы с нашей функцией. Кроме того, мы должны протестировать эту функцию, чтобы узнать о ее точности, что даст нам представление о том, как наша функция будет работать в реальном мире.

Тестовые данные не должны быть доступны для нашей модели во время обучения.

2-я часть данных, которые мы выделили при обучении, будет использоваться в качестве тестовых данных. эти данные совершенно неизвестны нашей модели. Его следует держать подальше от нашей модели, потому что это может привести к искажению результатов теста. и тогда модель может дать сбой в реальном мире.

Во время тестирования мы предоставим тестовые данные (содержимое почты) в качестве входных данных для нашей функции, затем она обработает данные и предскажет решение, является ли почта спамом или нет, что будет выходом нашей функции. после этого мы можем перепроверить нашу вывод функции (решение) с фактическими данными, которые были классифицированы людьми ранее. сравнив наши данные, мы узнаем, какой точности достигла наша функция. который в дальнейшем будет решать, запускать функцию в реальном мире или нет.

Вот как создается функция в машинном обучении. Я надеюсь, что это дало вам глубокое представление о том, как Gmail классифицирует все письма в спам, а не в категорию спама.

Команда инженеров компании выполняет этот процесс обучения и тестирования модели непрерывно через определенный интервал времени, чтобы поддерживать модель в актуальном состоянии с учетом новых тенденций в сообщениях мошенников.

Как Gmail классифицирует письма как спам или не спам?

Тестовые данные не должны быть доступны для нашей модели во время обучения.

Вопросы по теме