Машинное обучение – это приложение искусственного интеллекта (ИИ), которое предоставляет системам возможность автоматически обучаться и совершенствоваться на основе полученного опыта без явного программирования. Машинное обучение направлено на разработку компьютерных программ, которые могут получать доступ к данным и использовать их для самостоятельного обучения.

Что такое матрица путаницы и зачем она нужна?

Когда дело доходит до машинного обучения, измерение производительности всегда было одним из наиболее важных способов определения того, насколько на самом деле способна ваша модель машинного обучения. Существует много методов измерения производительности, однако, когда речь идет о типе классификации задач в машинном обучении, метод измерения производительности с использованием матрицы путаницы является одним из лучших.

Измерение производительности также может называться оценкой точности модели машинного обучения.

Предположим, что набор данных, который вы использовали для проверки производительности вашей модели, имеет «N» целевых классов (примером класса может быть результат (цель) учащегося, т. е. пройти или не пройти — два класса), тогда матрица путаницы представляет собой N x N матрица, используемая для оценки эффективности модели классификации. Матрица сравнивает фактические целевые значения с предсказанными моделью машинного обучения.

Матрица путаницы — это вообще большая тема, однако сегодня мы собираемся обсудить только то, что на самом деле означает матрица путаницы и какова ее цель.

Эта матрица позволяет легко понять, путает ли система фактические значения и прогнозируемые значения, и, следовательно, название матрицы путаницы.

Что такое киберпреступность?

Данные считаются товаром онлайн и оффлайн как легальными, так и нелегальными субъектами (Maras, 2016). По этой причине данные являются основной целью киберпреступников.

Данные играют неотъемлемую роль в совершении многих киберпреступлений, прежде всего потому, что они не защищены должным образом и могут быть незаконно доступны и получены.

Киберпреступления нарушают неприкосновенность частной жизни людей и безопасность их данных, в частности взлом, вредоносное ПО, кража личных данных, финансовое мошенничество, медицинское мошенничество и некоторые преступления против лиц, которые включают раскрытие личной информации, сообщений, изображений, видео- и аудиозаписей без согласие или разрешение отдельных лиц (например, киберпреследование, киберпреследование и киберзапугивание).

Киберпреступления и матрицы путаницы

Чтобы лучше понять, что означает матрица путаницы, давайте возьмем пример, максимально упростив его:

Что касается сегодняшнего обсуждения, мы изучаем, как связаны матрицы путаницы и киберпреступления, поэтому давайте продолжим наш пример, основанный на кибербезопасности (обнаружение кибератак). Кроме того, обнаружение кибератак является проблемой бинарной классификации, что означает, что у него будет только два целевых класса, то есть кибератака произошла, а кибератака не произошла.

Предположим, вы работаете в организации или компании по обеспечению безопасности. Основная цель вашей команды — обнаружить и остановить любую хакерскую атаку.

Для этой задачи ваша команда развертывает систему обнаружения вторжений (IDS), программу, основанную исключительно на машинном обучении. Система обнаружения вторжений – это приложение, предназначенное только для мониторинга и предназначенное для выявления аномалий и составления отчетов о них до того, как хакеры смогут повредить вашу сетевую инфраструктуру.

Допустим, система IDS сделала всего 200 прогнозов. И система сообщает, что из этих 200 прогнозов 80 были возможными хакерскими атаками, а остальные 120 — нет.

Сделаем следующие определения:

  • «Происходит хакерская атака» — это положительный класс.
  • «Хакерская атака не происходит» — это отрицательный класс.

После надлежащего анализа результатов вручную для проверки полученных результатов из модели были извлечены четыре различных типа значений:

  • Истинно положительный(TP): количество раз, когда наши фактические положительные значения совпадают с прогнозируемыми положительными. Вы предсказали положительное значение, и это правильно.
  • Ложное срабатывание (FP): количество раз, когда наша модель ошибочно предсказывает отрицательные значения как положительные. Вы предсказали отрицательное значение, а на самом деле оно положительное.
  • Истинно отрицательное (TN): количество раз, когда наши фактические отрицательные значения совпадают с прогнозируемыми отрицательными значениями. Вы предсказали отрицательное значение, и оно на самом деле отрицательное.
  • Ложноотрицательный(FN): количество раз, когда наша модель ошибочно предсказывает отрицательные значения как положительные. Вы предсказали отрицательное значение, а на самом деле оно положительное.

На основе анализа была создана матрица 2 х 2 по определенному шаблону. Это матрица путаницы.

Матрицы путаницы имеют два типа ошибок: Тип I и Тип II:

  1. Ошибка типа I:

Ошибка типа I относится к ложноположительной ошибке (FP). Чтобы лучше понять это, давайте внимательно понаблюдаем. Этот тип ошибки не так опасен, как ошибка типа II, но может быть довольно проблематичным. Ложноположительная ошибка возникает, когда модель предсказала отрицательное значение, а на самом деле оно положительное.

В нашем случае ложное срабатывание — это когда IDS идентифицирует действие как атаку, но это действие является приемлемым поведением. Ложное срабатывание — это ложная тревога. Этот тип ошибки всегда приводит к ФАТАЛЬНЫМ случаям утечки данных, атакам вредоносных программ и многим другим типам кибератак.

2. Ошибка типа II:

Ошибка типа II относится к ложноотрицательной ошибке (FN). Из двух типов ошибок этот тип ошибки является наиболее опасным.

Ложноотрицательное состояние является наиболее серьезным и опасным состоянием. Это когда IDS идентифицирует действие как приемлемое, когда это действие на самом деле является атакой. То есть ложное срабатывание — это когда IDS не может поймать атаку. Это наиболее опасное состояние, поскольку специалист по безопасности не имеет ни малейшего представления о том, что атака имела место. Этот тип ошибки всегда приводит к ФАТАЛЬНЫМ случаям утечки данных, атакам вредоносных программ и многим другим типам кибератак.

Ложные срабатывания в лучшем случае доставляют неудобства и могут вызвать серьезные проблемы. Однако при правильном размере накладных расходов ложные срабатывания могут быть успешно рассмотрены; ложноотрицательные не могут.

Как использовать матрицу путаницы?

Использование определенных метрик — один из лучших способов использования матрицы путаницы.

Метрики путаницы

Из нашей матрицы путаницы мы можем рассчитать пять различных показателей, измеряющих достоверность нашей модели. Получение метрик может быть важной частью различных типов наблюдений.

  1. Точность (все правильно / все) = (TP + TN) /( TP + TN + FP + FN)
  2. Неправильная классификация (все неправильно / все) = (FP + FN )/( TP + TN + FP + FN)
  3. Точность (истинные положительные результаты / прогнозируемые положительные результаты) = (TP) /( TP + FP)
  4. Чувствительность, также известная как отзыв (настоящие положительные результаты / все фактические положительные результаты) = (TP) / (TP + FN)
  5. Специфичность (настоящие отрицательные результаты / все действительные отрицательные результаты) = (TN) / (TN + FP)

Несколько ссылок на матрицу путаницы в киберпреступности:

« Почти половина групп аналитиков по безопасности борются с ложными срабатываниями на уровне 50% и выше из-за своих инструментов безопасности. В то же время другой отчет Ponemon Institute показывает, что до 25 % времени аналитика по безопасности тратится на поиск ложных срабатываний — отсеивание ошибочных предупреждений безопасности или ложных индикаторов уверенности — прежде чем он сможет заняться реальными выводами.

Это означает, что каждый час, который аналитик тратит на работу, тратит 15 минут на ложные срабатывания. В среднем типичная организация тратит от 424 до 286 часов в неделю на ложные срабатывания. “

Несмотря на репрезентативную силу матрицы путаницы в классификации, это не очень полезный инструмент для сравнения IDS. Чтобы решить эту проблему, различные показатели производительности определяются с точки зрения переменных матрицы путаницы. Эти метрики дают некоторые числовые значения, которые легко сравнивать.

Таким образом, чтобы оценить эффективность IDS, нам необходимо измерить ее способность правильно классифицировать события как нормальные или интрузивные наряду с другими показателями производительности, такими как экономия в использовании ресурсов, стрессоустойчивость и способность противостоять атакам, направленным на ИДС.

Измерение этих возможностей IDS важно как для промышленности, так и для исследовательского сообщества. Это помогает нам лучше настраивать IDS, а также сравнивать различные IDS. Как обсуждалось выше, существует множество метрик, которые измеряют различные аспекты IDS, но ни одна метрика не кажется достаточной для объективного измерения возможностей IDS. Согласно статистике опроса, проведенного (Tavallaee, 2011), наиболее широко используемыми метриками в исследовательском сообществе по обнаружению вторжений являются доля истинных срабатываний (TPR) и частота ложных срабатываний (FPR) наряду с ROC.

Основанные на теории обнаружения сигналов (Tavallaee, 2011), кривые ROC используются, с одной стороны, для визуализации связи между частотой обнаружения и частотой ложных срабатываний классификатора при его настройке, а с другой стороны, для сравнения точности нескольких классификаторов. Хотя эта мера очень эффективна, она имеет некоторые ограничения. Первое ограничение заключается в том, что оно зависит от соотношения атак и обычного трафика. Сравнение различных классификаторов, основанных на ROC, прекрасно работает для одного и того же набора данных. Однако сравнение IDS, выполненное на различных наборах данных, совершенно неверно, если только они не имеют одинакового соотношения атак к обычным экземплярам. Вторая проблема с кривыми ROC заключается в том, что они могут вводить в заблуждение и просто неполны для понимания сильных и слабых сторон системы-кандидата.

Иногда трудно определить, какая IDS лучше другой только с точки зрения FPR и TPR. Например, IDS1 может обнаруживать на 10 % больше атак, а IDS2 может производить на 10 % меньше ложных срабатываний. Какой лучше? Чтобы решить эту проблему, (Gu et al., 2006) предложил единую единую объективную метрику, называемую способностью обнаружения вторжений (CID), основанную на базовой скорости, положительной прогностической ценности или байесовской частоте обнаружения (PPV) и отрицательной прогностической ценности (NPV). ). Такая метрика используется для выбора наилучшей конфигурации IDS для операционной среды и для оценки различных IDS.

Спасибо!!!

Как вы можете бороться с ложными срабатываниями и негативами?

Существует несколько подходов, которые следует учитывать, когда речь идет о сокращении числа фиктивных угроз безопасности, включая сетевой анализ, введение политик, снижающих вероятность кибератак, усиление общих мер безопасности и рассмотрение того, как современные технологии искусственного интеллекта может помочь.

Анализ сетевого трафика
Просматривайте информацию в сетевых журналах, чтобы обнаружить незнакомые имена пользователей, странные сведения о подключении и подозрительные тенденции в продолжительности и частоте связи, чтобы выявить безопасность. угрожает по старинке. Возможно, вы сможете обнаружить больше ложноотрицательных результатов, чем если бы вы не смотрели, но этот процесс подвержен человеческим ошибкам и может занять довольно много времени.

Ограничение доступа к сети на устройствах IoT
Что касается протокола, рассмотрите возможность реализации политики, ограничивающей доступ к сети для устройств IoT. Когда устройствам IoT предоставляется ограниченный доступ к сети, ваше программное обеспечение безопасности с большей вероятностью распознает необычное поведение и должно выдавать более точные предупреждения.

Используйте брандмауэры веб-приложений
Большой процент утечек данных связан с уязвимостями веб-приложений. В то время как обычно развертываемый брандмауэр веб-приложений может уменьшить количество таких случаев, этот тип брандмауэра может потреблять сетевые ресурсы при использовании для обнаружения ложных отрицательных и положительных результатов.

Исследуйте решения для искусственного интеллекта

Сокращение количества ложных срабатываний с самого начала может избавить вас от ненужной головной боли. Оснащение вашей команды сетевой безопасности инструментом, который поможет им лучше анализировать возникающие тенденции и широко распространенные угрозы безопасности, сделает вашу компанию менее уязвимой для реальных нарушений безопасности.

Вывод

Понимание различий между ложноположительными и ложноотрицательными результатами, а также того, как они связаны с кибербезопасностью, важно для всех, кто работает в области информационной безопасности.

Существование как ложноположительных, так и ложноотрицательных результатов вызывает вопрос: включает ли ваша стратегия кибербезопасности упреждающие меры? Большинство программ безопасности основаны на превентивных и реактивных компонентах, устанавливая надежную защиту от атак, которые эти инструменты знают о существовании. С другой стороны, упреждающие меры безопасности включают внедрение политик и процедур реагирования на инциденты и упреждающий поиск скрытых/неизвестных атак.