Прогнозное моделирование — это метод или математический процесс, который помогает прогнозировать будущие возможности путем изучения и анализа исторических данных и понимания закономерностей. Он включает в себя различные шаги, такие как сбор данных, выбор функций, предварительная обработка, обработка данных, оценка модели и создание модели. Обработка данных может быть определена как преобразование необработанных данных путем очистки, структурирования и т. д. в желаемый формат, который облегчает принятие решений с помощью модели. Оценка модели — это одна из частей жизненного цикла разработки модели, целью которой является определение эффективности работы модели. Поэтому становится критически важным рассматривать результаты модели в соответствии со всеми возможными методами оценки. Применение различных методов может обеспечить различные точки зрения. Для оценки модели доступны различные показатели, такие как матрица путаницы, точность, прецизионность, полнота, специфичность и оценка F1. В этой статье основное внимание будет уделено матрице путаницы.

Узнайте о Матрице путаницы

Матрица путаницы — это одна из метрик, используемых при оценке модели, т. е. для проверки эффективности или точности модели. Основная цель при создании модели - получить низкое смещение и дисперсию, которые оценивают модель более критично.

Давайте поищем стандартное определение. Оно определяется как таблица, которая довольно часто используется при определении производительности модели классификации на наборе тестовых данных, для которых известны истинные значения. Матрица обычно имеет размер 2 * 2, который рассчитывается с помощью фактических и прогнозируемых значений, с четырьмя значениями, а именно: истинное положительное, истинное отрицательное, ложноположительное и ложноотрицательное.

Мы подробно рассмотрим каждое из этих значений на примере:

  1. True Positive — это состояние, при котором прогнозируемое значение и фактическое значение совпадают, что также является истинным. Например, у нас есть запись 180 человек, из которых 100 человек имеют диагноз «Х».
  2. True Negative — предсказанные значения и фактические значения верны, т. е. пациент не страдает заболеванием «X». В нашем примере в эту категорию попадает 50 человек.
  3. Ложноотрицательный — в этом случае значения прогноза отрицательны, но фактические значения положительны. В нашем случае мы прогнозировали, что нет, но у них есть заболевание, и количество людей в этой категории составляет 20 человек.
  4. Ложное срабатывание — в этом случае значение прогноза положительное, но на самом деле фактическое значение отрицательное. Предположим, если мы утверждаем, что человек страдает от болезни, но это не так, их 10.

Начнем с оценки результатов, рассчитанных по матрице путаницы.

Точность — чтобы предсказать, насколько часто значение, предсказанное классификатором, является правильным, рассчитанным по формуле. Точность = TN+TP / TN+FP+FN+TP

Коэффициент неправильной классификации — чтобы предсказать, как часто значение, предсказанное классификатором, неверно, вычисленное по формуле. FN+FP / TN+FP+FN+TP.

Коэффициент ошибочной классификации = FN+FP = 10+5

TN+FP+FN+TP 50+10+100+5

= 9%

Точность —когда предсказанные значения говорят "да", но в процентах они верны?

Цена/прогноз да = 3/5 = 0,6

Вспомнить - сколько правильных истинных положительных результатов найдено из всех возможностей, включающих положительные результаты.

Отзыв = TruePositives / (TruePositives + FalseNegatives)

= 3/4 = 0.75

Распространенность —как часто в нашей выборке действительно встречается условие "да"?

фактически да/всего = 3/10 = 0,3

Оценка F1. Трудно сравнивать две модели с низкой точностью и высокой полнотой или наоборот. Поэтому, чтобы сделать их сопоставимыми, мы используем F-Score. F-оценка помогает одновременно измерять полноту и точность. Он использует среднее гармоническое вместо среднего арифметического, сильнее наказывая экстремальные значения.

2*0.75*0.6

0.75+0.6

= 0.667

Чувствительность — вычисляет соотношение правильно обнаруженных положительных классов. Эта метрика показывает, насколько хорошо модель распознает положительный класс.

Кибербезопасность относится к процессу защиты компьютеров или других устройств от кражи информации, повреждения программного или аппаратного обеспечения и другой интеллектуальной собственности, повреждение которой может создать серьезную проблему для лица/организации, являющейся владелец/ответственный за эту информацию.

Технологии искусственного интеллекта и машинного обучения стали критически важными, но полезными в мире информационной безопасности, поскольку они могут быстро анализировать миллионы событий и выявлять множество различных типов угроз. Давайте начнем с понимания того, что это за угрозы, которые мы обсуждаем. Основное внимание мы уделяем кибератакам, которые можно определить как любую попытку получить несанкционированный доступ к компьютеру, вычислительной системе или компьютерной сети с умысел причинить ущерб. Они могут вызвать

  1. Кража личных данных, вымогательство информации, которая может привести к шантажу
  2. Индукция вредоносных программ в системы, затрагивающая несколько систем путем внедрения вирусов
  3. Спуфинг, фишинг и спам
  4. Отказ в различных услугах может привести к множественным атакам
  5. Кража пароля
  6. Саботирование жизненно важной информации
  7. Вандализм через различные веб-сайты
  8. Использование конфиденциальности через веб-браузеры
  9. Взлом аккаунта и мошенничество с деньгами
  10. Программы-вымогатели
  11. Кража интеллектуальной собственности
  12. Несанкционированный доступ к компьютерным системам и ноутбукам

Атака может быть вызвана ошибкой типа 1 (False Positive) и типа 2 (False Negative).

Приложение матрицы путаницы, используемое в машинном обучении

IDS (Система обнаружения вторжений) используется в качестве системы мониторинга трафика на предмет подозрительной активности и выдает предупреждение при обнаружении такой активности. Это программное приложение, которое сканирует сеть или систему на наличие вредоносных действий или нарушений политики. О любом злонамеренном начинании или нарушении обычно сообщается либо администратору, либо централизованно собирается с помощью системы управления информацией и событиями безопасности (SIEM). Система SIEM объединяет выходные данные из нескольких источников и использует методы фильтрации сигналов тревоги, чтобы отличить злонамеренную активность от ложных тревог.

Хотя системы обнаружения вторжений отслеживают сети на предмет потенциально вредоносной активности, они также склонны к ложным тревогам. Следовательно, организациям необходимо точно настроить свои продукты IDS при их первой установке. Это означает правильную настройку систем обнаружения вторжений для распознавания того, как выглядит обычный сетевой трафик по сравнению с вредоносной активностью. Он также отслеживает сетевые пакеты, входящие в систему, чтобы проверить связанные с ними вредоносные действия, и сразу же отправляет предупреждающие уведомления.

В случае бинарного классификатора IDS возможны четыре возможных исхода. Атаки правильно прогнозируются как атаки (TP) или неправильно прогнозируются как нормальные (FN). Нормальный, правильно предсказанный как нормальный (TN), или неправильно предсказанный как атака (FP). Ложноположительные и ложноотрицательные — это ошибки, и компромисс между этими двумя факторами можно интуитивно проанализировать с помощью кривой рабочих характеристик приемника (ROC). Однако в случае мультиклассификаторов, когда класс атаки неправильно предсказывается как другой класс атаки, это не может быть ни один из существующих четырех экземпляров. Здесь предлагается новый подход к оценке IDS на основе аномалий. Новая предлагаемая метрика F-оценка на стоимость (FPC) — это одно значение, рассчитанное для каждого предиктора атаки.

При этом есть два класса точек подключения «Обычный» и «Атака». Тип атаки здесь не указывается. Набор данных, который содержит маркированные или немаркированные точки данных, используется для оценки IDS. Например, в конкурсе KDD CUP ’99 был представлен набор данных из пяти классов, обычного класса и четырех классов различных атак. Набор данных KDD’ 99 считается эталонным набором данных для оценки IDS. В большинстве предыдущих исследований использовался набор данных KDD’99 для обучения, тестирования и проверки предлагаемых ими IDS.

Задачей Кубка KDD ’99 было создание классификатора, способного различать законные и нелегитимные соединения в компьютерной сети. Этот набор данных теперь считается фактическим набором данных для обнаружения вторжений. Соединения в наборе данных являются либо обычными соединениями, либо вторжениями, из которых есть четыре основные категории: Зондирование (Наблюдение, сканирование портов и т. д.), DoS (Отказ в обслуживании), U2R (Несанкционированный доступ к локальным привилегиям суперпользователя), R2L (Несанкционированный доступ с удаленного компьютера). Они применили показатели оценки, которые были получены и рассчитаны на основе четырех экземпляров TP, TN, FP и FN. Эти четыре экземпляра являются результатом сравнения двух реальных классов с двумя предсказанными классами. Однако атаки определенного класса, которые ошибочно предсказываются как атаки другого класса, не могут быть связаны ни с одним из этих четырех случаев.

Здесь PD означает вероятность обнаружения, а FAR означает частоту ложных срабатываний.

Метрики для оценки эффективности IDS

Точность (AC) — это отношение общего количества правильных прогнозов к фактическому размеру набора данных. Он определяется с помощью уравнения:

Отзыв (R) — это отношение правильно спрогнозированных случаев атак к фактическому размеру класса атак, рассчитанное по формуле:

Точность ( P ) определяется как доля случаев атак, которые были правильно предсказаны, по отношению к предсказанному размеру класса атак, рассчитанному по уравнению:

Специфичность — это отношение истинных отрицательных баллов к отрицательным элементам, рассчитанное по уравнению:

F-оценка оценивает баланс между точностью и отзывом. Это мера точности теста. F-оценку можно рассматривать как гармоническое среднее запоминания и точности, и она определяется как:

Приведенный выше вариант использования предназначен для сравнения частоты ложных срабатываний трех разных IDS.

Кривая площади — это удобный способ сравнения трех IDS и определения подходящей IDS в соответствии с необходимым вариантом использования. Кривые ROC показывают среднюю скорость обнаружения вторжений для трех моделей IDS. Кривая ROC не может использоваться для сравнения трех IDS и того, какая из них подходит для определенных обстоятельств. Это простой пример использования матрицы путаницы в CyberSecurity.

Спасибо за чтение!!!!!!