Очень хорошая статья и введение в Random Forests. Я просто хотел указать, что оценка F1 — это метрика, используемая, когда у вас несбалансированный набор данных или когда вы думаете, что высокие оценки точности, которые вы получаете, исходят из предвзятой модели из-за дисбаланса в набор данных. Допустим, у вас есть набор данных, в котором 90 % данных относятся к классу 1, а 10 % — к классу 2. Вы получите очень высокие показатели точности и подумаете: «Вау! Отличная модель!», но затем вы проверите F1-оценку и обнаружите, что она близка к 0 (вместо 1) или вообще очень низкая. Таким образом, оценка F1 больше связана со средней метрикой «точность и полнота». F1 – это еще одна метрика для оценки качества модели, которая полностью отличается от "показателя точности". Показатель F1 показывает его силу и важность, когда у вас есть несбалансированный набор данных. Более того, аргумент max-features в используемой вами функции модели — это параметр, в котором вы указываете, сколько признаков классификатор случайных лесов может выбирать случайно для каждого дерева. уровень. Random Forests выбирает случайным образом количество точек данных и количество признаков на каждом уровне принятия решений и разбивает данные в соответствии с разделением, которое производит наибольшую информационную выгоду #энтропия (или наименьшую примесь Джини #джини, зависит от того, какой из них вы выберете в качестве параметра критерий='джини' или критерий='энтропия'). Таким образом, график развертки F1 показывает не эффект добавления функции или переменных к модели, но она показывает, как максимальное количество «M» случайно выбранных параметров «n» на каждом уровне дерева (уровень принятия решения) влияет на F1-оценку. Обратите внимание, что n может быть разным при каждом решении, но M является окончательным, и это то, что вы устанавливаете и увеличиваете в цикле на самом деле в вашей модели. Надеюсь, это поможет!