Прогнозирование ссуды с использованием машинного обучения

Статья посвящена началу работы с машинным обучением, выполняя проект.

Мы загрузили с сайта Kaggle.com набор данных о заявителях на ссуду и о том, была ли заявка одобрена или нет. В этом руководстве мы создаем модель машинного обучения для прогнозирования одобрения ссуды.

Этапы модели машинного обучения

Ниже приведены шаги, необходимые для создания четко определенного проекта машинного обучения.

Ø Понять и определить проблему

Ø Анализ и подготовка данных

Ø Применить алгоритмы

Ø уменьшить количество ошибок

Ø Предсказать результат

Описание проблемы :

У нас есть информация о заявке на получение кредита, такая как сведения о заявителе, финансовая информация и запрошенная сумма кредита, а также сопутствующие данные и результат, в зависимости от того, была ли заявка одобрена или отклонена. На основе этого мы собираемся обучить модель и спрогнозировать, будет ли заем одобрен или нет. .

Вот наш набор данных

· Модель разработана в ноутбуке Jupyter.

· Давайте убедимся, что среда Python запущена и работает.

Загрузим необходимые библиотеки для нашего анализа.

Теперь давайте загрузим файл dataset.csv означает наш файл Excel или информационный файл кандидата.

Мы используем панды для загрузки данных. Мы также будем использовать панды для исследования данных как с описательной статистикой, так и с визуализацией данных.

Давайте взглянем на данные

Предварительная обработка данных

Теперь проверьте недостающие значения и заполните нулевые значения.

Мы заполним пропущенные значения для числовых терминов операцией среднего, а пропущенные значения для категориальных терминов - операцией режима. Убедитесь, что нет нулевых значений.

Теперь пора проверить данные графически, это не обязательный шаг, но если вы хотите увидеть данные графически, вы можете это сделать.

Например.

§ визуализация категориальных атрибутов

§ Вы можете сделать то же самое для визуализации числовых атрибутов

Обучающий тест разбивает данные

В машинном обучении у нас есть два типа наборов данных

Ø Набор обучающих данных: используется для обучения нашей модели.

Ø Набор данных тестирования: используется для проверки того, делает ли наша модель точные прогнозы.

Мы можем разделить набор данных на 70/30 или 80/20 по вашему выбору.

Мы собираемся применить приведенные ниже алгоритмы к этой проблеме и оценить ее эффективность, а затем выбрать алгоритм и обучить его.

Ø Логистическая регрессия:

Логистическая регрессия - это алгоритм классификации, который используется для прогнозирования двоичного результата (1/0, Да / Нет, Истина / Ложь).

Результат: 77.2727

Ø DecisionTreeClassifier:

DecisionTreeClassifier - это тип алгоритма контролируемого обучения, имеющего предопределенную целевую переменную, которая в основном используется в задачах классификации. Он работает как для категориальных, так и для непрерывных входных и выходных переменных.

Результат: 69.4805

Резюме :

Мы создали модель сквозного машинного обучения и протестировали различные алгоритмы. Надеюсь, эта информация дала вам хорошее представление о концепциях машинного обучения и повысила вашу общую уверенность в машинном обучении.

Прогнозирование ссуды с использованием машинного обучения

Вопросы по теме