Пошаговое руководство

Машинное обучение – это мощный инструмент, с помощью которого можно создавать интеллектуальные системы, способные делать прогнозы, классифицировать данные и принимать решения на их основе. В этой статье мы рассмотрим шаги по созданию простой модели машинного обучения с использованием языка программирования Python и предоставим пример кода.

Для начала вам нужно будет установить Python и несколько библиотек, которые мы будем использовать в этом руководстве. Если у вас еще не установлен Python, вы можете загрузить его с официального веб-сайта Python. Далее вам потребуется установить следующие библиотеки:

pip install numpy pandas scikit-learn

После установки Python и этих библиотек вы готовы приступить к созданию модели машинного обучения. Первый шаг — собрать ваши данные.Это может быть набор данных, который вы собрали сами, или вы можете использовать уже существующий набор данных из репозитория, такого как UCI Machine. Учебный репозиторий.

Допустим, мы используем набор данных, который содержит информацию о различных типах фруктов. Наша цель — создать модель машинного обучения, которая может предсказывать тип фруктов на основе их веса и текстуры.

import pandas as pd

# Read in the data
df = pd.read_csv('fruits.csv')
df.head()

Это прочитает данные из файла fruit.csv и отобразит первые несколько строк фрейма данных.

Затем вам нужно будет очистить и предварительно обработать данные. Сюда могут входить такие задачи, как заполнение пропущенных значений, нормализация числовых столбцов и кодирование категориальных переменных. Эти шаги важны, потому что они могут помочь повысить точность вашей модели.

# Check for missing values
df.isnull().sum()

# Fill in missing values
df['weight'] = df['weight'].fillna(df['weight'].mean())

# Normalize the 'weight' column
df['weight'] = (df['weight'] - df['weight'].mean()) / df['weight'].std()

# Encode the 'texture' column
df['texture'] = df['texture'].map({'smooth': 0, 'bumpy': 1})

После того как ваши данные будут очищены и предварительно обработаны, вам нужно будет разделить их на обучающий и тестовый наборы. Обучающий набор будет использоваться для обучения вашей модели, а тестовый набор будет использоваться для оценки производительности модели. Распространенный подход заключается в использовании 80% ваших данных для обучения и 20% для тестирования.

from sklearn.model_selection import train_test_split

# Split the data into training and test sets
X = df[['weight', 'texture']]
y = df['fruit']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

Теперь пришло время обучить вашу модель. Существует множество различных типов алгоритмов машинного обучения на выбор, но в этом руководстве мы будем использовать простую модель линейной регрессии.

Линейная регрессия – это метод, используемый для моделирования связи между зависимой переменной и одной или несколькими независимыми переменными путем подгонки к данным линейного уравнения.

Для обучения нашей модели линейной регрессии мы будем использовать библиотеку scikit-learn. Во-первых, мы импортируем класс LinearRegression из модуля sklearn.linear_model. Затем мы создадим экземпляр класса LinearRegression и воспользуемся методом fit() для обучения нашей модели обучающим данным.

from sklearn.linear_model import LinearRegression

# Create an instance of the LinearRegression class
model = LinearRegression()

# Train the model on the training data
model.fit(X_train, y_train)

После того, как наша модель была обучена, мы можем использовать ее для прогнозирования тестовых данных. Для этого мы будем использовать метод predict() нашего объекта LinearRegression. Этот метод принимает в качестве входных данных массив тестовых данных и возвращает массив прогнозируемых значений.

# Make predictions on the test data
predictions = model.predict(X_test)

Наконец, мы оценим производительность модели, сравнив прогнозируемые значения с фактическими значениями в тестовом наборе. Для этой цели можно использовать несколько показателей, таких как средняя абсолютная ошибка, среднеквадратическая ошибка и среднеквадратическая ошибка.

from sklearn.metrics import mean_absolute_error

# Calculate the mean absolute error
mae = mean_absolute_error(y_test, predictions)
print(f'Mean Absolute Error: {mae:.2f}')

Таким образом, создание простой модели машинного обучения включает в себя сбор и предварительную обработку ваших данных, разделение их на обучающие и тестовые наборы, обучение модели на обучающих данных, создание прогнозов на тестовых данных и оценку производительности модели. Имея правильные инструменты и немного практики, вы можете создавать модели машинного обучения для решения самых разных задач.

Спасибо за прочтение.

Не забудьте подписаться на мой аккаунт, если вам понравился этот контент. Это ничего не стоит, но вы получаете ценность каждый день!

:)