Практические руководства

Оценка и прогноз успеваемости учащихся во время Covid-19

Семантический подход к прогнозированию успеваемости учащихся с использованием методов интеллектуального анализа данных

Снова наступило то время года. Просматривая последние минутные заметки утром перед экзаменом, съедая свой завтрак, как обезьяна, чтобы успеть на последний автобус, идущий в центр, добираясь до назначенной экзаменационной комнаты и подслушивая, как кто-то обсуждает тему, о которой вы понятия не имеете, и, наконец, сидя на скамейке в окружении 30 других нервных студентов и пишут ваш экзамен. Если эта процедура перед экзаменом многим кажется незнакомой, приношу свои извинения. Но для многих студентов до Covid-19 (помните это?) Именно так проходили наши экзамены, и, наконец, наша успеваемость оценивалась по оценкам. Но в мире, где окружение 30 человек в комнате звучит отвратительно и неслыханно, где экзаменационные залы были заменены нашими гостиными, а классные комнаты никогда не пропускались так сильно, есть ли способ, которым мы можем проанализировать и предсказать успеваемость студента? Изменила ли пандемия и ее последствия способ обучения студентов? И если да, то каким образом они повлияли на успеваемость студента?

Введите Образовательный интеллектуальный анализ данных (EDM). Data Mining - это метод извлечения закономерностей и вывода выводов из больших и сложных наборов данных. Вставьте слово Образовательный перед ним, и он станет о поиске закономерностей и выводов на основе данных, поступающих из системы образования. Журнал интеллектуального анализа данных в образовании определяет EDM как -

«… Возникающая дисциплина, занимающаяся разработкой методов изучения уникальных и все более крупномасштабных данных, полученных из образовательных учреждений, и использует эти методы для лучшего понимания учащихся и условий, в которых они учатся»

Одной из наиболее важных функций EDM было прогнозирование успеваемости учащихся на основе прошлой активности. Теперь активность может означать множество вещей, и на протяжении многих лет многие исследователи использовали разные индикаторы для оценки успеваемости учащегося. Это может включать анализ прошлых баллов CGPA или внутренних оценок, демографию учащихся (уровень доходов, пол, тип школы и т. Д.) Или внеклассные занятия. Все это важные показатели, по которым можно спрогнозировать академическую успеваемость студента и которые раньше успешно выполнялись. Но мы хотим знать, что происходит, когда учащегося вырывают из его / ее традиционной учебной среды, как это произошло во время изоляции. Смогут ли эти методы интеллектуального анализа данных работать и точно предсказывать успеваемость учащегося? И если да, то какие индикаторы мы должны использовать, чтобы построить работоспособную модель?

1. Набор данных

Становится ясно одно: нам необходимо более точно учитывать факторы, которые более точно отражают среду обучения студента в это время. Для этого мы использовали набор данных студентов иорданских университетов в качестве основного набора данных, в котором были записаны ответы студентов в форме вопросника типа Лайкерта. Этот набор данных очень полезен, поскольку он не только позволяет получить ответы студентов на использование цифровых инструментов для учебы, но также учитывает психологическое воздействие, вызванное их чрезмерным использованием, что, в свою очередь, становится решающим фактором в академической успеваемости студента.



Вдохновленные вышеупомянутым опросом, мы также создали ссылку на форму Google и распространили ее среди студентов, принадлежащих к различным индийским колледжам. Форма также задавала студентам аналогичные вопросы вместе с их демографической информацией, такой как возраст, уровень / год, пол и средний балл (как и в наборе данных по Иордании), а затем была добавлена ​​к нашему основному набору данных. Поскольку оба набора данных были скомпилированы после того, как было объявлено о блокировке, студенты уже имели привычку использовать цифровые инструменты для обучения.

Небольшое подмножество фактического набора данных приведено ниже -

С более чем 801 строкой, я думаю, мы готовы к работе.

2. Подготовка данных

Справа мы замечаем, что многие ценности необходимо перевести, чтобы машина их поняла. Из 30 столбцов с характеристиками 22 представляют собой записи опроса на основе шкалы Лайкерта, 1 - это двоичный столбец (пол), а остальные - записи, основанные на различных категориальных значениях, включая наше целевое значение (GPA). Чтобы сделать данные машинно-интерпретируемыми, мы преобразовываем следующие значения в числовые или двоичные значения:

  1. Преобразование всех ответов Лайкерта в числовые значения («Полностью не согласен»: 0, «Не согласен»: 1, «Полностью согласен»: 4, «Не уверен»: 2, «Согласен»: 3)
  2. Выполнение One-Hot Encoding для всех категорийных функций.
  3. И обозначьте кодировку для нашего целевого значения (GPA: «Ниже 60 / Ниже 2,0»: 0, «60 –69 / 2–2,49»: 1, «70 –79 / 2,5–299»: 2, «80 –89 / 3»). –3.49 ': 3,' +90 / +3.5 ': 4) и значения часов (' 3–6 ': 1,' 6–9 ': 2,' 9–12 ': 3,' +12 ': 4 , '1–3': 0).
  4. Поскольку есть только 4 строки со средним баллом ниже 2,0, мы их удаляем.
  5. После удаления всех значений NaN у нас остается 781 строка и 46 столбцов. Наконец, у меня есть очищенный набор данных, как показано ниже:

3.EDA и выбор функций

Как и ожидалось, время, потраченное на использование цифровых инструментов для обучения до и после covid, резко различается. Доля студентов, использующих цифровые инструменты более 3–6 часов, увеличилась на 22,6%, в то время как количество студентов, использующих цифровые инструменты более 9–12 часов, увеличилось на 16,6%. Но что еще интереснее, так это влияние этого изменения на средний балл учащихся. Чтобы понять это, мы используем Оценка плотности ядра (KDE), которую можно определить следующим образом:

В статистике оценка плотности ядра - это непараметрический способ оценки функции плотности вероятности случайной величины.

Мы можем в основном интерпретировать это как меру плотности вероятности или вероятности того, что событие произойдет на основе определенного значения.

На приведенном выше графике мы видим, что у учащихся было больше шансов получить более высокий CGPA, если они потратили более 1–3 часов на цифровые инструменты для обучения после пандемии. Однако в обеих кривых чрезмерное использование инструментов онлайн-обучения приводит к неуклонному снижению успеваемости. Таким образом, интуитивно мы можем сказать, что чрезмерное использование цифровых инструментов может нанести вред успеваемости студента. Подробнее об этом позже.

Двигаясь дальше, чтобы предотвратить переоснащение в нашей модели, мы обязательно должны выполнить выбор функций. Теперь мы можем уменьшить столбцы на основе 2 принципов:

  1. Если сама функция мало коррелирует с нашим целевым значением.
  2. Или, когда две функции сильно коррелированы друг с другом, мы сохраняем только одну функцию, чтобы уменьшить дисперсию в нашем тестовом наборе данных.

Для этого мы можем использовать тепловую карту корреляции или график KDE. Например-

4. SMOTE

Прежде чем мы перейдем к выбору модели, нам необходимо принять во внимание преобладающий дисбаланс классов в нашем наборе данных. Проблема работы с несбалансированными наборами данных заключается в том, что большинство методов машинного обучения будут игнорировать класс меньшинства и, в свою очередь, будут иметь низкую производительность, хотя обычно производительность в классе меньшинства является наиболее важной. Чтобы решить эту проблему, мы используем технику передискретизации синтетических меньшинств или SMOTE. Основное объяснение SMOTE состоит в том, что он переполнит класс меньшинства, синтезируя новые примеры, выбирая те, которые близки к его пространству функций. Или просто он сгенерирует новые строки для класса, который недостаточно представлен в нашем наборе данных.

5. Выбор модели

Прежде чем определить модель классификации, которая является наиболее предсказательной для набора данных, мы разбиваем данные на тестовый и обучающий набор с соотношением 0,33. После этого мы использовали 5 методов интеллектуального анализа данных, основанные на их эффективности, как описано в предыдущих статьях, для прогнозирования успеваемости учащихся.

  1. Машина опорных векторов
  2. Древо решений
  3. Случайные леса
  4. k-Ближайшие соседи
  5. Искусственная нейронная сеть

Чтобы оценить модель, мы используем «Точность» в качестве показателя оценки, который дает нам количество правильно спрогнозированных точек данных из всех точек данных.

6. Заключение

Когда мы начали этот проект, у нас было 2 вопроса, на которые мы хотели ответить:

  1. Можно ли использовать нетрадиционные индикаторы, отражающие текущую ситуацию, для прогнозирования успеваемости студента?
  2. Как пандемия и последующая изоляция повлияли на академическую жизнь студентов?

Чтобы ответить на первый вопрос, мы видим, что все методы классификации дают нам достойную производительность, причем ИНС является наиболее точной. Следовательно, возможно, мы сможем еще больше улучшить нашу модель, что может дать нам еще лучшие результаты.

Теперь, чтобы ответить на второй вопрос, взгляните на таблицу ниже -

Это некоторые из вопросов, которые были заданы в форме, и соответствующее им значение коэффициента с GPA. Эта таблица в основном говорит нам о том, что студенты, которые согласились с вышеуказанными вопросами, имели более высокие шансы получить более низкий средний балл. Это согласуется с данными, полученными нами при проведении EDA, согласно которым 72,5% студентов не рекомендуют продолжать использование модели онлайн-обучения, поскольку «это« социально и психологически нездорово ». Итак, согласно этому исследованию, мы можем сделать вывод, что эффект пандемии не только отрицательно сказался на психологическом здоровье студентов, но и отрицательно повлиял на их успеваемость.

Наконец, я надеюсь, что эта модель может послужить справочным материалом для всех, кто интересуется изучением последствий Covid-19 и последующих мер, которые были применены к студентам и образовательным учреждениям.

Вот ссылка на мой GitHub, который содержит код и набор данных, используемых для этого проекта.