Есть старая поговорка, что солнечный свет - лучшее лекарство, и одна из самых больших проблем в любой образовательной системе заключается в том, что слишком много детей проваливаются сквозь трещины. Это может быть связано с такими факторами, как недостаток индивидуального внимания и такие большие классы, что учителям трудно замечать определенные вещи. При наличии небольшого количества индивидуального внимания каждый ученик может раскрыть свой потенциал.

Чтобы добиться этого, лучше всего начать с того, чтобы понять, на каком уровне находится студент и с какими концепциями он / она борется. Школа, являющаяся источником обучения и преподавания детей, - единственное место, где доступны такие обширные данные. Наша система способна предоставить каждому ученику индивидуальное внимание, проливая свет на то, что именно происходит в школе. Поскольку у других моделей нет доступа к этой информации, они вынуждены начинать с нуля, что на жаргоне образовательных технологий известно как «проблема холодного запуска».

Еще один аспект, который необходимо исследовать, - возникла ли проблема с темой у отдельного учащегося или у всего класса возникли трудности с ее пониманием. Это «проблема непрозрачности информации», то есть внешняя система не может вглядываться в то, что происходит в школе. Чтобы преодолеть это, большинству систем образовательных технологий требуется, чтобы студенты тратили долгие часы на систему, чтобы понять, являются ли лакуны идиосинкразическими или систематическими. Хотя это можно легко сделать так, чтобы это выглядело как показатель успеха платформы, на самом деле это искажает фатальный недостаток их системы.

Еще одна важная проблема, которую мы выявили в существующих системах, - это то, что можно назвать «проблемой обратной связи». Старший сотрудник одного из крупнейших международных издательств рассказал нам о своем опыте. Его дочь смогла набрать высокие баллы на платформе онлайн-обучения, но не смогла достичь таких же результатов на школьном экзамене! Он объясняет, что, поскольку большинство онлайн-систем используют формат MCQ (вопросы с несколькими вариантами ответов), она выяснила, как обыгрывать систему, поэтому, когда дело дошло до итоговой оценки, она не смогла достичь ожидаемых результатов. Это заставляет нас предположить, что большинство продуктов edtech, доступных сегодня на рынке, представляют собой вариации советов и приемов для взлома стандартизированных экзаменов, а не пропаганду истинного обучения.

Чтобы вспомнить проблемы, с которыми сталкиваются системы Edtech

  1. Проблема холодного старта - незнание пробелов в обучении заранее и тратить ценное время студентов на их выяснение.
  2. Проблема непрозрачности информации - невозможность заранее определить, основана ли проблема на пробелах в масштабах всего класса или на конкретных учениках.
  3. Проблема с обратной связью - невозможность замкнуть цикл обучения тем, что происходит в школе, тем самым подтверждая эффективность системы обучения.
  4. Сосредоточьтесь на советах и ​​приемах - нездоровая сосредоточенность на том, как сдать конкурсные экзамены, а не на поощрении обучения, в результате чего только целеустремленные люди с высокими результатами получают максимальную выгоду от системы.
  5. Ложный показатель - время, потраченное на систему, а не на эффективность платформы, приводит к большей необходимости тратить на видео и другие методы обучения, эффективность которых еще не решена.

Решение, увиденное завтра

Мы приступили к проектированию нашей системы, как никакая другая компания в сфере образовательных технологий, мы обратились к эпицентру данных об учащихся, школе. Мы построили систему, которая была надежной и поэтому могла быть использована школами на разных уровнях. -3 города. Он также прост в использовании и, в отличие от большинства современных платформ, работает для всех типов вопросов (MCQ, истина / ложь, соответствие столбцам, итоговый), что позволяет учащимся продолжать отвечать на вопросы ручкой и бумагой.

В настоящее время у нас есть около 6 миллионов точек данных о детях, которые отвечают на вопросы в разных классах и отслеживают их успеваемость в разных классах. Плотный характер данных позволяет детально анализировать и дифференцировать. Подумайте о том, сколько полезной информации можно получить, когда 100 детей по-своему отвечают на один и тот же вопрос. Мы гордимся тем, что эта система сейчас находится в процессе получения глобального патента.

Этот магнитный камень данных, который увеличивается с каждым днем, дал нам понимание, как никто другой, кроме того, он позволил нам моделировать поведение студентов способами, которые никогда не наблюдались раньше. Странным следствием является то, что, поскольку мы обучаем наши модели с таким большим набором данных, мы можем делать очень эффективные прогнозы с очень небольшим количеством данных, когда мы видим нового ученика в нашей системе. Учитывая, что большинство учеников серьезно относятся к школьным оценкам, а также тот факт, что большинство оценок чередуются [4]. Мы можем получить очень качественное представление об обучении студентов. Как следствие, мы также можем планировать учебный путь детей через классы. Это дало нам возможность вернуться назад и определить первопричины успеваемости ребенка. Мы также учли системные проблемы, такие как завышение оценок, вызванное упрощением вопросов и оценок, что нынешние системы делают из-за их неспособности моделировать уровень сложности вопросов. Наша система на основе графиков позволяет нам рекомендовать схемы обучения, в которых используется поэтапный подход, который не заставляет учащихся отказываться от системы.

Ключевые ограничения, которых мы хотели избежать при разработке системы версий

Ключевые ограничения большинства моделей, используемых в настоящее время компаниями, работающими в сфере информационных технологий, IRT (Item Response Theory) или BKT (Bayesian Knowledge Tracing), заключаются в следующем.

  • Эффекты недавнего времени - концепции, которые были освоены недавно, будут иметь большее влияние на способность ученика выполнять данную концепцию по сравнению с теми, которые были освоены в прошлом. Этот эффект по существу учитывает человеческую природу «забвения». Принимая во внимание, что модели BKT предполагают, что, как только вещи усвоены, они остаются изученными.
  • Контекстуализированная последовательность испытаний - Психологическая литература показала, что чередование вопросов с разными концепциями оказывает сильное положительное влияние на состояние обучения и знаний. Чтобы добиться оптимального обучения, важно использовать всю последовательность упражнений, которые получает студент, в том же порядке, поскольку это потенциально может сделать вывод о влиянии упражнений или упорядочении понятий. (глядя на то, как вы выступили в биологии, физике, химии одновременно, а не только индивидуально)
  • Сходство между навыками - каждый вопрос, на который отвечает учащийся, имеет связанную концепцию или концепции. Здесь есть две проблемы: если есть два навыка, которые коррелированы и связаны на графике, можно ожидать, что эти два навыка изучаются одновременно. кроме того, если два навыка связаны в графике предметных экспертов как отношения Родитель - ›Ребенок, следует разумно ожидать, что если кто-то овладеет навыком Ребенок, он будет еще лучше владеть Родителем. навык. Подобные сложные отношения сложно смоделировать в BKT.
  • Индивидуальные вариации способностей. Здесь мы видим два эффекта. Во-первых, если в прошлом учащийся был средним учеником, он, скорее всего, продолжит оставаться средним учеником, это может быть определенный предмет или общий уровень. Во-вторых, если ученик не смог ответить на вопросы более высокого уровня Блума в прошлом, он, вероятно, и дальше не сможет это сделать. Опять же, поскольку BKT моделирует каждый навык отдельно, у него нет контекстуализированной информации, необходимой для оценки средней способности или общей глубины способностей (Таксономия Блума является мерой глубины знаний)

Дизайн модели - там, где резина попадает в дорогу

Источник изображения:

1. Пэнхэ Чен, Ю Лу, Винсент В. Чжэн, Ян Сянь. Отслеживание глубоких знаний на основе предварительных требований. Международная конференция по интеллектуальному анализу данных IEEE 2018. стр. 41

2. http://snap.stanford.edu/graphsage/

Входы:

Наша модель основана на фундаментальной исследовательской статье, написанной в 2015 году исследователями из Стэнфордского и Денверского университетов [1]. Мы расширили его, чтобы он стал более актуальным для нашей проблемы, учитывая более богатый набор данных, которым мы располагали.

В первом случае мы использовали вложения BERT из модели, которая была точно настроена с данными из почти 500 школьных учебников, 100 000 веб-сайтов, имеющих отношение к концепции, и примерно 500 000 пар вопросов и ответов. Мы использовали вложения BERT вместо горячих векторов концепций или вопросов. Горячие векторы стали бы слишком большими, так как у нас есть около 500 000 уникальных вопросов. Мы решили использовать вложения BERT по двум причинам:

а) Это позволило нам сжать k разреженный сигнал в плотное представление d-измерения, используя концепцию сжатого зондирования.

б) Кодирование вопросов BERT не было случайным и содержало детальную информацию о природе вопроса, то есть был ли это вопрос Блума на уровне понимания или запоминания и т. д. Это позволило нам рассмотреть индивидуальные вариации способностей на основе глубины понимания учащегося.

Таким образом, вход в модель был определен следующим образом:

Последовательность взаимодействий со студентами, которая может быть в форме автономных ручных и бумажных экзаменов или онлайн-системы проверки и исправления.

Где X - это вопрос, на который студент i ответил в момент t, и представлен как:

Где X ' - вопрос, на который студент я ответил в момент t, представленный его встраиванием d, которое объединено с 0 вектор того же размера при d встраивании до или после в зависимости от того, правильно это понял учащийся или нет. Кроме того, мы также включаем сложность вопроса, полученного эмпирическим путем, или, если вопрос появляется впервые, сложность, присвоенную ему SME (предметным экспертом).

Это проясняет, что входные данные в модель очень обширны и специфичны по своей природе, что позволяет проводить различие между вопросами запоминания уровня и вопросами анализа уровня. Это важно, потому что на вопрос уровня анализа может быть труднее ответить, чем вопрос уровня запоминания, поскольку он может потребовать понимания загадочной концепции или быть связан с заблуждением, сбивающим с толку детей.

У нас также есть очень богатый и хорошо задокументированный график знаний, который был разработан малыми и средними предприятиями и основан на исследованиях в этой области. Все вопросы в нашей системе привязаны к одной или нескольким концепциям в зависимости от актуальности. Мы передаем модели как концепцию / концепции, которым сопоставлен вопрос, так и предшественников сопоставленной концепции. Это помогает решить проблему сходства между навыками.

Модель:

Уровень кодирования:

Знание носит инкрементный характер, поэтому состояние знания ребенка, которое мы получаем в I ’, следует прогнозировать на основе того, каким было состояние знания на предыдущем этапе. По мере продвижения на каждом этапе состояние знания должно постепенно увеличиваться. Как и в статье Piech et al (2015), мы используем RNN, в нашем случае LSTM, который обращается к эффектам недавнего времени и контекстуализированной последовательности испытаний. Мы расширили их модель, включив в нее дополнительную информацию, такую ​​как встраивание сложных вопросов и их уровни сложности, но, что наиболее важно, мы также использовали предполагаемые встраивания концепций из модели. Результатом этого слоя является состояние знаний, которое позволяет нам проводить обучение и делать выводы. Если есть состояние знания O и понятие C, взаимодействие между O и C даст нам вероятность «овладеть» этим конкретным понятием.

Уровень внедрения концепции:

Представление концепции внедрения изначально было рудиментарной «матрицей внедрения», однако мы чувствовали, что большая часть информации была потеряна, что привело к более слабому моделированию сходства между навыками. Мы также хотели включить в модель опыт малого и среднего бизнеса, не позволяя ему обязательно быть доминирующей особенностью, а вместо этого позволять модели выводить эти зависимости неконтролируемым образом. В области сверточных сетей графов (GCN) был достигнут большой прогресс. Поскольку у нас уже был граф зависимостей концептов (то есть какая концепция зависит от других концепций), мы использовали эту информацию, чтобы вместо этого генерировать вложение не только из себя, но и из его соседей. Это помогло в том случае, когда каждая концепция сама по себе представлена ​​нечасто, но выигрывает от того факта, что ее соседи также имеют свои собственные образцы данных. Таким образом, концепции в совокупности улучшают свое собственное представление, а также представление своих соседей. Этот метод использования базовой структуры графа в литературе называется сверткой графа.

Функция потерь

Основная потеря, которую мы пытаемся минимизировать, - это предсказать, как ученик будет выполнять Q в зависимости от его уровня знаний Y в момент времени t, а C - это вложение концепции вопроса Q, и F - это функция преобразования сложности вопроса Q.

l может быть любой функцией потерь. Мы попробовали потерю кросс-энтропии для нашего предсказания и целевого предсказания. Мы используем MSE, поскольку мы используем данные из суммативных, формирующих и восстановительных систем, поэтому возможны частичные оценки.

Обеспечение внутренней согласованности

Второе требование сходства между навыками заключается в том, что если два навыка S (дочерний) и S (родительский) связаны в графе предметных экспертов как Родитель- ›Ребенок отношений, следует разумно ожидать, что если человек овладеет навыком «Ребенок», он будет еще лучше владеть навыком «Родитель» [3]. Это еще одна дополнительная регуляризация, которую мы включаем в модель с помощью функции потерь.

Другая регуляризация, которую мы выполняем, заключается в том, что мы пытаемся ограничить неотъемлемый «дрейф модели», который, по наблюдениям, имел модель DKT. Это означает, что если мы пройдем 100 вопросов и на 100-м вопросе решим вернуться к вопросу 1, мы сможем восстановить, каким было состояние знаний ребенка в это время. Соответственно, когда выполняется порядок ввода (Q t, 0), (Q t + 1, 0) происходит достаточно часто модель будет иметь тенденцию узнавать, что если ученик отвечает на Q t неправильно, он / она также, вероятно, ответит на Q t + 1 неверно, но не Q t, поскольку он несовместим [2]. Таким образом, мы добавляем дополнительный термин потери, чтобы зафиксировать потерю, которая предсказывает, как студент будет выполнять текущий вопрос. Эта потеря умножается на небольшой весовой член.

В заключении:

Модель была обучена на плотных внутренних данных, которые мы собирали за годы для науки. При обучении модели мы учитывали только студентов, у которых было более 25 взаимодействий. После этой фильтрации данные об обучении включают около 1,6 миллиона взаимодействий с примерно 13 тысячами учеников из самых разных школ и классов по всей стране. Используя эти данные, модель была обучена в течение 500 эпох, и мы использовали более 1700 студентов для проверки. При использовании двоичного представления того, был ли дан ответ на вопрос правильно или нет, модель получила AUC 0,856 на невидимом проверочном наборе. Однако, как упоминалось выше, при наличии сводных, формирующих и исправляющих данных систем, использующих непрерывное представление взаимодействия учащегося, мы использовали потери MSE, которые сократились до 0,256. Мы обучили систему не только предсказывать, правильно ли ученик ответит на вопрос, но и предсказывать, каков самый высокий уровень сложности вопроса, на который они могут ответить для данной концепции. Это позволяет нам выполнять интересную кластеризацию учеников для задач проверки и исправления как онлайн, так и в школьной обстановке. Таким образом, учитель теперь может видеть мелкие лакуны класса.

Использованная литература:

1. Крис Пих, Джонатан Бассен, Джонатан Хуанг, Сурья Гангули, Мехран Сахами, Леонидас Гибас, Яша Золь-Дикштейн, Стэнфордский университет, Академия Хана, Google. «Отслеживание глубоких знаний». 2015 г.

2. Чун-Кит Юнг и Дит-Ян Юнг, Гонконгский университет науки и технологий, «Решение двух проблем в отслеживании глубоких знаний с помощью регуляризации, согласованной с предсказаниями». 2018.

3. Пэнхэ Чен, Ю Лу, Винсент В. Чжэн, Ян Пянь. «Отслеживание глубоких знаний на основе предварительных условий». Международная конференция по интеллектуальному анализу данных IEEE 2018.

4. Дуг Роэр, Роберт Ф. Дедрик и др. «Чередование практики улучшает изучение математики». 2014 Журнал педагогической психологии

5. Джейкоб Девлин, Мин-Вэй Чанг, Кентон Ли, Кристина Тутанова. «BERT: предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». Май 2019.

Авторы: Дев Рой, Кшитидж Каламбаркар, Сушмита Нараяна, Сидхарт С. Рао.