На прошлой неделе мы приняли участие в хакатоне # NLP4GOV, организованном правительством Фландрии. Студенты, компании и стартапы получили возможность решать различные кейсы, предоставленные государственными учреждениями, с использованием обработки естественного языка.

Случаи варьировались от признания закономерностей в законодательстве до предоставления решений для глухих и слабослышащих граждан при использовании службы поддержки. TechWolf выбрал кейс, предоставленный VDAB (государственная служба занятости Фландрии), связанный с сопоставлением профиля личности с вакансией. Мы выбрали этот случай по двум основным причинам:

1. Социальная значимость возможности найти совпадение по культуре, а также по компетенции не следует переоценивать. Если кто-то увольняется с работы вскоре после того, как был принят на работу из-за культурного несоответствия, это несет огромные убытки для работодателя, а также ставит работника в невыгодное положение.

2. Система навыков TechWolf способна извлекать сложные навыки из любого текстового источника без необходимости явного упоминания. На этом хакатоне мы хотели разобраться в этой задаче с точки зрения мягких навыков, сделав еще один шаг ближе к истинному пониманию таланта и человека, стоящего за ним.

Мы создали короткое анимированное видео, объясняющее наше решение. Давайте прямо в это погрузимся!

Давайте теперь подробнее рассмотрим, как мы решили эту проблему.

Проблема

Более 200 000 человек во Фландрии активно ищут работу. Для многих из этих мужчин и женщин найти подходящую работу - нетривиальный вопрос. Здесь VDAB использует современные технологии, чтобы найти подходящее занятие для каждого человека. Однако эти технологии в основном нацелены на извлечение сложных навыков и подбор игроков исключительно в этом измерении навыков. Что касается измерения мягких навыков, требуется много ручного труда, и в него можно внести улучшения. Поэтому мы решили создать систему, которая дает консультантам VDAB возможность мгновенно увидеть, какие мягкие навыки необходимы для выполнения определенной работы.

Данные

VDAB предоставил нам словарь, описывающий структуру мягких навыков, а также относительно небольшой набор данных, содержащий около 3000 объявлений о вакансиях. Мы решили собрать больше данных, уделяя особое внимание разделу «профиль», содержащемуся во многих списках, поскольку этот раздел часто наполнен навыками межличностного общения. Изучив голландские доски объявлений о вакансиях, мы получили более работоспособный корпус из примерно 50 000 вакансий.

Первая модель

Используя подход, основанный на данных, мы определили общие фразы в документах и ​​связали самые важные из них с соответствующими мягкими навыками. Наша базовая модель просто ищет в документе каждую из этих фраз, чтобы найти описанные мягкие навыки.

Творческий отсев

Используя эту базовую модель, мы создали помеченные примеры для обучения более сложного классификатора. Каждый пример просто состоит из текста и мягких навыков, которые в нем явно упоминаются. Мы также использовали избыточную информацию в большинстве описаний, то есть объявление о вакансии может упоминать как гибкость, так и адаптацию к меняющимся обстоятельствам. Только первая из них помечена базовой системой, поэтому, скрывая эти фразы в некоторых примерах, наша модель научилась не полагаться исключительно на вышеупомянутые явные упоминания. Таким образом, нам удалось предотвратить переоснащение ранее выбранных фраз. Используя этот подход, мы обучили отдельную модель для каждого из 29 мягких навыков. Поскольку производительность по-прежнему страдала от нехватки данных, мы дополнительно улучшили наши модели, используя предварительно обученные векторы слов FastText общего назначения.

Полученные результаты

Общая точность простой маркировки превышает 90%, но этот показатель вводит в заблуждение, поскольку проблема классификации несбалансирована. Несмотря на то, что точность высока: 92% обнаруженных тегов являются правильными, отзывчивость довольно низкая: обнаруживается только 70% мягких навыков.

Используя методы, предложенные в предыдущем разделе, мы создали модель, которая была более надежной при обнаружении орфографических ошибок и редких выражений. Кроме того, мы обнаружили точность 87% и значительно улучшенную отзывчивость на 86%, что означает, что эта новая модель имеет гораздо лучшую способность к обобщению.

Заключение

Учет личности и культуры - это недостающая часть головоломки при подборе персонала. Нам удалось разработать модель, которая моделирует и обнаруживает мягкие навыки, сделав первый шаг к этой амбициозной цели. Это приближает нас на один шаг к полному сопоставлению: подбор персонала, учитывающий людей в целом, в отличие от сегодняшнего сопоставления на основе компетенций.

TechWolf получил приз в номинации Лучшая студенческая команда и Лучшая команда в целом на хакатоне # NLP4GOV. Благодарим SAP и NLP Town за проведение конкурса!