Данные, машинное обучение и оптимизация рынка в Upwork (часть 1: рост уровня пользователей)

Как мы используем данные и машинное обучение для оптимизации конверсии и помощи пользователям в росте

Это ЧАСТЬ 1 серии из четырех статей, в которой представлен обзор проблем, с которыми мы столкнулись, и решений, которые мы разработали для поддержки конверсии пользователей. Это перекрестный пост, и вы можете найти другие выпуски в нашем блоге Upwork здесь:

Оптимизация данных, машинного обучения и рынка на Upwork (предисловие)
Обзор науки о данных на Upworkmedium.com

Данные, машинное обучение и оптимизация рынка в Upwork (Часть 2: рост уровня рынка)
Как мы используем данные и машинное обучение для оптимизации и развития нашего рынка.medium.com

Данные, машинное обучение и оптимизация рынка в Upwork (краткое описание)
Краткое описание возможностей и проблем в области обработки и анализа данных на Upworkmedium.com

Эта статья построена следующим образом:

1) Мотивация: влияние на бизнес конверсии основных пользователей.

2) Основная конверсия клиента: как мы используем данные и машинное обучение для оптимизации клиентской воронки.

3) Основная конверсия фрилансера: как мы оптимизируем фрилансерскую сторону воронки.

Влияние конверсии основных пользователей на бизнес

Типичная воронка, через которую проходят пользователи Upwork, показана ниже.

Посетители приходят на наш сайт через различные целевые страницы
Они подписываются, если им нравится то, что они видят
На начальном этапе воронки пользователи-клиенты привлекают своего первого фрилансера, а наши пользователи-фрилансеры подписываются на свой первый проект.
На фазе роста фрилансеры берут на себя больше работы, а клиенты привлекают больше фрилансеров для создания своей команды.

Мы видим, что создание ценности достигается с каждым шагом преобразования. Влияние особенно велико, когда нам удается привлечь основных пользователей, т. е. когда мы перемещаем пользователей из начальной фазы в фазу роста, мы получаем дополнительную ценность в 25 раз. В нашем бизнесе эта небольшая группа основных пользователей, которая составляет всего около 20% населения, на самом деле приносит около 80% наших доходов.

Оказывая влияние на бизнес, команда специалистов по обработке и анализу данных может помочь решить основную проблему, заключающуюся в выявлении шаблонов поведения, характерных для основных пользователей, и разработке решений по машинному обучению и оптимизации для поощрения такого поведения.

Часть 1.1. Как мы используем данные и машинное обучение для улучшения конверсии основного клиента на каждом этапе воронки

Иллюстрированная воронка представляет собой обзор некоторых из последних усилий, которые мы предприняли, и показателей конверсии, которые мы надеемся изменить на клиентской стороне нашей воронки.

Зарегистрироваться

Для потенциального клиента, который хочет изучить рынок услуг, такой как Upwork, основной мотивацией является подбор персонала. Мы предполагаем, что клиент приходит с намерением нанять, и он подпишется, если у Upwork, кажется, есть подходящие фрилансеры, которые могут выполнить ее проект.

Основываясь на этом предположении, мы создали приложения для конверсии регистрации клиента, как показано ниже:

Как правило, мы можем сформулировать это как проблему понимания намерения пользователя и поиска результатов, соответствующих этому намерению. Хотя понятие релевантности имеет нюансы в контексте рынка услуг, его можно сопоставить с основной проблемой поиска, которая хорошо изучена в литературе по информационному поиску.

Одна из распространенных стратегий состоит в том, чтобы рассматривать ее как задачу оптимизации ранжирования по списку (обучение по списку для ранжирования) и решать ее с помощью усиленных деревьев (LambdaMART). Чтобы это работало эффективно, нам нужны данные/метки, которые различают результаты с точки зрения уровней релевантности (например, очень релевантные, релевантные, несколько релевантные, нерелевантные).

В качестве альтернативы мы также можем решить ее как задачу прогнозирования рейтинга кликов (CTR), для которой существует множество известных решений, основанных на классификации (прогнозирование количества кликов и отсутствие кликов) или регрессии (прогнозирование фактическая частота кликов). Мы называем решения этого типа односторонним сопоставлением, чтобы подчеркнуть, что нам «всего лишь» нужно оптимизировать для посещающего пользователя.

Решение этой проблемы эволюционировало с годами: во-первых, мы начали с формулы ранжирования, которая состоит из многих компонентов, включая релевантность текста (сходство TFIDF) и жестко закодированные эвристики для понижения в должности (серый список) и повышения (на основе рейтинга фрилансеров, рейтинги, рабочие часы). Его было сложно поддерживать, и он не предназначен для обучения и совершенствования на основе отзывов пользователей.

Теперь наше решение реализовано как двухпроходный подход:

Во-первых, мы применяем формулу, ориентированную на отзыв, которая сочетает релевантность текста с независимой от запросов моделью (все прогнозы вычисляются в автономном режиме и записываются в индекс), чтобы быстро генерировать кандидатов.
Затем мы повторно ранжируем лучших кандидатов, используя более продвинутые функции (сигналы запросов и пользователей, полученные из потоков данных в реальном времени), чтобы повысить точность.

В качестве примера функций, специфичных для запроса, мы используем сходство слова на основе внедрения между запросом и профилем фрилансера. Для построения модели первого прохода мы используем логистическую регрессию для определения CTR. Повторное ранжирование второго прохода основано на LambaMART и развертывается с помощью функции SOLR Reranking. Что касается меток релевантности, мы используем различные типы кликов (результаты кликов против результатов кликов со временем ожидания > 20 с против кликов для регистрации).

В результате этой работы мы видим значительные улучшения в:

Простота обслуживания
Вовлеченность посетителей (CTR, показатель отказов, показатель регистрации) и
Основные показатели успеха бизнеса (количество и пожизненная ценность регистраций)

Хотите узнать больше? Пожалуйста, свяжитесь с членами нашей команды, работающими над этими усилиями:

- Артем Москвин, Иван Портянко, Йонгтао Ма: Ранжирование на основе машинного обучения для поиска и просмотра на сайтах посетителей Upwork.

Начинать

Процесс конверсии найма, который мы стремимся поддерживать на начальном этапе, варьируется от публикации вакансии до поиска, сравнения и привлечения фрилансеров, чтобы повысить вероятность того, что фрилансеры выполнят работу.

Мы создали три приложения, чтобы помочь клиентам начать нанимать сотрудников:

Помощь в создании объявления о вакансии
Поиск фрилансеров, рекомендации и ранжирование предложений
Целостное моделирование клиентов под названием «Состояния найма клиентов».

Помощь в создании объявления о вакансии

Публикация осмысленной и привлекательной вакансии, которую фрилансеры могут найти и захотят подать предложение, — нетривиальная задача на таком сложном рынке, как Upwork.

Мы обнаружили, что самые большие проблемы включают

Как определить категорию вакансий (Upwork поддерживает постоянно расширяющийся список из сотен категорий вакансий, также называемых услугами) и
Как понять компромисс между стоимостью и требованиями к уровню знаний и, в конечном счете, как установить бюджет для работы.

Чтобы помочь решить эти проблемы, мы развернули приложения, показанные ниже:

Для решения последней проблемы, т. е. расчета и отображения диапазонов бюджета для желаемого уровня квалификации, мы используем огромное количество исторических данных о вакансиях, проектах и ценах.

Однако исторически сложилось так, что, возможно, из-за отсутствия руководства клиенты испытывают трудности с оценкой уровня квалификации для своей должности. Например, мы обнаружили, что для всех вакансий, где клиенты упоминают «эксперт по машинному обучению» в своем тексте, только ~ 40% из них имеют «уровень эксперта» в качестве требования. Остальные размещаются как вакансии «Начальный уровень» или «Средний уровень».

Таким образом, мы не можем полагаться исключительно на требования к уровню, указанные нашими клиентами, а должны найти альтернативный способ определения уровня знаний, необходимого для каждого проекта.

Мы предполагаем, что важнее всего фрилансеры, которых клиент в конечном итоге нанял для проекта. Поэтому мы используем уровень знаний привлеченных фрилансеров в качестве основы для расчета диапазона цен. Но с этим мы только сместили проблему к проблеме определения уровня знаний фрилансеров.

(Мы обсудим наши технические решения для моделирования различных аспектов наших фрилансеров, включая уровень знаний и репутацию, основанные на удовлетворенности клиентов, в разделе, посвященном конверсии основных фрилансеров.)

Проблема предсказания категории вакансий решается в рамках наших более масштабных усилий по пониманию запросов и текстов, которые мы обсудим далее.

Поиск фрилансеров, рейтинг рекомендаций и предложений

Как мы можем выявить фрилансеров, у которых больше всего шансов быть привлеченными клиентом? Это воздействие достигается за счет точек соприкосновения как с клиентом, так и с фрилансером, как показано ниже.

Одной из основных проблем поиска является понимание текста и запросов. Мы используем гибридный подход, объединяя современные скрытые представления семантики (fastText, BERT) с нашими внутренними усилиями по построению онтологии Upwork, которая призвана стать де-факто эталоном явных знаний. представительство в онлайн мире труда. Используя онтологию, мы можем сопоставить строки с вещами (понятиями онтологии), которые являются клиентами, фрилансерами, агентствами, занятиями, результатами, навыками и т. д. Как показано ниже, мы сначала применяем шаг связывания сущностей с помощью Википедия для понимания ввода текста (поисковые запросы, профили, сообщения) с точки зрения объектов Википедии. Приближаясь к этому шагу, мы можем дополнительно различать задачи (1) получения информации о сущностях с помощью Wikipedia Miner, (2) удаления сущностей, не связанных с миром работы, (3) и применения общих шагов упомянуть об обнаружении, создании ссылок и устранении неоднозначности сущностей, чтобы связать текст с сущностями Википедии (на основе повторной реализации X-Lisa). Используя сопоставления между Онтологией Upwork и Википедией, которые мы рассчитали автоматически и частично проверили вручную, вещи, распознанные из текстов, окончательно представлены в виде концепций Онтологии Upwork. Проблема, с которой мы столкнулись, — это категоризация запросов. Например, если запрос относится к разработке мобильных приложений, цель состоит в том, чтобы вывести список первых k категорий, которые должны включать разработку мобильных приложений и другие связанные категории. Мы обнаружили, что как неконтролируемое (Word2Vec), так и контролируемое встраивание слов (fastText) плохо работают с хвостовыми запросами из-за их зависимости от обучающих данных и их отсутствия. Точность для всего набора запросов значительно улучшилась, когда мы объединили выходные данные fastText с результатами нашей семантической службы, которая выводит информацию о категории на основе связанных объектов.

Понимание запросов с точки зрения сущностей и категорий позволяет адаптировать стратегии поиска на основе онтологий, например. специальные матчеры и рейтинги для имени, местоположения и навыков. Например, мы приложили немало усилий, чтобы внедрить сопоставление на основе навыков. При наличии задания задача состоит в том, чтобы извлечь ключевые термины и требования к навыкам, чтобы найти и ранжировать фрилансеров, которые (1) обладают соответствующими навыками, (2) их навыки проверяются клиентами на Upwork и (3) четко представляют и объясняют совпадения. нашим клиентам. На приведенных ниже снимках экрана показан пример сопоставления на основе навыков в действии. Решение этой проблемы является кульминацией долгой работы, которая началась с извлечения ключевых терминов для сообщений о вакансиях посредством связывания сущностей. Затем мы научились делать выводы о категориях и навыках из вакансий. Самая интересная задача заключалась в проверке/подтверждении и количественной оценке силы навыков фрилансера на основе их предложения и опыта работы. Мы решили ее как задачу вероятностного генеративного моделирования а-ля TrueSkill 2, где каждая работа рассматривается как соревнование, а судьи — клиенты. Как показано ниже, представление навыков в профиле фрилансера включает (1) заявленные навыки, которыми, по его словам, обладает фрилансер, (2) навыки, полученные из его профиля, (3) и навыки, подтвержденные его опытом работы. Мы включили все это в модуль семантического поиска, который был реализован как расширение SOLR, нашего стандартного поискового механизма. Результатом являются вещи, а не строки: вместо того, чтобы представлять фрилансеров, которые были текстовыми совпадениями с объявлением о вакансии, мы значительно увеличили вовлеченность клиентов и пригласили их, поскольку они видят фрилансеров, которые доказали свою квалификацию на основе неявных сигналов, связанных с конкуренцией.

На сайте посетителя мы полностью сосредоточились на клиенте и оптимизировали конверсию регистрации. Но теперь, чтобы помочь клиенту нанять, мы хотим найти фрилансеров, которые соответствуют их требованиям к работе, и мы также хотим, чтобы они были заинтересованы в работе. Известные методы поиска и рекомендаций эффективны для создания односторонних решений, но для поддержки этого их необходимо расширить для решения проблемы двустороннего сопоставления. Помимо требований клиента и работы, хорошее соответствие учитывает интересы фрилансеров, поэтому приглашения клиента на работу хорошо принимаются, фрилансеры, с которыми она беседует, очень привлекательны, а те, кого она нанимает, могут выполнять работу так, как она этого хочет. . Архитектура машинного обучения, предложенная и примененная к этой задаче в Upwork, основана на построении отдельных моделей предпочтений как со стороны клиента, так и со стороны фрилансера и построении двухуровневой модели ранжирования. Помимо архитектуры модели, мы находим, что ключи к улучшению заключаются в извлечении пользовательских предпочтений, а также в сопоставлении и кодировании признаков парных предпочтений.

От найма до исполнения и вмешательства в середине работы

Успешный старт должен выходить за рамки найма. Наша цель — расширить поддержку для успешного выполнения работы. С этой целью мы проводим целостную работу по моделированию клиентов под названием Состояния найма клиентов:

Качество работы и намерение клиента: используя заявления о приеме на работу как сигнал интереса фрилансера и собеседование как сигнал намерения клиента, мы построили модели классификации, чтобы сделать вывод, хочет ли клиент написать привлекательную вакансию и готов ли он нанять.
Заполнение: учитывая клиента, вакансию и пул кандидатов, мы строим модель для прогнозирования вероятности того, что вакансия будет заполнена, и величины их изменения, если мы добавим в пул кандидатов определенного типа.
Отток: с учетом нанятого фрилансера и взаимодействия в середине работы мы прогнозируем риск оттока клиентов, используя известные сигналы низкой удовлетворенности и оттока в качестве цели модели (наймите, но не тратите, тратите, но не получаете отзывов).

Учитывая это понимание нашего клиента, мы внедряем целевые политики (высокая поддержка и вмешательство), чтобы напрямую увеличить вероятность заполнения и снизить риск оттока.

Хотите узнать больше? Пожалуйста, свяжитесь с членами нашей команды, работающими над этими усилиями:

- Ева Мок, Джордж Барелас, Лей Чжан, Куанг Хиеу Ву, Сиддхарт Кумар, Спирос Капнисис, Тхань Тран: понимание текста и запросов — как мы используем граф знаний, связывание сущностей и семантическую маркировку текста в Upwork.

- Ева Мок, Джордж Барелас, Лей Чжан, Куанг Хиеу Ву, Сильвестр Лосада, Тхань Тран: семантический поиск — сопоставление категорий и навыков с помощью SOLR.

- Пабло Селайес, Сибо Лу: Моделирование клиентов — как мы фиксируем состояния наших клиентов при приеме на работу и помогаем им нанимать.

Расти

Мы помогаем нашим клиентам расти, отправляя им рекомендации по расширению их скамьи с помощью фрилансеров, которые подходят для различных функций работы (перекрестные продажи) и уровней работы (допродажи). Примеры рекомендаций показаны в письмах ниже.

Для вычисления подобия фрилансера мы используем стандартные текстовые вложения (Word2Vec, Doc2Vec) для текстовой части, а также используем журнал кликов пользователя и богатый графоструктурированный контекст, который мы можем извлечь из него для изучения встраивания объектов. . Мы обнаружили, что это преимущество по сравнению с традиционной совместной фильтрацией, основанной на «похожих элементах», таких как «пользователь, купивший это, также купил», где поведение отдельного пользователя (например, покупка) формирует основу сходства. При таком подходе к изучению встраивания объектов с помощью нейронных сетей мы изучаем распределенное представление объектов (например, фрилансеров, приложений, навыков и т. д.), чтобы получить сходство с разных точек зрения. Для применения рекомендации фрилансера сходство между двумя фрилансерами A и B основано на:

А и Б были нажаты, просмотрены или сохранены в одном и том же сеансе.
A и B были нажаты, просмотрены или сохранены для одного и того же поискового запроса.
A и B были наняты для выполнения работ, требующих одинаковых навыков.

Журнал кликов, который мы используем для (1 + 2), в основном представляет собой данные последовательности, поэтому мы применяем Deepwalk в качестве метода изучения вложений. Для (3) мы обнаружили, что LINE более эффективна, учитывая, что данные представляют собой сеть с плотной связью.

Мы также разработали модель для данного клиента, предсказывающую его следующую работу и навыки,необходимые для этой работы. Мы формулируем прогнозирование навыков как проблему вероятностного вывода: какова вероятность того, что клиент разместит вакансию с навыком X (future_skill), учитывая, что она ранее разместила вакансию с навыком Y (прошлое_навык)? Хотя мы можем не знать этого для конкретного клиента, мы можем узнать о поведении других клиентов и сделать обоснованное предположение с помощью байесовского вывода:

P(будущий_навык | прошлый_навык) = P(прошлый_навык | будущий_навык) * P(будущий_навык) / P(прошлый_навык),

где вероятность P(past_skill | future_skill) и априорные значения P(future_skill)/P(past_skill) оцениваются на основе данных, основанных на всех исторических данных. профессий и их навыков.

Хотите узнать больше? Пожалуйста, свяжитесь с членами нашей команды, работающими над этими усилиями:

- Лей Чжан: обучающие вложения для фрилансеров, рабочие места и другие объекты в мире труда.

- Артем Москвин, Юнтао Ма: Комплементарность или взаимозаменяемость услуг и навыков на рынке труда.

Часть 1.2. Используйте данные и машинное обучение для улучшения конверсии основного фрилансера

Обзор наших усилий по конверсии основных фрилансеров показан здесь.

Зарегистрироваться

Подобно конверсии регистрации на стороне клиента, мы сталкиваемся с проблемой одностороннего соответствия, когда цель состоит в том, чтобы представить подходящие вакансии для наших приезжих фрилансеров. Мы предполагаем, что если фрилансер зарегистрируется, он хочет увидеть, что Upwork предлагает широкий спектр вариантов гибкой работы, от подработки с минимальными обязательствами до постоянных и долгосрочных удаленных вариантов с доходами, сравнимыми с традиционной альтернативой.

Наше первое решение, поиск работы для посетителей (показано ниже), было создано с учетом только двух основных факторов: релевантности текста и давности. Была разработана и вручную настроена простая формула ранжирования с учетом этих факторов. Последняя итерация этого решения основана на двухэтапном подходе, основанном на обучении и присвоении рейтинга. Кандидаты выбираются с помощью быстрого первого прохода, независимого от запроса, который повторно ранжируется зависимым от запроса вторым проходом на основе более продвинутой модели с более богатыми функциями.

Основные используемые функции связаны с давностью, местоположением и качеством (длина описания, начальный бюджет). Довольно интересным и эффективным является один тип функций, который интуитивно фиксирует разницу в цене, которую клиент ожидает заплатить, по сравнению с аналогичными работами с такими же требованиями к навыкам. Работа, за которую платят больше, чем в среднем по навыкам, оказывается более привлекательной для фрилансеров. В качестве признаков, специфичных для запроса, мы используем признаки расстояния, такие как семантическое сходство между заголовком запроса и результата. Для изучения модели мы получили разные уровни релевантности, используя пропущенные результаты, результаты по клику и различные действия, выполняемые над результатами по клику, например. клики по результатам, для которых мы наблюдали действие регистрации, имеют самый высокий уровень релевантности. Мы обнаружили, что эта автономная оптимизация на основе NCDG помогает получить результаты, соответствующие показателям онлайн-бизнеса, которые мы стремимся изменить: с ранжированием машинного обучения посетители были более вовлечены (более высокое общее количество показов и кликов), а ежедневный уровень регистрации в основном улучшен.

Начинать

По аналогии с клиентской воронкой, центральной темой всех приложений ниже является двустороннее сопоставление. Мы хотим, чтобы вакансии и их клиенты были привлекательными и соответствовали интересам фрилансера. С другой стороны, способности фрилансера также должны соответствовать требованиям работы, чтобы клиент принял их заявку, нанял и остался доволен выполненной работой.

Для расчета рекомендаций мы изучили различные известные методы и в итоге пришли к гибриду контентной и совместной фильтрации. Используя явные оценки клиентов, предоставленные фрилансерами во время завершения работы, мы строим матрицу, в которой фрилансер выступает в качестве пользователя, а клиент — в качестве элемента. Затем мы запускаем матричную факторизацию, чтобы получить векторы скрытых пользователей и элементов. С помощью скалярного произведения этих векторов мы прогнозируем рейтинг для данной пары фрилансера и клиента. Однако мы обнаружили, что как для клиентов, так и для фрилансеров прогнозируемые рейтинги полезны, но не являются наиболее важными сигналами для рекомендаций. Наши проблемы с рекомендациями более сложны, и часто цель состоит не только в том, чтобы предсказать, что нравится фрилансерам, но и в том, чтобы побудить их выполнять определенные действия, которые имеют разную полезность. Для решения подобных проблем наш стандартный подход состоит в том, чтобы сформулировать линейную целевую функцию, которая кодирует полезность желаемых действий. Мы получаем полезность отдельных действий, используя основанные на журнале кликов оценки их атрибутивного влияния на бизнес-цель. Например, учитывая, что целью является конверсия при приеме на работу, мы получаем полезность действия при приеме на работу на основе среднего количества заявлений, которое требуется (среди прочего) для наблюдения за приемом на работу. Для максимизации полезности пользователя рейтинги играют роль, но есть гораздо более сильные основанные на содержании и двусторонние сигналы соответствия, включая семантическое сопоставление работы и профиля фрилансера и работы и модели карьерного интереса ( см. модели фрилансеров ниже).

Если не принимать во внимание технику, то, что помогло нам сделать самый большой скачок, — это понимание сложности начала работы и разбивка ее на проблемы построения моделей фрилансера, чтобы зафиксировать отдельные аспекты.

Приверженность/доступность: мы строим модель, чтобы предсказать вероятность того, что фрилансер примет приглашение или предложение о работе.
Интерес: на основе кликов, заявок и вакансий в прошлом мы строим модели прошлого интереса фрилансера и будущих карьерных амбиций.
Уровень навыков и опыта: учитывая навыки фрилансера, наша цель — проверить их, используя клиентов в качестве судей. Для этого мы рассматриваем каждую работу как соревнование, а исторические решения клиента (приглашение, собеседование, найм, отказ) — как сигналы для количественной оценки уровня знаний фрилансера в каждом из навыков, требуемых в этих соревнованиях (см. обсуждение TrueSkill 2 выше). .
Репутация: у каждого фрилансера есть оценка успеха работы, которая, как и система звездного рейтинга на других платформах, основана на явных отзывах. Как обычно, явные отзывы надежны только в сочетании с неявными отзывами, основанными на поведении пользователя. Кроме того, мы также решаем проблему холодного старта, предсказывая показатель репутации/качества для новых пользователей.
Значение и влияние на удержание: Святой Грааль в моделировании фрилансеров заключается в том, чтобы предсказать ценность, которую генерирует фрилансер (прибыль) и его успех в удержании клиентов. Хотя мы обнаружили, что можно иметь отдельные модели, которые охватывают эти аспекты по отдельности, их сложно объединить в одну цель. Создание ценности часто является краткосрочным, что может происходить за счет долгосрочного удержания клиентов.

Используя эти идеи фрилансеров, мы создаем функции для прогнозирования и разложения пригодности к работе на аспекты интересов и опыта, а также продвигаем фрилансеров с высокой приверженностью делу, звездной репутацией и большей ценностью и / или влиянием на удержание.

Представленное решение является традиционным, оно в значительной степени зависит от понимания предметной области, созданных вручную функций и моделей, адаптированных к бизнес-задаче. Мы полагаем, что этот подход к моделированию сохранит свою ценность из-за потребности бизнеса в обеспечении объяснимости модели и разложении решения на интуитивно понятные рычаги, которые наши пользователи должны понимать и контролировать, например. для сортировки рекомендаций по доступности, опыту и репутации. Однако мы также исследуем широкий и глубокий подход к созданию рекомендательных систем. Учитывая знания и успехи, которые мы уже получили при использовании нейронных сетей для встраивания объектов (см. обсуждение выше), легко поверить, что глубокая часть этой модели поможет нам изучить и получить функции и представления, которые превосходят те, которые мы вводим вручную. вместе до сих пор.

Хотите узнать больше? Пожалуйста, свяжитесь с членами нашей команды, работающими над этими усилиями:

- Игорь Корсунов, Иван Портянко, Йонгтао Ма: Поиск работы и рекомендации на Upwork.

- Александр Крайнов, Амро Торк, Ле Гу, Нимит Паттанасри, Тхань Тран: Моделирование фрилансеров — как мы моделируем факторы успеха и помогаем фрилансерам стать более успешными на Upwork.

Расти

Мы помогаем нашим фрилансерам расти, представляя стабильный поток рекомендаций по работе (возможности заработка), а также даем советы нашим фрилансерам, чтобы они добились большего успеха в конкретной работе и своей карьере в целом на Upwork. На приведенных ниже снимках экрана показана наша панель управления успехом в работе фрилансера, которая предназначена для предоставления таких рекомендаций (на данный момент эта панель доступна только для нашей службы поддержки, и мы планируем выпустить упрощенную версию для наших пользователей-фрилансеров).

Мы видим, что рассмотренные выше модели фрилансеров также используются для предоставления информации нашим фрилансерам, чтобы они могли понять успех работы и карьеры с точки зрения их навыков, уровня знаний, качества и репутации с точки зрения платформы и точки зрения клиента.

Для расчета факторов успеха для конкретной работы мы построили модель, чтобы предсказать, будет ли фрилансер нанят на данную работу. Используя последние методы объяснимости модели, мы разбираем, как модель работает для индивидуального прогноза. С помощью Ценностей SHAP (Shapley Additive exPlanations) мы можем увидеть, как основные функции/факторы влияют на успех каждой работы, к которой применяет наш фрилансер, и получить рекомендации для конкретной работы и советы по карьере на основе этих факторов.

Хотите узнать больше? Пожалуйста, свяжитесь с членами нашей команды, работающими над этими усилиями:

- Александр Крайнов, Ле Гу, Нимит Паттанасри: Модель объяснимости в действии — использование SHAP Values для создания рекомендаций по успешной работе для фрилансеров Upwork.

Следующая статья в этой серии

Данные, машинное обучение и оптимизация торговой площадки в Upwork (часть 2: рост уровня рынка)
Как мы используем данные и машинное обучение для оптимизации и развития нашей торговой площадкисреда .com

Об авторах

Тхань Тран — глава отдела обработки данных в Upwork, где он работает с командой из более чем 30 ученых и инженеров над внедрением инноваций в основной движок крупнейшей в мире платформы для фриланса и гибкой работы. Как предприниматель и консультант стартапов Bay Area, он помогал создавать команды, привлекал капитал для многих компаний и успешно поставлял инновационные технологические решения и приложения для конечных пользователей. Тхань ранее работал профессором в Технологическом институте Карлсруэ (KIT) и Стэнфорде (приглашенный), где он возглавлял ведущую мировую исследовательскую группу в области семантического поиска. Он получил различные награды и признание за свою научную работу (5-летняя награда за самую цитируемую статью, входит в пятерку лучших в семантическом поиске и входит в топ-50 в веб-поиске согласно Глобальному индексу Google Scholar за 2016 год).

Статья была рецензирована, а фактическая представленная работа выполнена следующими членами команды по науке о данных: Александр Крайнов, Амро Торк, Андрей Демус, Артем Москвин, Даниил Д., Димитрис Маникис, Ева Мок, Джордж Барелас, Яннис Куцубос, Хемант Ратаконда, Игорь Корсунов, Иван Портянко, Жоао Виейра, Ле Гу, Лей Чжан, Михаил Батуров, Нимит Паттанасри, Пабло Селайес, Куанг Хьеу Ву, Роман Ткачук, Самур Кардозу Де Араужо, Сибо Лу, Сиддхарт Кумар, Сильвестр Лосада, Спирос Капнисис, Василий Рязанов , Вели Бисер, Винь Данг, Йонгтао Ма, Зарко Селебич.

Данные, машинное обучение и оптимизация рынка в Upwork (часть 1: рост уровня пользователей)

Как мы используем данные и машинное обучение для оптимизации конверсии и помощи пользователям в росте

Влияние конверсии основных пользователей на бизнес