Использование комикса xkcd для понимания самых основ перекрестной энтропии в языковой модели

Перво-наперво. Я не смог найти этот комикс на официальной странице xkcd даже после долгих поисков. Вместо этого я познакомился с этим в этой интересной статье о метриках оценки для языкового моделирования. Так что, если вы найдете его на xkcd, дайте мне знать. Буду более чем рад предоставить ссылку на фактический источник того же самого.

Итак, пытаясь понять метрики оценки, связанные с языковой моделью, я наткнулся на метрику перекрестной энтропии в упомянутой выше статье. Потребовалось немало времени, чтобы снова и снова перечитывать один и тот же набор строк, а также объяснение одного замечательного друга, чтобы понять это прямо в моей голове.

Что тогда означает перекрестная энтропия? Ну, говоря очень простыми словами, в любом данном языке будет вероятностное распределение слов. Назовем его L. Точно так же языковая модель будет математически давать вероятностное распределение слов. Назовем его M. Перекрестная энтропия M по отношению к L помогает нам измерить разницу между этими двумя распределениями вероятностей.

Чтобы полностью понять это, подумайте, что произойдет, если модель будет иметь низкую перекрестную энтропию. Это означало бы, что модель очень близка к самому языку в распределении вероятностей его слов. Высокая перекрестная энтропия будет означать, что распределение вероятностей слов в модели по сравнению с самим языком не похоже.

Между тем, вы можете спросить, что именно представляет перекрестная энтропия? Я отвечу на этот вопрос ближе к концу. А пока давайте просто погрузимся в комикс с нашим базовым пониманием!

Понимая все это в тексте, я видел этот комикс, и он действительно забавный, даже если вы просто читаете комикс без подписи. Но именно из заголовка становится ясно, почему полоска предлагает эрудицию, а не вспыльчивость.

Но с самого начала не было смысла. В комиксе упоминается языковая модель с низкой перекрестной энтропией для возникновения комического события. Теперь подумайте об этом на секунду. Если языковая модель имеет низкую перекрестную энтропию, это будет означать, что модель очень близка к самому языку. И этот вывод очень правильный. Вы можете вернуться к приведенному выше определению, если хотите.

Но только этот вывод смутил меня поначалу. Потому что мой следующий вопрос заключался в том, что если модель очень близка к языку, почему она выбирает эрудицию вместо прорыва.

Я продолжал возвращаться к этому комиксу в ту ночь время от времени, потому что он просто не имел для меня смысла, а должен был, учитывая, что это комикс xkcd! Той ночью я смотрел на этот комикс, как будто ответ, который я искал, внезапно появился. Пока это не произошло :’)

Через несколько часов до меня дошло, что я, возможно, сам сделал важное предположение, что извержение — более вероятностное слово по сравнению с erudite в английском языке. Я читал слово эрудитный впервые в жизни, а слово извергающийся — это то, что я читал много раз, когда читал новости, связанные с вулканами или в общем.

Ага, тот момент, когда щелкнуло. Такое ощущение, что меня захлестнула волна понимания. Я быстро открыл Google Books Ngram Viewer и сравнил процент встречаемости этих двух слов. Я не мог не улыбнуться от уха до уха тому, что я увидел. Мое предположение, как и ожидалось, было неверным.

Вот как выглядит график для этих двух слов (заголовки ссылаются на эти графики, и вы можете открыть их для лучшего просмотра) —

В течение последних 200 лет или около того слово эрудиция было гораздо более популярным словом, чем извержение. Вот только я не слышал. Даже сегодня, когда количество извержений находится на пике, оно лишь немного выше, чем у эрудитов (которые в противном случае всегда происходили чаще, как показано на графике на протяжении всей истории). .

Итак, в чем тут урок?

Мы всегда должны следить за нашими предположениями. Вот где происходит волшебство :')

Жизненный урок, я бы сказал. Урок, который, кажется, никогда не потеряет своей актуальности.

Ладно, снова вернемся к некоторым техническим дискуссиям. Как, по-вашему, будет выглядеть граф встречаемости слова erupt. Мысли?

Давайте посмотрим.

Хотя процент встречаемости слова erupt определенно почти в два раза выше, чем erudite в 2019 году, между ними будет жесткая конкуренция, если мы рассчитаем среднее значение для обоих слов. за период в 200 лет (если вы просто наблюдаете процентные числа для обоих за эти годы). Какое бы слово в среднем не встречалось чаще, другое слово будет слишком близко.

Это дает некоторые намеки на наводящий вопрос. Что нужно сделать, чтобы наши языковые модели не допускали таких ошибок в реальной жизни? Что ж, учитывая, насколько близким оказался процент встречаемости даже для корневых слов, мы не можем просто сказать, что нахождение корневых слов над точными словами всегда будет приводить к правильным результатам.

Это подчеркивает, как и должно быть, что языковые модели должны учитывать контекст рассматриваемой темы. Это то, что я очень хочу понять в ближайшие недели, поскольку грубая сила для достижения того же слишком дорога.

Теперь, если вы вернетесь к определению перекрестной энтропии и еще раз просмотрите комикс, точки тоже сойдутся для вас. Короче говоря, это история смеха, который вырвался из меня, когда я наконец понял концепцию, свидетельство вездесущей радости обучения.

Помните вопрос, который я оставил нерешенным (точное определение перекрестной энтропии?) до того, как мы начали это обсуждение. Было бы несправедливо просто оставить все как есть. Итак, поехали!

Перекрестная энтропия M (распределение вероятностей для языковой модели) относительно L (распределение вероятностей для самого языка) представляет собой сумму следующих двух значений:

среднее количество битов, необходимых для кодирования любого возможного результата L
количество дополнительных битов, необходимых для кодирования любого возможного результата L с использованием модели M

Да, я не сказал тебе одну вещь до сих пор, намеренно. Кросс-энтропия представляет собой среднее количество битов.

Чтобы получить более подробный и технический обзор перекрестной энтропии, я еще раз прикрепляю статью, упомянутую в самом верху — https://thegradient.pub/understanding-evaluation-metrics-for-language-models/.

Я оставлю вам, милые читатели, которые дошли до этого момента, несколько вопросов для размышления, когда вы будете читать больше о метриках языковой модели. Я сам с ними борюсь.

Представляет ли перекрестная энтропия среднее количество битов на символ или битов на слово? Какая разница, чтобы выбрать один над другим?
В начале я дал волнообразное определение перекрестной энтропии, говоря, что оно помогает нам измерить разницу между этими двумя распределениями вероятностей. Но что мы имеем в виду, когда говорим о разнице между двумя распределениями вероятностей? Помогает ли нам понять это точное определение перекрестной энтропии?
Как xkcd придумал все эти прекрасные идеи? Эй, не все вопросы могут быть только о языковых моделях:’)

Благодарности:

Спасибо Chip Huyen за интересную статью и за включение этого замечательного и забавного комикса xkcd. Эта рецензия и все веселье, которое к ней привело, обязаны своим происхождением именно ей.
Спасибо Kavya за то, что объяснил мне эту и другие метрики оценки во время моего хакатона на прошлой неделе и за то, что время от времени терпеливо выслушивал мои неверные объяснения.

Но, Ашвани, это такое крошечное понятие. Почему вы кипите от восторга и смеха от того, что поняли это?!

Ну не такой уж и маленький для меня. Это было мое первое знакомство с машинным обучением (благодаря хакатону в Nutanix) спустя почти 7 лет.

Я очень хорошо помню, как убегал от всего этого в то время, потому что ни одна математика в моей исследовательской стажировке не имела для меня смысла, и это было страшно. Перенесемся в настоящее время, что-нибудь изменилось? Собственно говоря, не с точки зрения моего понимания математики, скажу я. В этот раз я тоже не мог прийти в себя.

Еще:')

Интересно, что это слово — свидетельство того, что изменилось за эти годы. Я иду вокруг этого времени с игривостью и изобилием. После стольких лет, мне кажется, это должно быть отправной точкой практически для всего, чем бы мы ни занимались!

Пока, до следующего раза, когда-нибудь скоро:’)

सितारों को आँखो में महफूज रखना, बड़ी देर तक रात ही रात होगी,

मुसाफिर है हम भी, मुसाफिर हो तुम भी, किसी मोड़ पर फिर मुलाकात होगी

Использование комикса xkcd для понимания самых основ перекрестной энтропии в языковой модели

Вопросы по теме