Нужно ли выполнять удаление стоп-слов, стемминг / лемматизацию для классификации текста при использовании Spacy, Bert?

Необходимы ли удаление стоп-слов, стемминг и лемматизация для классификации текста при использовании Spacy, Bert или других продвинутых моделей НЛП для получения векторного встраивания текста?

text = Еда на свадьбе была очень вкусной

1. с тех пор, как Spacy, Берт обучался работе с огромными необработанными наборами данных, есть ли какие-либо преимущества применения удаления стоп-слов, стемминга и лемматизации для этого текста перед генерацией встраивания с использованием bert / spacy для задачи классификации текста?

2. Я понимаю, что удаление стоп-слов, стемминг и лемматизация будут хорошими, когда мы будем использовать countvectorizer, tfidf векторизатор для встраивания предложений.

star 28.08.2020 источник

comment

Вы можете проверить, помогает ли выполнение лемматизации стемминга и удаления стоп-слов. Не всегда. Я обычно так и делаю, если собираюсь построить график, поскольку игнорируемые слова загромождают результаты. - john taylor 28.08.2020

Ответы (3)

arrow_upward
6
arrow_downward

Случай не использования стоп-слов. Использование стоп-слов предоставит контекст для намерений пользователя, поэтому, когда вы используете контекстную модель, такую как BERT. В таких моделях, как BERT, все стоп-слова сохраняются для предоставления достаточной контекстной информации, такой как слова отрицания (не, ни, никогда), которые считаются стоп-словами.

Согласно https://arxiv.org/pdf/1904.07531.pdf

Удивительно, но игнорируемым словам уделялось столько же внимания, как и непрерывным словам, но их удаление не влияет на показатели MRR.

john taylor 28.08.2020

arrow_upward
0
arrow_downward

Это не обязательно. Удаление игнорируемых слов иногда может помочь, а иногда нет. Вам следует попробовать и то, и другое.

Soroush Faridan 28.08.2020

arrow_upward
0
arrow_downward

С BERT вы не обрабатываете тексты; в противном случае вы потеряете контекст (стемминг, лемматизация) или полностью измените текст (удаление стоп-слов).

Некоторые более базовые модели (основанные на правилах или набор слов) выиграют от некоторой обработки, но вы должны быть очень осторожны с удалением стоп-слов: многие слова, которые изменяют значение всего предложения, являются стоп-словами (не, нет, никогда, если только).

Jiulin Teng 28.11.2020

Нужно ли выполнять удаление стоп-слов, стемминг / лемматизацию для классификации текста при использовании Spacy, Bert?

Ответы (3)

Вопросы по теме