Нужно ли выполнять удаление стоп-слов, стемминг / лемматизацию для классификации текста при использовании Spacy, Bert?

Необходимы ли удаление стоп-слов, стемминг и лемматизация для классификации текста при использовании Spacy, Bert или других продвинутых моделей НЛП для получения векторного встраивания текста?

text = Еда на свадьбе была очень вкусной

1. с тех пор, как Spacy, Берт обучался работе с огромными необработанными наборами данных, есть ли какие-либо преимущества применения удаления стоп-слов, стемминга и лемматизации для этого текста перед генерацией встраивания с использованием bert / spacy для задачи классификации текста?

2. Я понимаю, что удаление стоп-слов, стемминг и лемматизация будут хорошими, когда мы будем использовать countvectorizer, tfidf векторизатор для встраивания предложений.


person star    schedule 28.08.2020    source источник
comment
Вы можете проверить, помогает ли выполнение лемматизации стемминга и удаления стоп-слов. Не всегда. Я обычно так и делаю, если собираюсь построить график, поскольку игнорируемые слова загромождают результаты.   -  person john taylor    schedule 28.08.2020


Ответы (3)


Вы можете проверить, помогает ли выполнение лемматизации стемминга и удаления стоп-слов. Не всегда. Я обычно так и делаю, если собираюсь построить график, поскольку игнорируемые слова загромождают результаты.

Случай не использования стоп-слов. Использование стоп-слов предоставит контекст для намерений пользователя, поэтому, когда вы используете контекстную модель, такую ​​как BERT. В таких моделях, как BERT, все стоп-слова сохраняются для предоставления достаточной контекстной информации, такой как слова отрицания (не, ни, никогда), которые считаются стоп-словами.

Согласно https://arxiv.org/pdf/1904.07531.pdf

Удивительно, но игнорируемым словам уделялось столько же внимания, как и непрерывным словам, но их удаление не влияет на показатели MRR.

person john taylor    schedule 28.08.2020

Это не обязательно. Удаление игнорируемых слов иногда может помочь, а иногда нет. Вам следует попробовать и то, и другое.

person Soroush Faridan    schedule 28.08.2020

С BERT вы не обрабатываете тексты; в противном случае вы потеряете контекст (стемминг, лемматизация) или полностью измените текст (удаление стоп-слов).

Некоторые более базовые модели (основанные на правилах или набор слов) выиграют от некоторой обработки, но вы должны быть очень осторожны с удалением стоп-слов: многие слова, которые изменяют значение всего предложения, являются стоп-словами (не, нет, никогда, если только).

person Jiulin Teng    schedule 28.11.2020