Я хочу токенизировать следующее предложение с помощью токенизатора регулярных выражений
MOST INTERESTED IN NUT BUTTERS
Когда я определяю свой токенизатор как
tokenizer = RegexpTokenizer(r'\w+')
Я получаю вывод как
['MOST', 'INTERESTED', 'IN', 'NUT', 'BUTTERS']
Мой желаемый результат
['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']
Я хочу, чтобы NUT BUTTER был одним элементом. Я не понимаю, какое регулярное выражение использовать вместо этого или \w+
NUT BUTTERS
обращаются по-другому? - person Sebastian Proske   schedule 19.12.2017