Неконтролируемое извлечение ключевой фразы из документа (судебное дело)

Адвокат должен много времени уделять чтению дел. Когда адвокат берется за дело, он должен прочитать различные похожие дела и подготовиться к суду. На понимание сути дел тратится много времени, так как дела очень длинные. Извлечение ключевой фразы извлечет из дела важные ключевые моменты и поможет понять суть дела. Это поможет не только юристам или адвокату, но и академикам в области права. Это способствовало бы созданию инструмента правового исследования.

Извлечение ключевой фразы

Методика неконтролируемого машинного обучения, позволяющая отмечать важные моменты. Неконтролируемая система имеет плохой F-балл и плохо обобщается, чтобы решить эту проблему, мы будем использовать EmbedRank с современными моделями (Bert, GPT-2). Как правило, этим задачам не хватает разнообразия или охвата, и для решения этого мы будем использовать концепцию MMR ((максимальная предельная релевантность). Проще говоря, мы можем понять, что эти задачи генерируют повторяющиеся фразы и иногда не охватывают весь документ.

Методология

Эти судебные документы довольно большие, а модели с другой стороны, такие как Bert и GPT-2, могут занимать только 512 слов и 1024 слова соответственно. Мы должны разделить большой документ на несколько более мелких документов в соответствии с выбранной моделью.

Рис. 1 поясняет разделение большого документа на несколько небольших документов.
У этого метода есть как преимущество, так и недостаток. Недостатком является то, что полный документ связан, и при использовании этого метода каждый небольшой документ действует как независимый документ и не имеет никакого отношения между собой. Преимущество этой методологии состоит в том, что мы можем выделить важные ключевые моменты документа, даже если документ бесконечно длинный.

На рис. 2 представлена ​​блок-схема работы алгоритма. Мы увидим работу MMR. Прежде всего, давайте разберемся с некоторыми обозначениями, которые будут использоваться для дальнейшего объяснения MMR.
s_e = вложения предложений
key_e = вложения предложений, отмеченных как важные (выбранное предложение)
d_e = Вложения документов (это будут вложения небольших документов, как описано выше. Большие документы разделены на небольшие независимые документы)
В соответствии с моделью определяется длина документа (если Берт, длина = 500 слов, для GPT 2 = 1000 слов).

Максимальная предельная релевантность (MMR)

Давайте посмотрим на математическое уравнение, лежащее в основе этой концепции, и посмотрим, как оно обеспечивает охват и разнообразие.

MMR = argmax [λ ∗ CS (d_e, s_e) - (1 − λ) max (CS (s_e, key_e))]

λ = параметр, который управляет охватом и разнообразием. (λ к 0 увеличит разнообразие)
CS = косинусное сходство

if λ = 1 :
MMR =argmax[λ∗CS(d_e,s_e)] [ 100 percent Coverage (May get redundant phrases) ]
If λ = 0:
MMR=argmax[0−(1−λ)max(CS(s_e,key_e))]  100 percent diversity (Important points may be missed)]

Код

Приведенный выше фрагмент кода представляет важные библиотеки, которые потребуются для запуска кода.

Эти 3 функции помогают извлечь важную ключевую фразу.
Размер ключа = количество важных ключевых моментов, которые необходимо отметить в документе (небольшой документ).

Приведенный выше фрагмент кода помогает выбрать модель

Приведенный выше код не требует пояснений, и для лучшего понимания были добавлены комментарии.
Если мне нужно объяснить код в двух словах, тогда код делит документ на более мелкие документы в соответствии с выбранной моделью. Если выбран GPT-2, он займет около 1000 слов и рекурсивно будет строить небольшие документы вокруг этого ограничения по количеству слов. Код всегда будет заканчиваться предложением, т.е. если на 989 ​​словах заканчивается предложение, а следующее предложение заканчивается на 1030 словах, он будет рассматривать его до 989. Это гарантирует, что любой маленький документ будет полным.

Вывод

Поскольку судебное дело очень велико, вот небольшой фрагмент результата. Это лишь крошечная часть полного документа.
Дело - {Верховный суд Индии,
Вишака и Орс против штата Раджастан и Орс, 13 августа 1997 года}
Ссылка на дело - https://indiankanoon.org/doc/1031794/

Вывод

Вышеуказанный метод извлекает из документа важные ключевые фразы. Дальнейшая работа может быть связана со встраиванием небольших документов, чтобы сохранить преемственность.

Спасибо за чтение :)
Удачного обучения