Финансовый сектор основан на данных и информации. Чтобы продвинуться в этой области, крайне важно разработать системы, которые используют предварительные знания, имеют возможность учиться на собственном опыте, давать прозрачные объяснения и беспрепятственно взаимодействовать с профессионалами отрасли. Поскольку большая часть информации содержится в длинных документах, тщательное понимание тонкостей юридического текста и обращение с ним как с первоклассным гражданином имеет решающее значение, прежде чем пытаться решать любые проблемы машинного обучения, связанные с этими документами.

Финансовые документы тщательно разрабатываются опытными профессионалами с упором на точность и ясность. Такие документы могут включать проспекты, учредительные договоры, соглашения о доверительном управлении, кредитные соглашения, соглашения о неразглашении, соглашения об управлении инвестициями, слияниях и поглощениях, среди прочего. Эти документы часто доступны в виде программных PDF-файлов, хотя их также можно сканировать или представлять в таких форматах, как Microsoft Word, HTML или XML. Важно отметить, что эти документы представляют собой не просто наборы текстов, а дополнены структурными и визуальными сигналами. Извлечение знаний из этих документов включает в себя два важных элемента: понимание структуры документа и использование семантического значения используемого в нем языка. Распознавание структуры предполагает расшифровку макета самого документа — стиля его форматирования; как он разбит на разделы; как используются заголовки и т. д., в то время как семантический анализ фокусируется на извлечении смысла из слов в документе с учетом контекстных подсказок, таких как структура предложения или синтаксические различия между связанными терминами. В следующем разделе мы рассмотрим некоторые причины, по которым финансовые документы отличаются от обычного текста.

На следующем изображении показана часть титульного листа, обычно отображающая информацию, касающуюся имени объекта, типа документа и других соответствующих фактов, представленных в организованном порядке. Точно так же страницы каталогов часто встречаются в финансовых проспектах и ​​предоставляют информацию об организациях, адресах и отношениях в визуально структурированном двумерном формате. Понимание структуры страниц каталогов имеет решающее значение для выполнения различных бизнес-задач. Другим примером структурированного финансового документа является страница для подписи, которая часто содержит значительный объем рукописного текста. Точное определение таких элементов, как блоки подписи, необходимо для определения статуса выполнения соглашения.

Текст в этих документах формально разделен на разделы и подразделы. Существуют нумерованные и маркированные списки, которые часто свернуты, чтобы выглядеть как абзац. Они довольно распространены в кредитных соглашениях, которые полны сложных положений. Чтобы правильно извлечь основные математические ограничения, представленные в тексте на английском языке, нам необходимо глубоко понять иерархию предложений.

Этот фрагмент полон гиперссылок. Поскольку эти документы довольно длинные, часто в начале документа присутствует раздел определений, а затем есть ссылки на них по всему документу. Если у нас есть разделы и подразделы, у нас также будут ссылки на них. Чтобы понять текст в деталях, нам нужно следовать этим ссылкам и получить детали.

Еще одна интересная парадигма, которую вы найдете в финансовых документах, — это понятие темпоральности. В тексте присутствуют встроенные правки и зачеркивания. Если этого недостаточно, часто эти документы сопровождаются поправками, которые играют важную роль в понимании общей картины. Проблема даже усложняется, когда эти поправки часто прикрепляются внизу основного документа, что вынуждает нас затем сначала установить понятие основного документа, а затем заняться всеми приложениями и поправками, которые появляются в более поздней части. документ.