Постредактирование — что это ДЕЙСТВИТЕЛЬНО означает?

Несмотря на то, что многие считают, что все виды постредактирования одинаковы, существуют определенные вариации, заслуживающие более пристального внимания. Это гостевой пост Матса Данневица Линдера, в котором рассматриваются три очень специфических сценария PEMT, которые переводчик может рассматривать совершенно по-разному. У Матса более специфический взгляд на переводчика, и, как автор руководства Trados Studio, я думаю, что он более чувствителен к проблемам, которые действительно важны для переводчиков.

С моей точки зрения, как специалиста по технологиям, этот пост весьма поучительный, так как он содержит реальную информацию и дает представление о том, почему возникли трудности в общении между разработчиками машинного перевода и редакторами переводчиков. PEMT может представлять собой целый ряд различных возможностей редактора, как описывает здесь Матс, и если мы теперь учтем изменения, которые может иметь адаптивный MT, у нас теперь будет еще больше вариаций окончательного пользовательского интерфейса PEMT.

Я думаю, что можно привести аргументы в пользу обоих основных случаев PEMT, которые я вижу с моего выгодного поста, режима пакетных блоков и интерактивного TU в режиме CAT. Пакетные подходы могут упростить внесение нескольких исправлений в одно действие поиска и замены, но интерактивные CAT-интерфейсы могут предпочесть многие редакторы, которые имеют очень развитые навыки работы с предпочитаемым CAT-инструментом. Адаптивный MT, я думаю, представляет собой смесь обоих, и поэтому я по-прежнему считаю, что он особенно хорошо подходит для любого сценария PEMT, описанного в этом посте. Тип лингвистической работы, выполняемой для очень больших наборов данных, совершенно другой и фокусируется на исправлении шаблонов высокочастотных слов в объемных данных, описанных в этом посте: Эволюция инструментов корпусного анализа. »Это не PEMT, как мы здесь описываем, а лингвистическая работа, которая будет считаться очень ценной для электронной коммерции, поддержки клиентов и сервисного контента, а также любых данных отзывов клиентов, которые сегодня стали основой внедрения MT.

Жителям США я желаю счастливого Дня Благодарения на этой неделе и надеюсь, что вы хорошо проведете время с семьей. Однако ранее я указывал, что для коренных жителей Америки День благодарения вряд ли является поводом для празднования. День благодарения стал временем траура для многих коренных жителей, надеюсь, это изменится, но это может измениться, когда хотя бы немногие признают историческую реальность и стараются изменить ее небольшими и искренними способами.

Выделения и изображения ниже сделаны мной, поэтому, пожалуйста, не вините за них Матса.

==========

Я читал — а также слушал — множество статей, презентаций и даже диссертаций по постредактированию машинного перевода (PEMT), и, как ни странно, очень немногие из них проводили четкое различие между редактированием полного, предварительно переведенного документа. и редактирование сегментов с машинным переводом во время интерактивного перевода в CAT-инструменте. На самом деле во многих из них создается впечатление, что авторы в первую очередь думают о последнем. Кроме того, большинство описаний или определений постредактирования, похоже, даже не принимают во внимание такое различие. Тем больше оснований приветствовать следующее определение в ISO 17100, Переводческие услуги. Требования к переводческим услугам:

пост-редактирование

редактировать и исправлять вывод машинного перевода

Примечание. Это определение означает, что постредактор будет редактировать вывод, автоматически сгенерированный механизмом машинного перевода. Это не относится к ситуации, когда переводчик видит и использует предложение от механизма машинного перевода в инструменте CAT (автоматизированный перевод).

И все же… в ISO 18587, Переводческие услуги. Постредактирование результатов машинного перевода. Требования мы снова находимся в неопределенном состоянии: вышеприведенное примечание было удалено, и нет никаких подсказок относительно того, делает ли стандарт любая разница между двумя способами создания целевого текста для редактирования.

Это может быть разумным ввиду того факта, что требования к «пост-редактору», возможно, одинаковы в обоих случаях. Тем не менее, это не означает, что ситуация и условия для переводчика одинаковы или что клиент — в большинстве случаев бюро переводов или поставщик языковых услуг (LSP) — видит их одинаковыми. На самом деле, когда я спрашиваю бюро переводов, считают ли они работу, проделанную при интерактивном переводе с использованием МП, постредактированием, мне отвечают, что это не так. Но почему это должно иметь значение, спросите вы. А может и не быть, о чем свидетельствуют точки зрения авторов ISO 18587, — то есть может не иметь значения ни качество выполненной работы, ни достигнутые результаты. Но это имеет большое значение для переводчика, выполняющего работу. В принципе, есть три возможных сценария работы:

Сценарий A: — работа состоит в редактировании («постредактировании») полного документа, который был переведен автоматически; исходный документ прилагается. Редактор (как правило, опытный переводчик) может обоснованно оценить качество перевода и на основании этого сделать предложение. Оценка включает в себя время, которое, по его мнению, потребуется, включая любую необходимую адаптацию исходного и целевого текстов для обработки в CAT-инструменте.
Сценарий B: – работа очень похожа на обычный перевод в CAT-инструменте, за исключением того, что в дополнение или вместо сопровождающего TM переводчику клиент назначает механизм машинного перевода (обычно бюро переводов). Обычно также предоставляется предварительный анализ, показывающий возможные совпадения MT (и TM). Кроме того, переводчику сообщается, что компенсация будет основываться на пост-анализе отредактированного файла и зависеть от того, насколько широко были использованы предложения МП (и, в некоторых случаях, ПП). Тем не менее, переводчик не может оценить ни необходимое время, ни окончательную оплату. Кроме того, он/она не знает, как проводится пост-анализ, поэтому окончательная компенсация будет основываться на доверии.
Сценарий C:-Работа полностью аналогична обычному переводу в CAT-инструменте, а вознаграждение зависит от предложения переводчика (цена слова или цена пакета); может использоваться ТМ и обычный анализ совпадений ТМ (с общей корректировкой сегментных цен). Однако переводчик также может — по собственному желанию — использовать МТ; в зависимости от потребности в конфиденциальности это может быть внутренний движок, использующий только собственные ПП переводчика; или это могут быть онлайн-движки с гарантированной конфиденциальностью; или это могут быть менее (но все же разумно) конфиденциальные онлайн-движки. В любом случае, благодаря ресурсам машинного перевода переводчик выиграет некоторое время, не снижая цены.

В дополнение к этому существуют различия между сценариями А и Б в том, как выполняется работа. Например, в A вы можете использовать функцию «Найти и заменить», чтобы внести изменения во все целевые сегменты; не так в B (если вы не начнете с предварительного перевода всего текста с помощью MT) — но здесь вам могут помочь различные другие функции, предлагаемые CAT-инструментом, а также использование регулярных выражений. И если это большая работа, может быть целесообразно в сценарии А создать ПП на основе текстов, а затем повторить перевод, используя этот ПП плюс любые подходящие функции CAT-инструмента (и регулярное выражение).

Теоретически возможно, но практически нет. Существует также разница между «полным» и «легким» постредактированием: вкратце, первое означает, что полученный текст понятен и точен, но редактору не нужно — фактически не должно — стремиться для гораздо «лучшего» текста, чем этот, и следует использовать как можно больше исходной версии MT. Цель состоит в том, чтобы создать достаточно адекватный текст с относительно небольшими усилиями. Последняя ситуация означает, что результат должен быть «человеческого» качества перевода. (Интересно, однако, что существуют противоречивые мнения по этому поводу: в некоторых источниках говорится, что от стилистического совершенства не ожидают и что клиенты на самом деле не ожидают, что результат будет сравним с «человеческим» переводом.) Конечно, эти категории являются лишь конечными точками. в непрерывном масштабе; трудно объективно проверить, соответствует ли текст PEMT критериям одного или другого (действительно ли облегченная версия не выше целевого уровня? действительно ли полная версия соответствует требованиям?), даже если такие критерии определены в ISO 18587 (и другие места).

Кроме того, большинство переводчиков, скорее всего, будут избегать всех работ, связанных с качеством "легкого редактирования".

Источник: Common Sense Advisory
Эти категории в основном используются в сценарии А; Я не думаю, что какое-либо бюро переводов будет требовать чего-либо, кроме «полного» качества в сценарии B. Более того, большинство переводчиков, скорее всего, будут избегать всех работ, связанных с «легким» качеством. Мало того, что это идет вразрез со всем, чем переводчик находит удовольствие заниматься, т. е. с самой лучшей работой; опыт также показывает, что все многочисленные решения, которые необходимо принять относительно того, какие изменения необходимо внести и которые не часто занимают так много времени, что общие усилия при редактировании «легкого» качества не намного меньше, чем при «полном» качестве.

Кроме того, есть некоторые интересные результаты исследований относительно затраченных усилий, идеи, которые могут помочь потенциальному редактору. Кажется, что редактирование машинного перевода среднего качества (во всех сценариях) требует больше усилий, чем редактирование плохих — это когнитивно более требовательно, чем отбрасывание и переписывание текста. Кроме того, количество усилий, необходимых для обнаружения ошибки и принятия решения о том, как ее исправить, может быть больше, чем само переписывание, аизменение порядка слов и исправление неправильно переведенных слов занимает больше всего времени. Кроме того, кажется, что постредакторы различаются больше по фактическому времени PE, чем по количеству вносимых правок. Интересно, что также кажется, что переводчики оставляют больше ошибок в сегментах, соответствующих ТМ, чем в сегментах, соответствующих МТ. И ошибки бывают разные.

Эти факты, а также тот факт, что качество МП сегодня делает большие шаги вперед (не в последнюю очередь благодаря быстрому развитию нейронного МП, даже с учетом фактора ажиотажа), скорее всего, ускорят нынешнюю тенденцию, которая, по мнению Arle Ломмеля, старшего аналитика CSA Research и эксперта в этой области, можно описать так:

«Сейчас главное изменение заключается в том, что постредактирование заменяется «дополненным переводом». С этой точки зрения лингвисты не исправляют МП, а вместо этого используют его в качестве ресурса наряду с МП и терминологией. Это означает, что покупатели все чаще будут искать только перевод, а не проводить различие между машинным и человеческим переводом. Они просто купят «перевод» и будут ожидать, что МП будет использоваться, если в этом есть смысл. Компонент машинного перевода в этом подходе уже виден в инструментах от Lilt, SDL и других, но мы все еще находимся в самом начале этого изменения».

Кроме того, это, вероятно, означает, что мы можем покончить с неправильным термином постредактирование — редактирование есть редактирование, независимо от того, исходит ли предложение, представленное в интерфейсе CAT-инструмента, из TM или MT. Поэтому термин постредактирование следует зарезервировать только для очень конкретного случая в сценарии А, иначе понятие будет бессмысленным. Эта точка зрения отражена, например, в материалах пост-редактора-преподавателя и опытного пост-редактора в недавно опубликованной книге Машинный перевод — что нужно знать лингвистам (отредактированной Йоргом Порсиэлем и опубликованной от BDÜ Fachverlag). Таким образом, кажется, что в конечном итоге мы останемся в основном со сценариями B и C, что оставляет переводчикам вопрос о том, как справиться с B. Это новая ситуация, которая, вероятно, потребует времени и дискуссий, чтобы прийти к решение (или решения), приемлемые для всех участников. Между тем, мы, переводчики, должны стремиться наилучшим образом использовать сценарий C. МТ уже здесь и не исчезнет, даже если бы некоторые люди этого хотели.

— — — — — — -

Матс Данневиц Линдер последние 40 лет работал внештатным переводчиком, писателем и редактором наряду с другими профессиями, в том числе в области стандартизации информационных технологий. Он имеет ученые степени в области компьютерных наук и языков и в настоящее время изучает национальную экономику и политологию. Он является автором знаменитого Руководства Trados Studio Manual и в течение последних нескольких лет изучает машинный перевод с точки зрения переводчика, результатом которого стало несколько статей для Шведской ассоциации переводчиков, а также обзор Приложения/плагины Trados Studio для машинного перевода. Он работает не по найму в Наттскифт Консалт.

Первоначально опубликовано на сайте kv-emptypages.blogspot.com 9 декабря 2017 г.

Постредактирование — что это ДЕЙСТВИТЕЛЬНО означает?

Вопросы по теме