Можем ли мы научить машины добродетелям?

Эта запись в блоге основана на семинаре с командой GoodAI и Эриком Салобиром - Блэкфрайаром, римско-католическим священником и президентом компании Optic Technology.

Было много написано об искусственном интеллекте человеческого уровня и о том, как мы можем обеспечить его «соответствие» человеческим ценностям, чтобы он был безопасным для человечества [1] [2].

В этой статье мы исследуем некоторые характеристики морали и предполагаем, что обучение добродетелям ИИ может быть хорошим способом создания безопасного ИИ, который уважает межкультурные различия и имеет устойчивую систему ценностей с течением времени.

Проблемы с моралью

Способность принимать моральные решения часто рассматривается как ключевая особенность интеллекта человеческого уровня, однако тот факт, что машина достигает интеллекта человеческого уровня, не означает, что она автоматически будет способна к правильному моральному суждению, как указано в тезисе ортогональности. [3]. Определение морали и привитие ее агенту может быть проблематичной задачей по ряду причин.

1. Мораль меняется со временем.

Мораль изменчива и постоянно меняется с течением времени, она создавалась на протяжении многих лет, отражая накопление человеческих культур. Многие вещи, которые когда-то считались морально приемлемыми, больше не являются такими, а то, что мы в настоящее время можем считать морально приемлемым, обязательно изменится в будущем. Следовательно, агент ИИ не может иметь жестко закодированного набора моральных принципов, он должен обладать способностью развивать свою мораль с течением времени, как это делают люди.

2. Мораль в разных культурах различается.

Мораль также не полностью разделяется в разных культурах. В недавней статье под названием «Эксперимент с моральной машиной» Эдмонд Авад и др. продемонстрировали «существенные культурные различия в этических суждениях», когда провели эксперимент с участием миллионов людей в 233 странах и территориях [4]. Это очень затрудняет определение одного набора моральных принципов, который действовал бы в разных культурах. Следовательно, агенту ИИ также потребуется способность адаптироваться к своему культурному окружению.

3. Мораль сложно определить

Хотя саморефлексия и рассуждение играют важную роль, люди часто действуют «морально» на интуитивном уровне, мы не знаем, почему мы делаем определенные вещи (мы просто считаем их правильными или неправильными), поэтому мораль часто почти невозможно объяснить. не говоря уже о переводе их в вычислительную модель.

Учитывая все это, кажется очевидным, что мы должны убедиться, что агенты ИИ имеют возможность адаптировать свою мораль. Однако также важно следить за тем, чтобы мораль агента не превратилась в нечто совершенно иное, неузнаваемое для человеческой морали, что может быть опасно. Ниже мы исследуем тему добродетелей и посмотрим, как их можно использовать, чтобы направлять ИИ на нравственный путь.

Добродетели как путь вперед

Поскольку мораль постоянно меняется, простого обучения машины списку морали будет недостаточно, чтобы идти в ногу с развивающимся обществом и культурой. Более эффективным может быть привитие некоторых основных добродетелей, которые гарантируют, что мораль останется на правильной траектории с меняющимися временами, условиями, требованиями и отношениями. Добродетели выдержали испытание временем, и на протяжении всей истории мы видим, что они оставались более устойчивыми, чем мораль. Таким образом, они могут стать прочной основой для постоянно развивающегося кода ИИ, который поможет поддерживать его соответствие человеческим ценностям.

Идея добродетелей восходит к древнегреческим временам и была принята во многих культурах и религиях [5]. Платон и Аристотель согласились с 4 основными добродетелями, которые, по их мнению, позволяют людям выполнять свои человеческие функции [6]:

Благоразумие, также называемое практической мудростью, - это способность действовать в соответствии с собственным опытом, используя разум и принимая логические решения. Он действует как предшественник других добродетелей.
Умеренность, также известная как самоконтроль или добровольное воздержание, выдвигает идею умеренности, избегая потенциально опасного излишеств. (Это жизненно важно для предотвращения непредвиденных последствий).
Смелость: способность быть сильным и лицом к лицу встречать неуверенность. Также включает свободу действий.
Справедливость: также называется справедливостью.

Платон и Аристотель считали, что эти четыре добродетели дополняют друг друга и позволяют людям вносить положительный вклад в общество. Эти четыре добродетели проявлялись в различных формах на протяжении всей истории и отстаиваются в христианских, буддийских, индуистских и еврейских писаниях. Они развивались с течением времени, например, христианство более глубоко исследовало богословские добродетели веры, надежды и любви, но в целом добродетели остаются такими же, как руководящие принципы для «хорошего человека». Добродетели помогают направлять людей в стремлении стать лучше. Например, сознательное развитие щедрости помогает достичь точки, когда человек будет искренне чувствовать себя хорошо, отдавая, а также усваивая соответствующую мораль.

Обучение машин добродетелям

Если добродетели - это путь вперед, нам необходимо разработать надежный подход к обучению этим добродетелям наш ИИ, возможно, через учебную программу, по которой ИИ будет обучаться. Этот учебный план может быть разработан людьми, возможно, с помощью технологий, и предназначен для обучения ИИ во многом так же, как ребенка учат в школе для людей.

Сказки или детские сказки часто хорошо отражают добродетели того или иного общества. Людям не нужно напрямую сталкиваться с неправильным поведением и его последствиями, но они могут учиться через анекдоты или сказки.

Чтобы выяснить самые важные достоинства, мы могли бы использовать современные методы машинного обучения, чтобы проанализировать тысячи сказок со всего мира и выявить закономерности, чтобы определить, какие самые важные достоинства пронизывают все они. Создание чего-то похожего на Книгу добродетелей Уильяма Беннета [7], но в гораздо большем масштабе.

Тогда это будут достоинства, которым обучается ИИ. Чтобы убедиться, что он полностью понял достоинства, потенциальная задача тестирования для ИИ может заключаться в том, чтобы попросить его закончить невидимую историю и посмотреть, создаст ли он финал, который люди сочтут морально приемлемым.

Важный вопрос исследования: как сделать так, чтобы добродетели оставались стабильными с течением времени? Если добродетели, заложенные в наш ИИ, меняются со временем, то от добродетелей пользы нет. Следовательно, изучение учебной программы может быть только частью ответа, и необходимо провести работу, чтобы выяснить, какие инженерные шаги необходимы, чтобы сделать добродетели устойчивыми к изменению.

Как бы это помогло?

Как мы упоминали выше, привитие добродетелей машинам может помочь удержать их на правильной моральной траектории в меняющиеся времена, позволяя им при необходимости адаптировать свою мораль и даже улучшать нашу. Это также будет включать в себя обогащение учебной программы новыми «обучающими» рассказами с моральными аспектами, которые отражали бы новое развитие человеческой морали. Такой подход также позволил бы нам поставить «общество в петлю» [10], то есть обеспечить, чтобы вклад широкой публики принимался машинами.

Повышение нашей морали

Сильный ИИ также может использовать свои знания о добродетелях, чтобы помочь нам улучшить нашу мораль и даже ускорить движение к лучшему обществу. Если мы посмотрим на общество, есть проблемы, которые в зависимости от добродетелей могут быть сочтены неправильными, с растущим потенциалом технологий и пониманием неравенства, например, животноводство или распределение страданий. Но людям часто все равно, или у них есть другие проблемы, с которыми им нужно справиться. Если общий ИИ выявляет подобные проблемы, он может сосредоточить свою энергию на их решении и стать движущей силой нашей этики. Уже сегодня узкий ИИ помогает нам выявлять различные человеческие предубеждения, например выявление гендерных или расовых предубеждений при приеме на работу [8] [9].

Ускорение изменений

В то время как эволюция ценностей имеет тенденцию быть постепенной, их принятие, как правило, больше похоже на лестницу с плато и большими прыжками. Скачки наступают, когда люди или общество, наконец, чувствуют себя достаточно уверенно, чтобы совершить большие перемены. Слишком часто изменение откладывается до тех пор, пока оно не станет экономически жизнеспособным или пока политическое или общественное давление не достигнет определенного порога. Общий ИИ и технологические достижения, которые он принесет, могут быть использованы для ускорения этих скачков вперед путем поиска решений сложных проблем, тем самым позволяя процессам происходить быстрее.

Прошлый пример - рабство, потребовалось много лет и гражданская война, чтобы положить конец рабству в Соединенных Штатах, система поддерживалась экономическими и расовыми оправданиями. Однако обычный ИИ мог предложить практическое (приемлемое) решение, которое могло бы быть быстрее и даже избежать войны. Это может позволить обществу адаптироваться так же быстро, как адаптируется мышление.

Текущим примером может быть система образования. Существует множество теорий о том, как его улучшить или сделать более доступным, но при нынешнем социальном аппарате и технологиях на изменения могут уйти поколения. Если общий ИИ возьмется за такую задачу, он сможет быстрее создать лучшую систему образования. Как только мы определим проблему и поймем, что реальность должна отличаться на основе общих добродетелей, общий ИИ сможет ее решить.

использованная литература

[1] Криштиану П. (2018). Уточнение« раскладки AI ». Середина.

[2] Конн, А. (2017). Как согласовать искусственный интеллект с человеческими ценностями?. Институт будущего жизни.

[3] Бостром, Н. (2012). Сверхразумная воля: мотивация и инструментальная рациональность в продвинутых искусственных агентах. Мысли и машины 22: 71.

[4] Авад, Э. и др. (2018). Эксперимент« Моральная машина ». ПРИРОДА. Том: 563, выпуск 7729.

[5] Херстхаус Р. и Петтигроув Г. (2016). Этика добродетели. Стэнфордская энциклопедия философии.

[6] Краут Р. (2018). Этика Аристотеля. Стэнфордская энциклопедия философии.

[7] Беннетт В. (199). Книга добродетелей. Саймон и Шустер; 1 издание (5 сентября 1996 г.).

[8] Басс Д. и Хуэт Э. (2017). Исследователи борются с гендерными и расовыми предубеждениями в области искусственного интеллекта. Блумберг.

[9] Гарсия, М. (2016). Расист в машине: тревожные последствия алгоритмической предвзятости. Журнал мировой политики, 33 (4), стр. 111–117.

[10] Ито, Дж. (23 июня 2016 г.). Общество в петле искусственного интеллекта. Интернет Джои Ито [запись в блоге].