Путать правдоподобие с вероятностью в AI-безопасности

Есть ли аналог Константы людоящера, но для сценарной оценки? Если кто-то рассказывает вам правдоподобный сценарий, на который нет взгляда со стороны, какова непосредственная вероятность того, что приписывает вам ваше сердце? Это 5%?

Проблема со стандартной линией AI Extinction заключается в том, что у нее нет хорошего внешнего вида и нет отличной основы для взглядов изнутри. Затем правдоподобные истории спешат заполнить этот вакуум. Скотт Александер, например, дает шанс 33% для этой последовательности:

1. К 2100 году мы получим ИИ человеческого уровня.
2. ИИ смещен и хочет убить всех людей
3. Ему удается убить всех людей.

# 1 имеет нормальный внешний вид. Закон Мура будет действовать, или, по крайней мере, в какой-то его версии. Гипотеза масштабирования заслуживает некоторого доверия, хотя и не так сильно, как закон Мура. И есть движущая сила мировой экономики капитализм получает то, что хочет капитализм или технологии делают то, что хотят технологии. Этому последнему пункту потенциально противостоит собственный 1960: год, когда сингулярность была отменена Скотта. Но в целом № 1 относительно чист.

# 3 также в порядке с точки зрения изнутри. Стандартный сценарий Элизера Юдковски заключается в том, что Злой ИИ может породить миллион экземпляров самого себя и выполнять все, что захочет. Неважно, что такое накопление может быть узким местом из-за нехватки графических процессоров или что другие согласованные ИИ не предвидят злого ИИ. В любом случае, давайте дадим интересные проценты № 1 и № 3.

Но № 2 имеет только правдоподобие. В моем сердце — за 10 секунд созерцания — это правдоподобно. "Ах, да. Конечно, почему бы не создать неприсоединившийся ИИ, который хочет убивать людей? Все, что нужно сделать, это захотеть. А выравнивание? Пфф, кто знает, добьемся ли мы когда-нибудь этого». Но почему номер 2 должен быть достойным даже 5%? Почему не 0,005%? Насколько четко определено «выравнивание»? Пистолет не настроен? И что значит для ИИ «хотеть»? Есть ли у нас уже представление о понятиях «воли» или «действия»?

Оценка человека-ящерицы придает слишком большое значение положительным гипотезам, подобно чайнику Рассела или пари Паскаля. В случае с Паскалем имеет смысл молиться каждую ночь, если вероятность того, что это приведет вас на небеса, составляет 5%. Но что, если шансы, что он вытащит вас из ада, составляют 5%? Возможно, вы молитесь множеству богов.

Путать правдоподобие с вероятностью в AI-безопасности

Вопросы по теме