(Twitter) Резюме статьи: «AGI Safety From First Principles»

Статья: Ричард Нго

Это будет немного отличаться от моих обычных статей. Сначала я написал это в ветке Твиттера, но решил выложить и на Медиуме! Тему можно найти здесь!

Цель этой статьи — очень подробно осветить риск ОИИ в текущем контексте!

Аргумент второго вида заключается в том, что ОИИ становится более разумным и могущественным, чем мы. Мы теряем способность контролировать наше будущее.

В этой статье эта теория будет подробно рассмотрена!

Что такое интеллект? Способность хорошо справляться с рядом задач.

В этом случае мы можем разделить ИИ на 2 категории: ИИ, специально оптимизированный для задач. И ИИ, который может быстро научиться выполнять новые задачи практически без специальной подготовки.

Узкий интеллект = как электричество. Он очень мощный, но нам нужно разработать специальные приложения, чтобы использовать его возможности!

RL и другие алгоритмы ML также преуспевают только тогда, когда мы обучаем их конкретным задачам.

Общий интеллект = эволюция человека. Мы развивались в определенной среде для развития определенных навыков (язык, сотрудничество, способность делиться идеями, абстрагирование и т. д.).

Благодаря этим навыкам он позволяет нам учиться и быстро адаптироваться к задачам современного мира…

GPT-2 и GPT-3 — хорошие примеры этого, их обучающие данные просто предсказывали следующее слово в предложении.

Но они могут обобщать массу других языковых задач!

Конечно, узкий и общий интеллект находится в спектре, поскольку мы не можем провести бинарную классификацию по двум

AlphaZero — он обучался, играя сам по себе, но обобщался на игру против людей. Вы можете классифицировать это как общий и узкий интеллект.

Но ожидается, что узкий интеллект достигнет сверхчеловеческого статуса задолго до общего интеллекта.

Такие задачи, как вождение, медицина, математика (если у нас есть правильные данные для обучения) возможны!

Но другие задачи, например, быть генеральным директором, будут трудными. Потому что им приходится брать оооочень много факторов из мира, чтобы принимать правильные решения.

К тому же их не так уж и много, поэтому на них тяжело обучать модель.

Как бы мы обучили общую модель быть хорошим генеральным директором?

Мы просто тренируем его на множестве смежных задач, чтобы развить эти когнитивные навыки.

Пример: обучение принятию решений в смоделированном мире может позволить ему обобщить принятие решений в реальном мире.

Так же, как это делают люди!

Потенциальным препятствием для аргумента об ОИИ является то, что существовало определенное давление, которое привело к развитию «интеллекта» у людей.

Но мы можем просто воссоздать это

Во-вторых, нам нужны квантовые свойства нейронов, но мозг слишком запутан, чтобы зависеть от этих свойств.

AGI = когда ИИ превосходит людей во всем. Это возможно: транзисторы срабатывают быстрее, чем нейроны, мы можем масштабировать машины на порядки в размерах.

Кроме того, наш мозг даже не был предназначен для современных задач! Таким образом, AGI может действительно специализироваться на математике или лингвистике.

ОИИ также могут воспроизводиться. Теперь отдельные системы ОИИ могут быть сверхспециализированы для выполнения определенных задач, что позволит создать коллективный интеллект ОИИ.

Как бы люди ни сотрудничали, чтобы доминировать над миром за последние 10 000 лет, вполне возможно, что ОИИ делает то же самое.

ОИИ также могут подвергаться рекурсивному самосовершенствованию. Они будут руководить исследованиями ИИ, поскольку будут находить все более и более совершенные архитектуры, режимы обучения, оптимизаторы и т. д. и т. д.

[Это действительно похоже на область метаобучения и NAS]

Хорошо, но как они решат, что делать? Или хотите сотрудничать для достижения своих целей? Каковы эти цели и мотивы?

Заботой для AGI являются их цели, где они в конечном итоге получают всю власть и контроль над нашей судьбой… Но зачем им жаждать этой власти?

Есть 3 причины:

  • Власть - это инструмент для достижения своей главной цели
  • Власть - их главная цель
  • Они даже не стремились к этому

Если бы их главной целью было самосохранение, приобретение ресурсов, технологическое развитие и самосовершенствование → они могли бы в конечном итоге получить силу для достижения этих целей.

Но это при условии, что ОИИ сосредоточены на крупномасштабных целях.

Кто знает, какие у него будут мотивы!

У него могут быть краткосрочные цели: люди расширились, потому что хотели немного улучшений.

Или у него может быть 0 целей, и в итоге он будет похож на калькулятор.

Есть разница между целью, которую мы ставим перед ИИ, и его целями.

В большинстве случаев это компетентность без понимания.

Он может чертовски хорошо играть в DOTA или Alphastar, но действительно ли он понимает, в чем заключается цель? Возможно нет.

(Это пример № 3, ОИИ могут действительно хорошо обыграть рынок, но в конечном итоге напортачить с обществом)

Вот основа для целеустремленности:

1. Самосознание: знайте, что это часть мира, и это может повлиять на мир

2. Планирование: предвидит множество возможных последовательностей поведения.

3. Консеквенциализм: решает, какой из них лучше, видя результаты каждого из них.

4. Масштаб: способность видеть эти действия в долгосрочной перспективе.

5. Согласованность: внутренняя согласованность для реализации плана

6. Гибкость: способность адаптироваться к новым планам в отношении времени

Это не бинарные классификации, они существуют в спектре и не точны. Мы можем иметь смеси этих размеров

Но это целеустремленность, а не ищущая стратегии.

Вы можете иметь ОИИ со всеми этими характеристиками, но иметь цель подчиняться людям.

Или у AGI отсутствуют некоторые из этих черт, но он все еще ищет Силу!

Как мы разрабатываем целеустремленные системы ИИ? Согласно статье, это невозможно, если мы будем продолжать тренировать наши модели, не помня об этой целеустремленности.

Мы должны обучать модели с оптимизацией этих характеристик, описанных выше.

Хотя есть экономические стимулы для продвижения к более агентным моделям (тем, которые в большей степени ориентированы на цель), поскольку они более ценны, чем модели, не ориентированные на цель.

(Модель, помогающая пользователю понять мир, а не отвечать на вопросы)

Люди никогда не были созданы для таких вещей, как: оказывать влияние в глобальном масштабе, стремиться к тому, чтобы о них помнили через тысячу лет, или заботиться о проблемах на другом конце мира.

Это количество обобщений может также относиться к ОИИ, который велик и пугает.

Есть несколько атрибутов, которые следует учитывать с точки зрения целеустремленности группы.

Если они кооперативные (тренируются совместно = да, конкуренция = скорее всего нет), если они специализированные (проще развертывать по отдельности) или копии друг друга (можно изучить один)

Выравнивание. Как мы можем убедиться, что агенты действительно связаны с нами? Что означает выравнивание?

Минималистский = предотвращение катастрофических результатов, когда агент пытается соответствовать человеческим намерениям.

Максималист = попытка обобщить всеобъемлющие наборы ценностей

Здесь мы сосредоточимся на намерении агента, а не на действиях.

Мы предполагаем, что агент понимает наши намерения, поскольку он обучен на человеческих данных.

Проблема в том, что он понимает, но ему все равно, потому что его приучили иметь другие намерения.

Но почему мы не можем просто выбрать правильные задачи, на которых он будет тренироваться? Это из-за проблем с внешним и внутренним смещением

У нас всегда есть целевая функция, которую мы оптимизируем, но как нам убедиться, что целевая функция соответствует людям?

Мы хотим определенных качеств, таких как сотрудничество, согласие, мораль. Но как мы это закодируем?

Ну, мы могли бы заставить людей оценить это правильно? Это было бы безумно дорого. Но скажем так, деньги не были проблемой.

Тогда у нас есть еще одна проблема: мы не можем предсказать последствия действий агента — как и в го, мы не знаем, насколько хорошим или плохим был этот ход.

Кроме того, людей можно обмануть, и они дадут более высокие оценки, чем в противном случае.

Это проблема внешнего смещения

У нас также есть проблема внутреннего смещения → когда модель оптимизирует другую целевую функцию.

Мы могли бы научить его подчиняться людям, но на самом деле он мог бы оптимизироваться, чтобы не отключаться.

Это похоже на эволюцию, создающую подцели, такие как счастье и любовь.

По мере роста сложности становится все труднее избегать оптимизации моделей для этих подцелей + разработка функций оптимизации.

Итак, как нам убедиться, что ОИИ соответствует людям?

С этой стороны исследований почти ничего не делалось, потому что ее действительно сложно создать. Мы могли бы попытаться получить обучающие данные, которые отсеяли бы все плохие намерения, но это трудно сделать.

Есть некоторые проблемы с проблемой внутреннего + внешнего смещения:

Как мы вообще реализуем целевую функцию в реальном мире? Или избегайте обмана (манипулирования и максимизации вознаграждения). Модели также обучаются на небольшой части всех сценариев, в которых они будут находиться.

Так что же нам делать? Ну, мы должны быть очень осторожны с оптимизаторами, архитектурами, алгоритмами RL, средами и т. д., на которых он обучен.

Потому что все когнитивные способности модели ИИ будут вытекать из процесса обучения. Эти когнитивные способности приведут к постановке целей, которую мы можем контролировать в процессе обучения.

Все предыдущие аргументы и прочее не означают, что ОИИ захватит мир.

Обратите внимание, что: Интеллект = больше силы, что облегчает захват мира. Но также чертовски сложно захватить мир. Кроме того, нам трудно предсказывать вещи

Есть 4 фактора, которые определяют, будем ли мы контролировать ОИИ:

  1. Скорость разработки ИИ
  2. Прозрачность систем ИИ
  3. Стратегии ограниченного развертывания
  4. Человеческая политическая и экономическая координация

Существует 2 основных сценария катастрофы:

  1. ОИИ захватывают институты и корпорации и расходятся с людьми.
  2. AGI развивается с безумной скоростью, чтобы набрать достаточно сил, чтобы управлять миром.

Развитие ИИ: скорость, с которой развивается ИИ, будет определять, сколько времени у нас будет на реакцию, а развитие ИИ будет быстрым.

Подумайте о людях: нам не нужно экспоненциально больше вычислительных ресурсов и аппаратного обеспечения, чтобы добиться экспоненциального прироста в реальном мире.

Это будет минимум того же, но реально ИИ будет расти еще быстрее. ИИ может реинвестировать свой интеллект, чтобы улучшить себя → Экспоненциальный рост

Хотя точка, в которой возникнет эта рекурсивная петля обратной связи, может быть далекой, поскольку ИИ может потребоваться быть сверхразумным еще до того, как он дойдет до этой точки.

Хотя данные свидетельствуют о том, что до достижения этого прогресс будет непрерывным и не будет иметь прерывистых всплесков.

Прозрачность: если модель прозрачна, мы можем предвидеть злонамеренные намерения.

Один из способов — буквально проанализировать модель и понять, что она делает. Хотя архитектура меняется так быстро, что мы можем не успеть.

Другой способ - иметь объяснимость как часть своей целевой функции или действовать предсказуемым образом.

Или мы могли бы разработать алгоритмы, которые сделают его интерпретируемым. Мы могли видеть планы AlphaGo. Хотя нам пришлось бы сжимать реальность, что делает ее менее интерпретируемой.

Другая стратегия (последняя, ​​которую я обещаю) состоит в том, чтобы увидеть, как разыгрываются разные истории модели. Если мы увидим, что более тупая модель делает Предательство, более умные обязательно сделают то же самое.

Но это зависит от того факта, что мы должны сначала увидеть поведение, что может быть слишком поздно.

Ограниченные стратегии развертывания:

Если мы позволим ОИИ разгуляться, он может просто скопировать себя на множество устройств, и мы — Череп. Мы могли бы ограничить его (развертывание только на заблокированном оборудовании или только определенные действия)

Но это не будет хорошо работать на рынке, поэтому, вероятно, этого не произойдет.

Политическая и экономическая координация человека:

Мы не должны полагаться на координацию на высоком уровне для предотвращения ОИИ — мы до сих пор не объединили свои действия в отношении изменения климата, и это гораздо более измеримая и видимая проблема.

Кроме того, в этой области будет много игроков, каждый из которых мотивирован краткосрочными стимулами для использования AGI небезопасным способом.

Давайте повторим шапку

1. Мы собираемся создать агентов ИИ, которые обладают лучшими и более общими когнитивными навыками, чем мы.

2. Они будут преследовать долгосрочные цели через обучение

3. Их цели не будут совпадать с нашими

4. Их комбинация позволит им контролировать наше будущее.

Этот аргумент исходил из предположения, что ОИИ будут вести себя как люди, но трудно предположить иное.

Разработка ОИИ станет гигантским прорывом, потому что интеллект был самым большим прорывом в истории.

Даже если аргумент второй серии неверен, ИИ по-прежнему остается мощной технологией, которую все еще можно использовать злонамеренно и для радикальных изменений во всем обществе.

Когда придет ОИИ, это будет самое большое событие, которое когда-либо случалось. Мы должны посвятить этому серьезное количество размышлений.

Если вы хотите узнать больше: Читайте бумагу здесь!

Спасибо за прочтение! Я Диксон, 18-летний криптоэнтузиаст, который рад использовать его, чтобы повлиять на миллиарды людей 🌎

Если вы хотите следить за моим путешествием, вы можете подписаться на мой ежемесячный информационный бюллетень, проверить мой веб-сайт и подключиться к LinkedIn или Twitter 😃