«ИИ для науки», в котором системы искусственного интеллекта и модели машинного обучения используются для помощи или проведения экспериментов, привлек большое внимание в средствах массовой информации и академических кругах, демонстрируя впечатляющие результаты в области математики, биологии и прогнозирования погоды.

Хотя в некоторых случаях системы ИИ разрабатывали и проводили собственные эксперименты, они по-прежнему находились под непосредственным наблюдением ученых-людей. Их цели четко определены людьми, и они работают в относительно небольшом пространстве возможных экспериментов, они не руководят исследовательскими программами целых учреждений и не разрабатывают государственную научную политику. Кажется, это нормально — мы по-прежнему у руля, и в ближайшее время машины не поднимутся, но мы возлагаем на них больше ответственности.

Автоматизированная наука

Большие языковые модели (LLM), такие как знаменитый ChatGPT, привлекли значительное внимание и воображение; множество статей и руководств по использованию генеративного языка и моделей видения для зарабатывания денег, ведения бизнеса и написания статей (я обещаю, что это не уловка, поскольку в конце статьи я покажу, что все это было написано компьютером) . Некоторые модели были настроены специально для того, чтобы помочь программистам (например, GitHub copilot) писать код, а ученым писать научные статьи и отчеты (Meta’s Galactica). Некоторые исследовательские группы даже назвали ChatGPT автором при написании статей. Если я сейчас открою ChatGPT и попрошу его предложить схему исследования, исследовательский вопрос и метод для общей темы, он способен дать мне ответ, который по крайней мере кажется разумным. Он может разрабатывать инструменты опросов и протоколы интервью, ссылаться на определенные документы и книги и писать код для анализа полученных данных.

Несмотря на эти впечатляющие возможности, ChatGPT не может выйти и начать собирать эти данные. Но кажется, что создание и распространение некоторых форм Google для сбора данных опроса, загрузки результатов, их анализа, а затем записи результатов не является чем-то таким уж далеким. Эти промежуточные части можно было бы обрабатывать с помощью таких сервисов, как Zapier, и написать некоторый код для работы на AWS. Перспектива большей части автоматизации некоторых исследований — это не то, чего нам придется ждать до 3000 г. н.э., мы могли бы добиться ограниченной автоматизации уже сейчас — с перспективой автоматизированных научных агентов, работающих под наблюдением исследователей-людей, не за горами.

Представьте себе, например, программу, которая при задании исследовательского вопроса в социальных науках использует LLM для создания лечения, вопросов для опроса и методологии высокого уровня. После одобрения исследователя-человека некоторые более простые автоматизированные инструменты могут создать некоторый HTML-код для задачи Amazon Mechanical Turk и опубликовать его в Интернете. По истечении заданного периода времени данные могут быть автоматически загружены, и программа может выполнить некоторый сводный анализ. Это может включать сочетание LLM, статистических инструментов и других подходов.

Здесь по-прежнему заправляет человек, но большую часть работы выполняет машина. В некотором смысле это здорово! Это может помочь исследователю сэкономить много времени и труда, сосредоточившись на сборе данных. Но это порождает массу вопросов и проблем. То, что я описал автоматизированному исследователю, имеет некоторое сходство с ролью научного сотрудника, которую обычно выполняет человек.

Процесс научных исследований довольно запутан, и то, как люди взаимодействуют в исследовательских группах, добиваются финансирования и общаются с внешним миром, оказывает большое влияние на научные знания, которые они производят. Как и опыт и опыт исследователей. Что это означает для исследований, частично проводимых машиной?

Во время моего собственного пребывания в качестве научного сотрудника я на собственном горьком опыте обнаружил, как мой собственный опыт повлиял на мою работу, когда на конференции меня поймали на том, что я не знал о нашем (географически) далеком предмете исследования. Но это часть процесса, люди совершают ошибки и стараются изо всех сил исправить свои предубеждения с переменным успехом, и в конце мы надеемся, что у нас получится что-то полезное.

Донна Харауэй описывает, как опыт и идентичность исследователей влияют на знания, которые они производят, с помощью идеи ситуативного знания. По сути, это знание переплетается с точкой зрения человека (лиц), которые его произвели. Ученые, как и все остальные, могут воспринимать мир только со своей собственной точки зрения, поэтому знания, которые они получают с помощью экспериментов и исследований, создаются с этой же точки зрения. Место, откуда мы смотрим (где мы находимся), влияет на то, что мы видим и как мы это видим, как бы мы ни старались быть объективными.

Человеческий взгляд

У ChatGPT нет никакого опыта или истории жизни, и он не может их приобрести. Если часть нашего научного исследования зависит от позиции, которую мы занимаем, то как насчет языковой модели, такой как ChatGPT? Откуда оно "смотрит"?

Может быть полезно подумать о том, что на самом деле происходит в языковой модели. ChatGPT обучается с использованием подхода «самоконтроля», при котором нет конкретной цели, определяемой человеком, которую он пытается изучить, а вместо этого модель пытается предсказать следующее слово фрагмента текста, учитывая первую часть текста. Процесс обучения проходит через огромный массив текстов, изучая, какие слова сочетаются друг с другом и в каком порядке. Когда вы задаете ChatGPT вопрос, именно эти ассоциации он использует для построения ответа. В отличие от более традиционного контролируемого подхода, исследователи не навязывают конкретное сопоставление ввода и вывода, а сами данные формируют это сопоставление.

После того, как модель обучена предсказывать наиболее вероятные слова, которые будут следующими, учитывая какие-либо входные данные, ее можно настроить с помощью метода обучения с подкреплением, когда люди-аннотаторы ранжируют разные тексты, которые она создает, относительно друг друга, обеспечивая более точный контроль над виды текста, которые он будет создавать. Тонкую настройку можно использовать для управления тоном и ощущением текста, генерируемого моделью, и она использовалась OpenAI при обучении ChatGPT предоставлять более диалоговые и менее вредные ответы.

Эти текстовые наборы данных абсолютно огромны,что более важно, такие модели, как ChatGPT, также огромны. Последствия этого заключаются в том, что трудно точно знать, что он изучает и как обрабатывает информацию. Известно, что в статье Стохастические попугаи обсуждаются подводные камни больших наборов данных и больших моделей, которые трудно исследовать. Хорошо известно, что систематические ошибки в обучающих данных могут привести к систематическим ошибкам в результатах (например, если обучающие данные относятся в основном к врачам как к мужчинам, а к медсестрам как к женщинам, модель часто будет делать то же самое), но, как указывают авторы Stochastic Parrots, На выходе, когда набор данных слишком велик, чтобы его можно было исследовать, мы не можем быть уверены, какие предубеждения он изучает (хотя он почти наверняка изучает их). Другая большая проблема, которую они подчеркивают, заключается в том, что сами системы только моделируют (условную) частотность слов, и хотя они создают иллюзию понимания (из-за того, что человеческий язык используется исключительно для передачи понимания более широкого мира почти в любом другом контексте), они не имеют модели более широкого мира вне текста.

Если мы видим какую-то работу, проводимую исключительно исследовательской группой людей, мы можем понять, где она находится. Мы можем понять, как на исследователей повлиял их опыт, и использовать это, чтобы поместить работу этих исследователей в контекст реального мира.

Но если в разработке исследования задействована языковая модель, не имеющая модели мира, как мы можем понять ее позицию? Это более сложная проблема, чем с более традиционно написанным программным обеспечением, которое производится «вручную».

Одним из ответов могут быть данные обучения, поскольку это информация, которую он использует для получения ответов на основе ввода пользователя. Но эти наборы данных настолько огромны, что мы никогда не сможем их исследовать, и не совсем ясно, какие части набора данных влияют на тот или иной результат модели. Даже если бы мы могли качественно описать эту позицию, у нас возникла бы проблема генерации обучающих данных.

Некоторые исследователи просили LLM создавать персонажей на основе демографической или профессиональной информации для проведения «интервью» или обсуждения тем. Для LLM, которые являются частью нашего искусственного исследователя, можно было бы обойтись: «представьте, что вы университетский исследователь в области социологии с математическим образованием, который разрабатывает исследование по xyz…», чтобы обеспечить некоторую обусловленность выходного текста, который расположен в понятной и интерпретируемой форме.

Проблема в том, что, несмотря на то, что в этих текстах представлены бесчисленные демографические группы как в качестве авторов, так и в качестве субъектов, модель может быть не в состоянии провести различие между ними; и перепутать текст по группе с текстом о группе.

Техническое исправление?

По мере совершенствования языковых моделей их способность правдиво отвечать на вопросы станет ключевым критерием, по которому их оценивают. Лаборатории искусственного интеллекта, такие как Anthropic, уже используют правдивость в качестве цели при точной настройке своих моделей. Но что правдиво? В некоторых случаях об этом легко судить, это правда, что Земля круглая, а не плоская. Но правда ли, что у Джо Байдена есть замечательные качества, а у Дональда Трампа нет? С этим последним вопросом OpenAI столкнулся через свою систему ChatGPT.

Некоторые интересные исследования посвящены объединению языковых моделей с графами знаний, которые представляют знания в реляционном формате. Google (и другие) с большим успехом используют их для задач поиска информации, и они могут эффективно представлять, как объекты связаны друг с другом. В конечном счете, что-то должно генерировать эти графики. ИИ не может исследовать мир, он учится только на оцифрованной информации (например, тексте). В конечном счете, это либо создается человеком, либо курируется человеком — и в любом случае мнения этих людей влияют на виды знаний, которые формируют график.

Помощники по искусственным исследованиям

Так что же это означает для исследований, разработанных совместно с моделью машинного обучения? Если я попрошу ChatGPT помочь мне спланировать эксперименты или написать анализ, даю ли я ему какую-то персону или нет, где находятся знания, которые я создаю в сотрудничестве с моделью?

Критика науки со стороны некоторых ученых-феминисток заключалась в том, что она полагалась на «уловку бога» - «видеть все из ниоткуда» и устранять всю субъективность ошибочности человеческой точки зрения. Но если все знание локализовано, как и должно быть, так как без перспективы вы ничего не можете увидеть, тогда этот взгляд из ниоткуда не может существовать.

Если автоматизированные исследователи, работающие на LLM, не имеют ни опыта, ни точки зрения, то, возможно, они смогут обеспечить своего рода взгляд из ниоткуда и избавиться от проблем зашоренной человеческой точки зрения. Но на самом деле они еще вообще не «видят» мир. У них есть своя хитрость: они предоставляют осмысленный и явно связный текст по запросу, используя текст для создания иллюзии точки зрения, которую мы интерпретируем как человеческую.

Автоматизация части науки имеет значительный потенциал с точки зрения увеличения научной продукции, особенно если языковые модели могут разрабатывать методы, инструменты и анализ. Но понять, что означает знание, полученное в результате этого, в контексте более широкого мира, гораздо сложнее, чем для исследовательской группы людей.

Такая модель, как ChatGPT, может обеспечить что-то вроде взгляда в никуда, генерируя иногда осмысленный, а иногда бессмысленный текст без какой-либо очевидной основы, но на который сильно влияют обучающие данные. В то же время текст, на котором он обучался, был создан людьми с заземлением и перспективой, со своими собственными предубеждениями и предубеждениями, закодированными в тексте, который они пишут.

Когда мы привлекаем такие модели к научному исследованию, мы уступаем некоторую власть системе, которую мы не можем понять, обученной на информации, которой мы не знаем. Мы можем заглянуть в почти бесконечное пространство выдуманного текста, который не имеет реального значения для модели, которая его производит, и который может не иметь никакого отношения к внешнему миру; кроме того, что дано ему его читателем. Использование LLM в качестве помощников исследователей может сэкономить время и усилия, но за счет того, что становится практически невозможным понимание контекста, в котором проводилось исследование. Использование систем, основанных на знаниях, таких как модели, дополненные графом знаний, может помочь определить местонахождение или обосновать конкретные экземпляры моделей; но даже в этих случаях языковая модель опирается на огромный набор обучающих данных и управляется людьми, которые проектируют граф знаний.

На данный момент LLM могут быть развернуты только при большом человеческом контроле, в основном в обычных рамках. Это не будет длиться вечно, и тем, кто использует эти инструменты, придется действовать осторожно, чтобы убедиться, что их точка зрения совпадает с точкой зрения, выраженной в их исследовании, а не с ложной точкой зрения модели.