ИИ меняет направление исследований в биологии и открывает новые горизонты в терапии

Белки являются фундаментальными строительными блоками жизни и участвуют во всех процессах в клетке. Их уникальное строение и разнообразные функции позволяют им выполнять любую задачу в клетке. ДНК и РНК можно рассматривать как ПЗУ и оперативную память.

Понимание структуры и функций белков требует значительных усилий со стороны научного сообщества. В прошлом году Alpha-fold2 произвел революцию в том, как предсказывать структуру белка. На этой неделе (в сотрудничестве с Европейским институтом биоинформатики) они выпустили наиболее полную базу данных предсказанных трехмерных структур белков человека. Эта статья предназначена для обсуждения того, почему предсказывать белки сложно, почему это важно и как ИИ и последние исследования могут повлиять на будущее.

Почему так много шума вокруг белков и их структуры?

Белки — это крошечные моторы любого организма, от одноклеточных до гораздо более сложных организмов, таких как человек. Несмотря на то, что у нас есть только 20 аминокислот в качестве строительных блоков белков, у нас может быть бесконечное количество белков с различными формами и функциями.

Белки участвуют в обеспечении функций, которые организм должен выполнять, чтобы жить, расти и воспроизводиться. На самом деле любая клетка использует белки для переваривания, размножения, поддержания себя и многого другого. Белки могут достичь всего этого благодаря своей уникальной структуре, а их структура формирует их функции. Вновь сгенерированная белковая последовательность (или пептид) достигает своей окончательной формы во время процесса, называемого фолдингом.

Однако мутации в ДНК могут изменить последовательность белка и привести к структурной модификации белка. Структура может быть изменена настолько, что функция теряет свою функцию. Это лежит в основе многих генетических заболеваний или бывает при раке.

Бывают также случаи, когда белок сворачивается в неправильную структуру и это лежит в основе различных заболеваний. Например, это имеет место при болезни Альцгеймера, когда в мозгу пациента накапливаются аномально свернутые белки Амилоид-бета. Прионные болезни также являются другими примерами, когда патологическим агентом является неправильный фолдинг белка.

Бесконечная шахматная доска, на которой играют белки

В 1950-х годах Шеннон подсчитал, что можно было сыграть около 10**120 (10 в степени 120) игр. Учитывая, что в известной Вселенной должно быть не более 10**82 атомов, это немалое число.

В 1969 году Левинталь заметил, что, поскольку пептид (группа аминокислот) имеет большое число степеней свободы, он может иметь 10**300 возможных конформаций. Если бы белок перепробовал все возможные комбинации, это заняло бы больше времени, чем возраст Вселенной. Поскольку белок складывается (находит правильную конформацию или структуру) за несколько миллисекунд, это назвали парадоксом Левинталя.

Структура белка определяет его функцию и важна для разработки терапевтических препаратов. Традиционно исследователи полагались на экспериментальные подходы, такие как рентгеновская кристаллография или криоэлектронная микроскопия (крио-ЭМ). Однако, хотя рентгеновская кристаллография возвращает детальную структуру, она трудоемка и дорога (в некоторых случаях даже 100 000 долларов за белок). Таким образом, многие исследовательские группы пытались разработать алгоритмы для предсказания структуры по последовательности.

Несмотря на то, что последовательность отображается 1-к-1 в трехмерную структуру, очень сложно предсказать структуру по последовательности. Одна-единственная мутация может изменить структуру, а две очень разные последовательности могут привести к сходной структуре. Более того, этот пептид очень гибкий и может вращаться по-разному (кроме того, аминокислоты имеют боковую цепь, которая также может вращаться). Кроме того, мы экспериментально определили около 100 000 белковых структур (банк данных белков), и у нас есть миллионы последовательностей с неизвестной структурой.

Как белки являются языками живых организмов

Поскольку белки представляют собой последовательности аминокислот, существует удивительный параллелизм между человеческим языком и последовательностями белков:

  • Иерархическая организация: символы организованы в слова, слова — в предложения, а предложения — в абзацы. Абзацы также можно объединять в более длинные тексты. Точно так же белковый алфавит состоит из 20 аминокислот, которые могут быть объединены во вторичные структуры (обычно с функциональной или структурной ролью) и вторичные структуры в третичные структуры. Белки могут быть собраны в сложные комплексы.
  • Опечатки и грамматика: хотя опечатки в слове могут кардинально изменить смысл предложения (однажды опечатка обошлась туристическому агентству в десять миллионов долларов), вы также можете писать грамматически правильные предложения, в которых нет слов. смысл. Точно так же мутации могут нарушить функцию белка и привести к заболеванию.

  • Эволюция: языки не статичны; они постоянно развиваются, чтобы выражать новые концепции и отражать изменения в нашем обществе. Хотя сегодня существует более 8000 языков (сгруппированных в 140 семейств), они, вероятно, произошли от общего предкового языка, на котором говорили в Центральной Африке (около 50 000–70 000 лет назад). Все организмы (и их белки), кажется, произошли от универсального предка около миллиарда лет назад.

  • Зависимость: в человеческом языке слова взаимосвязаны с окружающими словами. Значение слова зависит от контекста. Более того, у нас есть долговременная зависимость, которая может быть и между разными предложениями. В трехмерной структуре белка есть взаимодействия, аминокислота в начале последовательности может взаимодействовать с аминокислотой в конце последовательности белка. В то же время у вас есть взаимодействие между вторичными структурами в белке и между белками.

Однако есть и некоторые отличия. Иногда мы не знаем границ слов при токенизации белка. Более того, есть много белков, которым не назначена функция (нам еще предстоит их расшифровать).

Занимайтесь белками с помощью трансформеров

Трансформеры, механизмы внимания и производные модели имели огромный успех в обработке естественного языка и не только. Первоначально предназначенные для обработки последовательностей слов, они оказались полезными с изображениями (преобразователи зрения), а также с другими типами данных (музыка, графики и т. д.).

Вкратце, классические преобразователи состоят из кодера и декодера и используются для задач последовательного преобразования (например, машинного перевода). С момента своего появления они преодолели область обработки естественного языка, постепенно заменяя RNN и LSTM почти в любом приложении. Почему? Поскольку они намного лучше поддаются распараллеливанию, они могут моделировать длинные зависимости, а предварительное обучение позволяет повторно использовать большие преобразователи во многих областях. Большинство самых крупных моделей сейчас трансформируются (ГПТ-3, БЕРТ и все их собратья).

Действительно, трансформеры позволили специалистам по искусственному интеллекту обучать модели с огромным количеством данных. Объем данных постоянно растет с годами (по прогнозам 80 зеттабайт в 2025 году). То же самое происходит в биологии и медицине: со времен омиксной революции мы накапливаем последовательности ДНК, РНК и белков. Так почему бы не использовать модели-трансформеры для использования всех этих больших данных в биологии?

AlphaFold2 или как DeepMind удивил все научное сообщество

В 2020 году DeepMind приняла участие в Critical Assessment of Structure Prediction (CASP) Challenge, который считается наиболее важной задачей для предсказания структуры белка. Она не просто выиграла, а опередила более 100 команд (более 20% набранной точности). AlphaFold2 был способен предсказать структуру белка с точностью до атома. Как они это сделали?

Первая интуиция заключалась в том, что они могли представить данные в виде графа и рассматривать задачу как проблему вывода графа (аминокислоты как узлы и близость как ребра). Потом отказались от сверточной сети и изобрели Эвоформер. Другими интересными приемами были использование механизмов внимания, начиная с множественного выравнивания последовательностей и сквозного обучения.

Результаты были впечатляющими, даже несмотря на то, что у AlphaFold были проблемы с моделированием гибких областей или олигомерных сборок (четвертичных структур, которые еще труднее предсказать). Поскольку большинство белков на самом деле работают, взаимодействуя с другими белками, это важный аспект (DeepMind также выпустила AlphaFold-мультимер, модель, специально обученную для сборки олигомеров).

Вернуться к последовательности: враг AlphaFold

Недавно META представила на ICML статью, в которой представила ESM-IF1, модель, способную выполнять обратную укладку (предсказывать последовательность белка по его структуре). Интересно, что для сборки обучающей выборки они использовали AlphaFold2 для предсказания структуры 12 миллионов последовательностей от Юнипрот. Это умный способ преодолеть ограниченное количество экспериментально определенных белковых структур.

Затем они создали модель, которая может предсказать по структуре остова (структура белка без аминокислотных цепей) последовательность белка. Аминокислотные цепи важны для определения функции, но это усложняет задачу, и это уже важная веха. В документе описан подход к обратному свертыванию как задача последовательностей последовательностей (с использованием авторегрессивного кодера-декодера для извлечения последовательности из координат магистрали).

Интересно, что они подошли к проблеме как к задаче моделирования языка, где они обучили модель узнавать условное распределение p(Y|X): по заданным пространственным координатам X вы предсказываете последовательность Y аминокислот. Кроме того, они показали, что добавление гауссова шума помогает модели обучаться (гауссовский шум также является новой большой тенденцией).

Они рассмотрели различные задачи, такие как предсказание последовательности из остова, множественные конформации, олигомеры и частично замаскированные остовы. Все это возможные случаи в биологии, поскольку белки могут быть усечены (маскированные части), взаимодействовать с другими белками (олигомерами) или изменять конформацию в различных контекстах (изменение pH, присутствие медицинского препарата). Таким образом, данная модель может быть полезна в различных областях исследований.

Чтобы понять язык белков, чтобы написать собственный роман

«Мать-природа была лучшим биоинженером в истории. Почему бы не использовать эволюционный процесс для создания белков?» — Фрэнсис Арнольд

Во-первых, я хотел бы сосредоточиться на двух моментах, которые возникли до сих пор:

  • Переформулируйте задачу. И AlphaFold2, и ESM-IF1 подошли к задаче преобразования данных умным способом, который позволил им легче справляться с трудностями.
  • AlphaFold2 как компонент модели. ESM-IF1 решил проблему нехватки примеров, используя AlphaFold2 для создания структур для обучения своей модели.

Обе эти идеи повлияют на будущее, поскольку мы можем легко импортировать умные идеи из НЛП (и, таким образом, использовать подходы, которые доказали свою ценность) в биологических задачах. Благодаря взрывному геометрическому обучению мы также можем использовать уроки, полученные с помощью графиков (но это уже другая история). Более того, и AlphaFold, и ESM-IF1 имеют открытый исходный код, и я ожидаю, что они будут использоваться в будущих исследованиях. На самом деле AlphaFold2 предсказывает структуру из последовательности, в то время как ESM-IF1 делает наоборот, и их объединение может быть полезным для многих генеративных задач.

AlphaFold2 выпустила большой набор данных предсказанных структур, и они хотят расширить его для других организмов. Знание структуры может быть полезно для многих приложений:

  • Функции многих белков, о которых мы мало знаем
  • Заболевания и терапевтические возможности. Структура белка используется, чтобы намекнуть на болезнь, и вам нужна структура для разработки медицинских препаратов, которые воздействуют на белок-мишень.
  • Хотя это может быть полезно для лечения инфекционных заболеваний, мы также можем разрабатывать лекарства от болезней насекомых и растений.

Однако эти модели будут полезны для разработки новых белков для различных приложений. На самом деле при использовании трансферного обучения предобученная модель не обязательно используется для исходных задач. Мы можем создать белки с неизвестной функцией, а затем восстановить последовательность с обратной укладкой. Как только у вас есть последовательность, вы можете произвести в лаборатории белок.

Выводы

Впереди нас ждут захватывающие времена. Это рассвет более преобразующих исследований и приложений. Редактирование генов вскоре входит в клиники, что в сочетании с идеей возможного понимания того, как мутация влияет на исследования, может стать решением для многих заболеваний (от неврологических расстройств до рака). Например, болезнь Альцгеймера и прионы — это заболевания, при которых неправильное сворачивание белка играет центральную роль в начале.

Однако почти любая крупная языковая модель была опубликована крупными компаниями. AlfaFold2 и ESM-IF1 также являются исследовательским продуктом двух крупных компаний. Конечно, эти проекты создали сотрудничество с академическими учреждениями, но поскольку многие из их приложений повлияют на будущую жизнь многих, нам также нужны институциональные усилия.

Более того, когда мы прогнозируем структуру для клинического применения, нам также необходимо знать, почему модель пришла к такому прогнозу. Таким образом, нам необходимо также обсудить, насколько объяснима эта технология и как улучшить ее объяснимость.

Дополнительные ресурсы

  • О предсказании структуры белка (здесь) и проблеме сворачивания (здесь, здесь и здесь). Если вам интересна экспериментальная сторона, посмотрите эти видео (здесь, здесь)
  • О том, зачем нужны институциональные усилия с большими языковыми моделями (здесь) и укрощение языкового разнообразия с помощью ИИ (здесь)
  • О дизайне белков de-novo (видео)

если вам было интересно:

Вы можете найти другие мои статьи, вы также можете подписаться, чтобы получать уведомления, когда я публикую статьи, и вы также можете связаться со мной или связаться со мной в LinkedIn. Спасибо за вашу поддержку!

Вот ссылка на мой репозиторий Github, где я планирую собирать код, и множество ресурсов, связанных с машинным обучением, искусственным интеллектом и многим другим.