Что нового после AlphaFold в области машинного обучения для прогнозирования структуры белка?

Будет ли продолжаться революция в биологии, основанная на искусственном интеллекте? Можем ли мы ожидать нового прорыва? Что сейчас происходит в области предсказания структуры белка?

Если вас особенно интересует скользящая оценка CAMEO и знание текущего состояния предсказания структуры белка, нажмите здесь.

Если вы хотите узнать о предстоящем CASP15, о том, как AlphaFold изменила свою направленность и о своих новых задачах, нажмите здесь.

Введение

AlphaFold 2, программа на основе искусственного интеллекта, разработанная Google Deepmind для решения проблемы прогнозирования белковых структур, произвела фурор в конце 2020 года, когда «выиграла» 14-й выпуск проводимого раз в два года «конкурса» по предсказанию структуры белков под названием CASP (Critical Assessment of Structure Prediction) представил свои результаты. Затем через полгода компания Deepmind нанесла второй удар, когда Deepmind опубликовала рецензируемую статью в журнале Nature с описанием того, как работает AlphaFold 2, и опубликовала свой код открыто на GitHub и в виде записной книжки Google Colab, доступной для всех. мог бы использовать. Ажиотаж продолжал расти по мере того, как ученые разрабатывали на его основе еще более совершенные ноутбуки и находили множество применений AlphaFold, даже выходящих за рамки его первоначальной цели. Эта шумиха еще больше возросла, когда Deepmind выпустила новую версию AlphaFold, лучше подходящую для моделирования комплексов, образуемых несколькими белками при их взаимодействии. Затем снова, когда Deepmind объединила усилия с Европейским институтом биоинформатики, чтобы выпустить базу данных 3D-моделей для всех известных белков. И даже больше, когда ученые взломали AlphaFold, чтобы использовать его в обратном порядке и, таким образом, сконструировать белки, которые будут складываться по мере необходимости для выполнения определенных функций. И, наверное, даже больше, чем мне не хватает.

Вот пара статей, в которых я рассказывал об AlphaFold 2, ноутбуках, доступных для его запуска, и многих положительных направлениях, которые он открыл в биологических исследованиях:

В блокнотах Google для совместной работы уже используется Deepmind AlphaFold v. 2
Сотни ученых по всему миру уже извлекают выгоду из этого революционного программного обеспечения. И бесплатно.towardsdatascience.com

Ажиотаж вокруг AlphaFold продолжает расти благодаря этому новому препринту
Посмотрите на эту новую работу, демократизирующую доступ ко всем возможностям AlphaFold2 за счет интеграции его с мощным белком… в направлении datascience.com

Дополнительные продукты AlphaFold 2 через три месяца после официального выпуска
Обзор наиболее важных работ, связанных с AlphaFold 2 на сегодняшний день.towardsdatascience.com

А теперь, что случилось?

В конце 2020 и середине 2021 года интерес к AlphaFold был очень сильным, и второй пик не упал до 0 даже спустя несколько месяцев. Скорее, мы видим стабильную базовую линию, которую, вероятно, поддерживают многие биологи, все еще изучающие AlphaFold и то, как применить ее к ее проблемам:

Но…

Будет ли новый пик интереса, отражающий новый прорыв?

Что сейчас происходит в области прогнозирования структуры?

Новый этап конкурса по предсказанию структуры белка

Что касается первого вопроса, я думаю, что мы можем ожидать нового пика интереса, хотя и не обязательно прорыва, из-за более высокого уровня сложности новых постоянных проблем и из-за того, что в банке данных о белках меньше данных для методов ИИ, которые можно было бы использовать. Но давайте посмотрим, что говорит CASP15!

CASP только что объявил о своем следующем выпуске, номер 15, и, таким образом, приближается 30-летний юбилей оценки предсказания структуры белка (CASP1 проводится два раза в год без перерыва с 1994 года). В последнем раунде CASP, CASP14, около 100 групп со всего мира представили более 67 000 моделей по 84 целям моделирования. Как и в каждом CASP, независимые оценщики сравнили модели с экспериментально определенными структурами по различным направлениям, из которых наиболее важным является определение третичной структуры жестких мишеней (то есть тех, для которых не так много структурной информации, доступной из подобных белков). (Или мы должны сказать «был», потому что AlphaFold 2 как бы решил эту проблему?) Хотя вы можете узнать больше о CASP14 и AlphaFold 2 в моих предыдущих статьях (я был оценщиком CASP12 и CASP13, когда появился AlphaFold, так что я знаю обо всем этом из первых рук!), я хочу подчеркнуть, что организаторы CASP ожидают от CASP15.

Как я только что намекнул, весьма вероятно, что акцент сместится на предсказания четвертичной структуры, то есть на то, как несколько белков складываются вместе в трехмерном пространстве, когда они взаимодействуют друг с другом. На официальном сайте CASP (https://predictioncenter.org/casp15/index.cgi) ясно сказано, что суть CASP остается прежней: слепое тестирование методов с независимой оценкой на экспериментальных структурах для установления состояния -искусство в моделировании белков и белковых комплексов. Но если говорить более подробно, веб-сайт также раскрывает некоторые изменения в оценочных треках.

Во-первых, предсказание третичной структуры больше не будет разделяться на простые и трудные цели, что имеет смысл, учитывая, что внезапно все предсказания третичной структуры стали относительно легкими. И не только из-за AlphaFold, но и из-за других новых инструментов, которые использовали AlphaFold-подобные и другие новые методы, такие как RoseTTAFold от одного из классических лидеров CASP.

Напротив, CASP15 будет уделять особое внимание точности моделей и по-прежнему уделять пристальное внимание предсказаниям четвертичной структуры, то есть комплексов, образованных несколькими белками вместе. Хотя AlphaFold-Multimer значительно улучшил это, он еще не так надежен, как предсказание третичной структуры. Также будет уделяться повышенное внимание оценке оценок точности, ключевой особенности прогнозов AlphaFold, которую мы ожидали в нашей оценке CASP13.

CASP15 исключит некоторые категории, которые больше не имеют особого смысла. Но он сохранит оценку точности для белковых комплексов, в которой предикторы должны ранжировать модели белково-белковых комплексов, смоделированные другими.

Впервые CASP15 планирует провести эксперимент с 3 интересными случаями, которые открывают новый рубеж в предсказании структурной биологии, теперь, когда предсказания третичной структуры были пригвождены, а предсказания четвертичной структуры также значительно продвинулись: оценка моделирования молекул РНК и комплексов белок-РНК. в сотрудничестве с экспертами по РНК; моделирование комплексов между белками и малыми молекулами, что лежит в основе фармацевтики, поскольку большинство клинически значимых молекул проявляют свое действие, связываясь с белками; и прогнозирование конформационных ансамблей, т. е. нескольких моделей, объясняющих, как белки движутся в растворе, что важно, потому что до сих пор CASP фокусировался на довольно статических снимках белков, но на самом деле они очень динамичны.

Что произошло после CASP14 и AlphaFold? Данные CAMEO, скользящей оценки предсказания структуры белка

Хотя это соревнование гораздо менее популярно, чем CASP, оно также очень интересное. Это происходит автоматически, поэтому здесь не так много экспертного курирования и анализа. Но он всегда на виду и открыт для всех, чтобы изучить самую последнюю информацию о методах предсказания структуры белка.

Название CAMEO расшифровывается как Continuous Automated Model Evaluation. Вы можете посетить его главную страницу здесь:

CAMEO — непрерывная автоматизированная оценка модели — добро пожаловать
CAMEO — это общественный проект CAMEO постоянно применяет критерии оценки качества, установленные белком…www.cameo3d.org

CAMEO — это общественный проект, поддерживаемый Группой вычислительной структурной биологии при Швейцарском институте биоинформатики и Биоцентре в Базельском университете, финансируемый этими учреждениями, а также средствами Европейского Союза. CAMEO постоянно применяет критерии оценки качества, установленные сообществом специалистов по прогнозированию структуры белков, к 3D-моделям, созданным набором перечисленных серверов. Он предлагает множество оценок, оценивающих различные аспекты прогноза, такие как покрытие последовательности запросов, локальная точность, полнота и т. д.

На сегодняшний день большинство групп, участвующих в CASP, также имеют свои серверы, привязанные к CAMEO. Кроме того, CAMEO производит наивные прогнозы AlphaFold 2 для всех целей. И вы правильно догадались, он почти всегда наверху! Даже сегодня, спустя почти 1 год после официального выпуска его кода и документа, это означает, что даже вдохновленные методы, разработанные после него, не смогли его пройти. Хотя вы можете подумать, что это связано с тем, что на самом деле есть предел тому, насколько хорошими могут быть прогнозы, и AlphaFold уже настолько хорош, насколько это возможно, данные CAMEO показывают, что на самом деле многие инструменты, даже новые, не совсем на его уровне.

Вы можете самостоятельно просмотреть данные оценки на специальной странице с интерактивными графиками, где вы можете выбрать просмотр результатов только для простых, сложных или средних целей, по всем серверам или по определенным, в разные периоды времени. Вот данные по жестким целям всех групп за последние 3 месяца по состоянию на 16 апреля 2022 года:

Как вы видите справа, анализ за 3 месяца включает 9 жестких целей. На графике слева показано среднее значение LDDT по всем моделям, представленным каждой группой, в сравнении с долей целей, для которых они фактически представили модели.

Позвольте мне теперь увеличить масштаб и добавить к нему несколько аннотаций для более подробного обсуждения:

На графике я пометил некоторые ключевые имена и исполнителей, а также выделил различные серверы, которые предоставили прогнозы для всех целей, но показали плохие результаты (внизу справа), наивные прогнозы, которые можно было бы получить, просто взорвав PDB для структуры PDB с лучшей последовательностью. соответствие («Наивный BLAST»), наилучший фактически доступный структурный шаблон, даже если его невозможно получить с помощью поиска BLAST, модели извлекаются прямо из базы данных AF2-EBI (которая охватывает только определенные протеомы, поэтому небольшая доля целей покрытый).

В качестве ключевых имен и исполнителей вы найдете чистые прогнозы AF2 в правом верхнем углу, где вы и хотите быть. Обратите внимание, что наличие шаблона или его отсутствие не имеет существенного значения при запуске AF2, как уже было задокументировано. Обратите также внимание на то, что планка отклонения очень важна для него, а это значит, что есть некоторые цели, для которых AF2 не смог предсказать очень хорошие структуры (а также что для некоторых целей предсказания были отличными). Обратите также внимание на то, что RoseTTAFold, который считается ближайшим конкурентом AF2, имеет более низкий средний балл и даже не смоделировал все цели (причины этого не приводятся, но это не обязательно означает, что программа не может их обработать). Наконец, есть 3 других метода, которые показали себя довольно хорошо, даже лучше, чем RoseTTAFold, хотя и не для всех целей: PaFold, ZlxFold и HelixOnAI, все они явно новые.

Эти данные от CAMEO, кажется, предполагают довольно жесткую конкуренцию, но только для участников, занявших второе место, поскольку AF2 по-прежнему кажется лучшим. Хотя всегда могут появиться сюрпризы, например, когда сам AF дебютировал в CASP13. Более того, как объяснялось выше, CASP15 сосредоточится на мелких деталях, четвертичных структурах, лигандах и динамике, так что там тоже могут быть новые сюрпризы. Кто знает от кого.

Вот краткое изложение всех моих статей и рецензируемых работ по AlphaFold, CASP и моделированию белков.

Здесь находятся все мои рецензируемые статьи и статьи в блогах о моделировании белков, CASP и AlphaFold 2
Я собрал здесь все свои рецензируемые статьи (некоторые статьи, пара отзывы, одно мнение) и записи в блогах о…lucianosphere.medium.com

Есть для меня работа по моделированию белков, биоинформатике, дизайну белков, молекулярному моделированию или биотехнологии белков? Свяжитесь со мной здесь!

www.lucianoabriata.com Пишу и снимаю обо всем, что лежит в сфере моих широких интересов: природа, наука, технологии, программирование и т. д. Стать участником Medium , чтобы получить доступ ко всем его историям (партнерские ссылки платформы, за которые я получаю небольшой доход бесплатно для вас) и подписаться, чтобы получать мои новые истории по электронной почте. Чтобы проконсультироваться по поводу небольших вакансий, посетите мою страницу услуг здесь. Вы можете связаться со мной здесь.