Нобелевский комитет 9 октября назвал лауреатов премии по химии. Как и в случае с номинацией по физике, их работа оказалась связана с применением искусственного интеллекта. Награду разделили сооснователь Google DeepMind Демис Хассабис и старший научный сотрудник компании Джон Джампер за предсказание трехмерной структуры белка, а также химик Дэвид Бейкер из Университета Вашингтона — за компьютерный дизайн белков. «Демис Хассабис и Джон Джампер успешно использовали искусственный интеллект для предсказания структуры почти всех известных белков. Дэвид Бейкер научился создавать совершенно новые белки», — заявил Нобелевский комитет. Председатель Нобелевского комитета по химии Хайнер Линке, генеральный секретарь Королевской шведской академии наук Ханс Эллегрен и член Нобелевского комитета по химии Йохан Аквист объявляют лауреатов Нобелевской премии по химии 2024. Фото: Christine Olsson / EPA-EFE / TT SWEDEN OUT.
Загадка бесконечных структур белка
Химики не одно десятилетие пытались раскрыть секреты белков, которые являются строительными «кирпичиками» живых организмов. Каждый белок состоят из 20 аминокислот, их можно комбинировать бесконечным количеством способов. Используя информацию, хранящуюся в ДНК, в качестве схемы, аминокислоты соединяются в клетках, образуя длинные цепочки. После этого цепочка аминокислот скручивается и складывается в отчетливую — и часто уникальную — трехмерную структуру. Именно эта структура и наделяет белки теми или иными функциями. Некоторые из них становятся химическими строительными блоками, из которых могут создаваться мышцы, либо превращаются в гормоны или антитела. Некоторые цепочки образуют ферменты, которые управляют химическими реакциями, отвечающими за поддержание жизнедеятельности. Отдельные болезни вызываются именно ошибочным сворачиванием белковых структур. К ним относятся, в частности, болезнь Альцгеймера, Паркинсона, кистозный фиброз и другие. Формирование структуры белка. Слева: набор аминокислот, которых могут быть десятки или даже тысячи. Справа: цепочка аминокислот, которая складывается в трехмерную структуру, закладывающую функции белка. Источник: The Royal Swedish Academy of Sciences.
В организме человека могут содержаться миллиарды разновидностей белка, а число его структур белка и вовсе может представлять собой число с 300 нулями.
Химики еще с девятнадцатого века знали, что белки важны для жизненных процессов, но только в 1950-х годах получили инструменты, позволяющие изучать их более детально. Исследователи из Кембриджа Джон Кендрю и Макс Перуц в конце 50-х первыми успешно использовали метод рентгеновской кристаллографии для представления первых трехмерных моделей белков. Они получили Нобелевскую премию по химии в 1962 году.
В 1961 году американский ученый Кристиан Анфинсен смог с применением различных химических реакций заставить белок сворачиваться и разворачиваться. При этом каждый раз структура принимала одну и ту же форму. Ученый сделал вывод, что трехмерная структура белка полностью определяется последовательностью аминокислот. В 1972 году Анфинсен также получил Нобелевскую премию по химии.
Однако логика Анфинсена содержала парадокс, на который в 1969 году указал другой американец, Сайрус Левинталь. Он подсчитал, что даже если белок состоит всего из 100 аминокислот, теоретически он может образовывать по меньшей мере 1047 различных трехмерных структур. Если бы цепочка аминокислот складывалась случайным образом, то поиск правильной структуры белка занял бы больше времени, чем существует Вселенная, но в реальности этот процесс занимает всего несколько миллисекунд. Левинталь пришел к выводу, что сворачивание белка — это предопределенный процесс, вся информация о котором присутствует в аминокислотной последовательности.
Тогда химики обратились к изучению аминокислотной последовательности белка, чтобы предсказать его трехмерную структуру. В 1994 году стартовал проект под названием «Критическая оценка прогнозирования структуры белка» (Critical Assessment of Protein Structure Prediction, CASP), который перерос в соревнование. Раз в два года исследователи со всего мира получали доступ к последовательностям аминокислот в белках, чью структуру удалось определить, но сама она держалась от них в секрете. Задача заключалась в том, чтобы предсказать структуру белка на основе известных аминокислотных последовательностей.
CASP привлек исследователей со всего мира, но решение проблемы прогнозирования оказалось невероятно трудным. „
Прорыв произошел только в 2018 году, когда в конкурсе решил принять участие эксперт в области нейробиологии и пионер искусственного интеллекта Демис Хассабис.
ИИ-шахматист для разгадки структур белков
Демис Хассабис с детства увлекался шахматами и достиг уровня мастера в 13 лет. Затем он обратился к программированию и разработке игр, начал изучать искусственный интеллект и занялся нейробиологией. Исследователь решил использовать свои знания о мозге человека для разработки более совершенных нейронных сетей. В 2010 году он стал соучредителем DeepMind, которая разработала модели ИИ для популярных настольных игр. В 2014 году компанию купила Google, а в 2016 году программа AlphaGo от DeepMind впервые победила Ли Седоля, чемпиона по игре в одну из старейших в мире настольных игр — го.
Тогда Хассабис и его команда задумались над решением более важных для человечества задач. Для CASP была разработана новая программа — AlphaFold — которая заняла на конкурсе первое место среди 98 участников. ИИ удалось правильно предсказать структуру 25 из 43 белков. Для сравнения — на втором месте оказалась команда, которой удалось правильно предсказать структуру 3 из 43 белков.
Команда научила AlphaFold определять расстояние между парами аминокислот, а также конфигурацию химической связи. Второй этап заключался в поиске наиболее энергоэффективной структуры каждого предполагаемого белка. На выполнение задачи у алгоритма уходило всего несколько часов. Однако он был еще далек от расшифровки всех структур белков. Решение 50-летней задачи сворачивания белка
Когда команда AlphaFold зашла в тупик в попытках улучшить модель, ей на помощь пришел новый сотрудник Джон Джампер. Он придумал, как использовать в работе законы физики.
Джампер увлекался физикой и математикой. В 2008 году он начал работать в компании, которая использовала суперкомпьютеры для моделирования белков и их динамики. Тогда исследователь понял, что знание физики может помочь решить медицинские задачи. В 2011 году Джампер начал писать докторскую диссертацию по теоретической физике. Чтобы сэкономить компьютерные мощности, которых не хватало в университете, он начал разрабатывать более простые и изобретательные методы моделирования динамики белков. В 2017 году, после защиты диссертации, он пришел в DeepMind и занялся реформированием модели AlphaFold.
Новая версия — AlphaFold2 — использовала нейронные сети, называемые трансформаторами. Они могут находить закономерности в огромных объемах данных и эффективно определять, на чём следует сосредоточиться для достижения конкретной цели. Модель рассматривает свернутый белок как «пространственный граф», где остатки представляют собой узлы. Для новой версии AlphaFold создали нейросетевую систему, чтобы интерпретировать структуру этого графа, одновременно рассуждая о неявном графе, который он строит. Систему обучили на общедоступных данных из 170 тысяч структур белков, вместе с большими базами данных, содержащими последовательности белков неизвестной структуры. „
AlphaFold2 дает прогнозы базовой физической структуры белка за считанные дни, а также может предсказать, какие части каждой предсказанной структуры белка являются надежными, с помощью внутреннего показателя достоверности.
В 2020 году на конкурсе CASP AlphaFold2 решила 50-летнюю задачу фолдинга белка или «проблему сворачивания». Система справилась с работой так же хорошо, как рентгеновский кристаллограф, набрав 94 балла по 100-балльной шкале точности.
В 2021 году DeepMind и Европейский институт биоинформатики опубликовали базу данных из более чем 350 тысяч трехмерных белковых структур AlphaFold. ИИ смог определить примерную трехмерную структуру всех 20 тысяч белков, которые синтезируются в клетках человека, а также 200 млн белков, которые обнаружили в живых организмах. Тогда Демис Хассабис заявил, что база данных станет ценным ресурсом для разработки новых лекарств и понимания болезней. Также исходный код алгоритма открыли для всех исследователей. В 2024 году вышла версия AlphaFold 3, которая моделирует взаимодействия ДНК и РНК, что важно для будущего открытия лекарств и их быстрого вывода на рынок. Структуры белка, которые удалось определить с помощью AlphaFold2. Источник: The Royal Swedish Academy of Sciences.
Дизайн новых белков
Дэвид Бейкер тоже принимал участие в конкурсе CASP, причем задолго до Хассабиса и Джампера. Изначально он изучал философию и социальные науки в Гарварде, однако затем увлекся эволюционной биологией. Бейкер начал изучать клеточную биологию и белковые структуры, а в 1993 году в качестве руководителя группы в Вашингтонском университете начал исследовать, как сворачиваются белки. В конце 1990-х годов исследователь занялся разработкой программного обеспечения Rosetta, способного предсказывать структуры белков.
В 1998 году он применил Rosetta для участия в соревнованиях CASP и показал хороший результат. Тогда Бейкер решил использовать программу наоборот. Вместо того чтобы вводить аминокислотные последовательности в Rosetta и получать белковые структуры, он начал задавать программе желаемую структуру белка и получать предложения по ее аминокислотной последовательности, чтобы создавать совершенно новые белки.
Область дизайна белков тогда была достаточно новой, так как она начала развиваться в конце 1990-х годов. Во многих случаях исследователи модифицировали существующие белки, чтобы они могли расщеплять опасные вещества или работать в качестве инструментов в химической промышленности. Однако ассортимент природных белков был ограничен.
Чтобы получить белки с совершенно новыми функциями, исследовательская группа Бейкера решила создавать их с нуля. Она придумала белок с совершенно новой структурой, а затем попросила Rosetta вычислить, какой тип аминокислотной последовательности может привести к его образованию. Программа нашла в базе короткие фрагменты белков, имеющие сходство с нужной структурой. Используя фундаментальные знания об энергетическом ландшафте белков, она оптимизировала эти фрагменты и предложила аминокислотную последовательность.
После этого группа Бейкера ввела ген предполагаемой аминокислотной последовательности в бактерии, которые продуцировали желаемый белок, и определила структуру белка с помощью рентгеновской кристаллографии.
Белок Top7, разработанный исследователями, имел почти такую же структуру, которую они задали программе. Кроме того, этот белок, содержащий 93 аминокислоты, был больше, чем всё, что ранее производилось дизайнерским способом. Как выглядит дизайнерский белок Top7. Источник: National Library of Medicine.
Бейкер рассказал об этой работе в 2003 году. Он также опубликовал код Rosetta для исследовательского сообщества. Теперь оно занимается дизайном совершенно новых белков, которые можно применять не только в медицине, но и для целей экологии и даже при разработке электроники. Дизайнерские белки, разработанные с использованием программы Rosetta. Источник:The Royal Swedish Academy of Sciences.