назад
20 ноября

Искусственный химик: как искусственный интеллект помогает открывать лекарства и синтезировать молекулы

«Искусственный интеллект» — тема ноября Года науки и технологий. О том, как достижения искусственного интеллекта используются в решении химических задач, рассказал Тимур Маджидов, кандидат химических наук, старший научный руководитель группы хемоинформатики и молекулярного моделирования Казанского (Приволжского) федерального университета.

Яркими достижениями в области искусственного интеллекта за последнее время стали выигрыш ИИ в настольных играх с человеком, генерация осмысленных текстов, распознавание картинок, управление автомобилями и так далее. Мы сталкиваемся с искусственным интеллектом в нашей обычной жизни, даже не подозревая об этом: FaceID, распознавание текста с картинок, поисковые и диалоговые системы, перевод текста – все это задействует ИИ, хотя и кажется нам обыденностью.

Если рассуждать о том, что является искусственным интеллектом, всплывет довольно много определений. Наиболее простое – «Машины, которые могут имитировать когнитивные функции». Все последние изобретения в этой сфере появились благодаря созданию алгоритмов, которые называются «искусственные нейронные сети», а если быть более точным — благодаря «глубокому обучению». Глубокое обучение – это очень сложные архитектуры нейронных сетей, которые «пытаются» подражать человеческому мозгу.

Наш мозг состоит из множества клеток, которые называются «нейроны». Они состоят из нескольких основных элементов: дендриты (принимают сигнал), тело клетки (принимает решение), аксон (передает сигнал) и сам сигнал. Один нейрон способен принимать только простые решения, поэтому у нейронов не было бы преимуществ, если бы их было нельзя объединять в сеть. И каждый последующий слой нейронов позволяет усложнять логику.

Как искусственный интеллект можно использовать в дизайне лекарств

Почему вообще мы беремся за лекарства? Во-первых, они спасают жизни. Так, например, пенициллин спас около 200 млн жизней. Эфавиренз – вещество, которое входит в состав препаратов против ВИЧ, – спасает миллион жизней. Во-вторых, лекарства облегчают жизнь. Лизиноприл – препарат против гипертензии – ежегодно принимает 20 млн человек. А парацетамол принимается в количестве, равном 25 млрд доз в год. В-третьих, это огромный лекарственный рынок и по совместительству прибыльный бизнес. Стоимость разработки одного препарата оценивается в $4 млрд. При этом на пути разработки препарата может произойти ряд ошибок, который приведет к прекращению проекта.

Для того чтобы найти нужное лекарство, следует подобрать молекулу, взаимодействующую с «мишенью». Идею, как сделать молекулу, воздействующую на определенный белок, более сотни лет назад предложил Эмиль Фишер. По его словам, действие простых молекул можно описать как взаимодействие ключа с замком.

На белке имеется полость некой формы, куда входит молекула, чем предотвращает, например, проникновение туда нативного лиганда. В результате то, что должен делать этот белок, не происходит. Или наоборот — молекула проникает в белок и ускоряет какие-то процессы. И еще один важный момент — молекула должна не просто действовать на нужный белок, но не испортить что-нибудь еще, не нанести вред организму.

Для создания лекарства необходимо находить «хорошие» биологические мишени, придумывать или находить молекулы с заданными свойствами, предсказывать свойства молекул и синтезировать их.

Всем перечисленным занимается хемоинформатика. Иохан Гаштайгер дал определение этой науки — «применение методов информатики для решения химических проблем».

Молекул, которые могут обладать лекарственными свойствами, невероятное количество. Крупнейшие базы содержат сотни миллионов и даже миллиарды молекул с описанными свойствами. Но теоретически лекарственными свойствами может обладать 10 в 33 степени молекул. Это чудовищная цифра.

Для разработки лекарств нужен очень умный алгоритм, который способен «найти атом в стоге сена». Возникает следующая задача: как предсказывать биологические свойства молекул?

Одним из подходящих вариантов является метод машинного обучения, также известный под аббревиатурой QSAR. Подобные методы основаны на том, что молекула и ее свойства представляется в виде некого набора чисел — вектора. Этот вектор мы передаем машине. Практика показала, что методы машинного обучения ошибаются намного реже и работают лучше, чем человек.


Вторым пунктом, благодаря которому в области дизайна лекарств очень заинтересовались нейронными сетями стала возможность строить модели напрямую на структурах молекул. То есть мы можем брать молекулярную структуру и напрямую, без расчета каких-то признаков, отправлять ее в нейронную сеть и предсказывать свойства.

Теперь, при существовании подобных моделей, есть возможность взять некоторую библиотеку виртуально доступных молекул и проскринировать через QSAR модель на наличие нужных свойств. Отсеивание неподходящих молекул посредством данной технологии существенно экономит время, так как проверить оставшиеся молекулы намного проще.

Подход виртуального скрининга сводится к тому, что мы тестируем огромное количество молекул на модели. Однако нет возможности протестировать подобным способом все существующие молекулы. Встает вопрос: как научиться предсказывать молекул под желаемые свойства, есть как с нуля создавать молекулы с определенными свойствами.

Представленная задача называется «de novo дизайн», и решить ее удалось лишь недавно — опять же, благодаря исследованиям в области искусственного интеллекта. В чем же заключается суть данного метода?

Мы берем молекулу и помещаем ее в нейронную сеть, которая впоследствии обрабатывает выбранную молекулу для дальнейшего появления ряда чисел. Полученные числа помещаются в другую нейронную сеть для воспроизведения той же самой молекулы. Если заменить нашу выборку чисел новыми векторами, то декодировщик будет генерировать новые молекулы. В итоге получается нейронная сеть, которая способна предсказывать молекулы, и наша единственная задача — осознанно давать вектора, чтобы они соответствовали определенной биологической активности.

Молекулы можно представить не только в виде чисел, но и в виде текста. Для этого существует способ SMILES. Благодаря обозначению атомов и связей между ними буквами, мы можем привлечь к работе с молекулами достижения искусственного интеллекта по обработке текстов.

Короче говоря, существует множество способов, позволяющих генерировать молекулы. В реальности же мы сталкиваемся с проблемой, что их еще необходимо синтезировать. Для этого нужно очень много знать: стратегию синтеза, условия протекания реакции, параметры синтеза, реакционное уравнение.
По сложности задача синтеза нужно молекулы похожа на шахматы: у нас есть не так много вариантов ходов, но их количество очень велико. В результате получается 10 в 120 степени вариантов партий.

При этом шахматный ИИ — Deep blue — был создан еще в 1997 году. Его задачей был простой перебор ходов и оценка степени их эффективности. Аналогичная идея была реализована в химии с программой Chematica. Она объединяет 50000 собранных человеком правил ретросинтетической трансформации.

Еще один прорыв ИИ — нейросетевой алгоритм Monte-Carlo tree search. В 2016 году основанная на нем программа впервые победила человека в го, обучившись на имеющихся играх. Затем — нейросеть продолжила играть сама с собой, и теперь это абсолютный чемпион в го, обыграть которого невозможно. Эта идея реализована и в химии — нейросеть позволяет предсказать, какое ретросинтетическое правило следует использовать. Сейчас такие алгоритмы имплементированы в базы данных. Также современные ИИ могут предсказывать продукты реакций и условия реакции.

Таким образом, у человечества есть модели, которые способны предсказывать все параметры синтеза молекул. Для последнего шага – создания полноценного робохимика – требуется аппарат для реализации всего вышеперечисленного. И для достижения поставленных задач в КФУ открылась лаборатория «Интеллектуальная химическая робототехника». Таким образом, в будущем стоит ожидать появления робоферм для осуществления простых синтезов.

Нынешние достижения в области ИИ настолько высоки, что по предположениям к 2050 году роботы будут способны выполнять любую интеллектуальную задачу, которую способен решить человек. И в этом «дивном новом мире» не будет ничего плохого.

Из лекции "Искусственный химик: как искусственный интеллект помогает открывать лекарства и синтезировать молекулы", прошедшей в рамках акции "На острие науки"Я
  • #Лекции