МИРОВОЙ ТРЕНД ЦИФРОВИЗАЦИИ ФАРМАЦЕВТИЧЕСКОЙ ПРОМЫШЛЕННОСТИ - КОМПЬЮТЕРНАЯ РАЗРАБОТКА ЛЕКАРСТВ И РОБОТИЗАЦИЯ

Аннотация

В данной статье представлен новейший (2022-2024 гг.) взгляд
на проблемы фармакологии и фармацевтической отрасли, в которых
искусственный интеллект сыграл ключевую роль в открытии лекарств и
улучшении технологий. Несмотря на большие успехи, достигнутые в обработке
и анализе биологических и фармакологических данных, необходимо отойти от
парадигмы "одно лекарство/одна мишень", которая пока остается основой
исследований лекарственных средств. Такой переход невозможно реализовать
без внедрения новых математических, компьютерных технологий, которые
могут дать фармацевтическим компаниям шанс, который выпадает раз в
столетие, но только в том случае, если они научатся решать и масштабировать
уникальные задачи отрасли, имея в виду перспективы её роботизации.

Тип источника: Журналы
Годы охвата с 2022
inLibrary
Google Scholar
Выпуск:
306-322
0

Скачивания

Данные скачивания пока недоступны.
Поделиться
Адылова , Ф. (2025). МИРОВОЙ ТРЕНД ЦИФРОВИЗАЦИИ ФАРМАЦЕВТИЧЕСКОЙ ПРОМЫШЛЕННОСТИ - КОМПЬЮТЕРНАЯ РАЗРАБОТКА ЛЕКАРСТВ И РОБОТИЗАЦИЯ. Цифровая экономика, 8(8), 306–322. извлечено от https://inlibrary.uz/index.php/digital-economy/article/view/112021
Фатима Адылова , Институт математики им. В. И. Романовского АН Республики Узбекистан
Доктор технических наук, профессор, руководитель лаборатории
0
Цитаты
Crossref
Сrossref
Scopus
Scopus

Аннотация

В данной статье представлен новейший (2022-2024 гг.) взгляд
на проблемы фармакологии и фармацевтической отрасли, в которых
искусственный интеллект сыграл ключевую роль в открытии лекарств и
улучшении технологий. Несмотря на большие успехи, достигнутые в обработке
и анализе биологических и фармакологических данных, необходимо отойти от
парадигмы "одно лекарство/одна мишень", которая пока остается основой
исследований лекарственных средств. Такой переход невозможно реализовать
без внедрения новых математических, компьютерных технологий, которые
могут дать фармацевтическим компаниям шанс, который выпадает раз в
столетие, но только в том случае, если они научатся решать и масштабировать
уникальные задачи отрасли, имея в виду перспективы её роботизации.


background image

306

SUN’IY INTELLEKT

“RAQAMLI IQTISODIYOT” ILMIY-ELEKTRON JURNALI | 8-SON

WWW.INFOCOM.UZ

МИРОВОЙ ТРЕНД ЦИФРОВИЗАЦИИ ФАРМАЦЕВТИЧЕСКОЙ

ПРОМЫШЛЕННОСТИ

-

КОМПЬЮТЕРНАЯ РАЗРАБОТКА ЛЕКАРСТВ

И РОБОТИЗАЦИЯ

Адылова Фатима Туйчиевна

Институт математики им. В. И. Романовского АН Республики Узбекистан,

доктор технических наук, профессор, руководитель лаборатории

fatadilova@mathinst.uz

Аннотация:

В данной статье представлен новейший (2022

-2024

гг.) взгляд

на проблемы фармакологии и фармацевтической отрасли, в которых

искусственный интеллект сыграл ключевую роль в открытии лекарств и

улучшении технологий. Несмотря на большие успехи, достигнутые в обработке

и анализе биологических и фармакологических данных, необходимо отойти от

парадигмы "одно лекарство/одна мишень", которая пока остается основой

исследований лекарственных средств. Такой переход невозможно реализовать

без внедрения новых математических, компьютерных технологий, которые

могут дать фармацевтическим компаниям шанс, который выпадает раз в

столетие, но только в том случае, если они научатся решать и масштабировать

уникальные задачи отрасли, имея в виду перспективы её роботизации.

Ключевые слова

:

полифармакология, мультимодальное молекулярное

моделирование, искусственный интеллект, большие данные, робототехника.

FARMATSEVTIKA SANOATINI RAQAMLASHTIRISHNING GLOBAL

TENDENTSIYASI - DORI VOSITALARINI KOMPYUTER YORDAMIDA

ISHLAB CHIQISH VA ROBOTLASHTIRISH

Adilova Fotima To‘ychiyevna

V. I. Romanovskiy nomidagi Matematika Instituti O‘zbekiston Respublikasi Fanlar

Akademiyasi, texnika fanlari doktori, Professor, Laboratoriya rahbari

fatadilova@mathinst.uz

Annotatsiya:

ushbu maqola farmakologiya va farmatsevtika sanoati

muammolariga eng yangi (2022-2024) qarashni taqdim etadi, bunda sun’iy intellekt
dori-darmonlarni kashf qilish va texnologiyani takomillashtirishda muhim rol
o‘ynagan. Biologik va farmakologik ma’lumotlarni qayta ishlash va tahlil qilishda
erishilgan katta yutuqlarga qaramay, “bitta dori/bitta maqsad” paradigmasidan


background image

307

SUN’IY INTELLEKT

“RAQAMLI IQTISODIYOT” ILMIY-ELEKTRON JURNALI | 8-SON

WWW.INFOCOM.UZ

uzoqlashish kerak, bu hozirgacha dori-darmonlarni tadqiq qilishning asosi bo‘lib
qolmoqda. Bunday o‘tishni farmatsevtika kompaniyalariga asrda bir marta tushadigan
imkoniyatni berishi mumkin bo‘lgan yangi matematik, kompyuter texnologiyalarini
joriy qilmasdan amalga oshirish mumkin emas, lekin agar ular sanoatning o‘ziga xos
muammolarini hal qilishni va kengaytirishni o‘rgansalar, uni robotlashtirish
istiqbollarini hisobga olgan holda.

Kalit so‘zlar:

polifarmakologiya, multimodal molekulyar modellashtirish,

sun’iy intellekt, katta ma’lumotlar, robototexnika.

THE GLOBAL TREND OF DIGITALIZATION OF THE

PHARMACEUTICAL INDUSTRY IS COMPUTER-BASED DRUG

DEVELOPMENT AND ROBOTIZATION

Adilova Fatima Tuychievna

V. I. Romanovsky Institute of Mathematics of the Academy of Sciences of the Republic

of Uzbekistan, Doctor of Technical Sciences, Professor, Head of the Laboratory

fatadilova@mathinst.uz

Abstract:

This article presents the latest (2022-2024) look at the problems of

pharmacology and the pharmaceutical industry, in which artificial intelligence played
a key role in drug discovery and technology improvement. Despite the great successes
made in the processing and analysis of biological and pharmacological data, it is
necessary to move away from the "one drug/one target" paradigm, which remains the
basis for drug research. Such a transition cannot be realized without the introduction
of new mathematical and computer technologies that can give pharmaceutical
companies a once-in-a-century chance, but only if they learn how to solve and scale
the unique tasks of the industry, bearing in mind the prospects for its robotization.

Keywords:

polypharmacology, multimodal molecular modeling, artificial

intelligence, big data, robotics.

ВВЕДЕНИЕ

Химическая информатика или хемоинформатика на практике используется

уже более 40 лет. Эта область прикладной науки включает в себя большое

количество вычислительных методов с перекрывающимися приложениями в

ряде различных областей [1]. Алгоритмы машинного обучения широко

используются при разработке лекарств [2], что включает в себя подбор

соединений, высокопроизводительный скрининг виртуального пространства,

интеллектуальный анализ данных, моделирование «структура

-

активность»

(QSAR) и компьютерное (in silico) прогнозирование. DMPK (Drug Metabolism &


background image

308

SUN’IY INTELLEKT

“RAQAMLI IQTISODIYOT” ILMIY-ELEKTRON JURNALI | 8-SON

WWW.INFOCOM.UZ

PharmacoKinetics) -

ключевая дисциплина в разработке лекарственных средств,

важными функциями которой являются:

-

Параллельная оптимизация активности, селективности и свойств

соединения.

Особое внимание уделяется надежности моделей;

-

Парадокс соотношения производительности и структурного

разнообразия

. По мере увеличения структурного разнообразия набора

соединений вероятность разработки эффективной модели

QSAR

уменьшается;

-

Путь от интеллектуального анализа данных к открытию знаний

.

Известны этапы обнаружения знаний в базах данных, но большие объемы

данных требуют более эффективных способов извлечения знаний одновременно

из нескольких разнородных баз данных.

Важность полифармакологии в разработке лекарственных средств привела

к всплеску интереса к идентификации мишени (

target ID

). Однако сохраняются

значительные трудности в широком распространении полифармакологии,

которая сегодня является одним из прорывных направлений в разработке

лекарств. В данной работе мы обсудим новые подходы к разработке ключевых

компонентов цифровизации фармацевтической отрасли,

-

баз данных,

мультимодальных моделей прогноза активности соединений в разработке

лекарств, роботизации отрасли.

Новейшие модели в разработке лекарственных средств базы данных

Базы данных представляют собой важный источник информации и знаний,

и, как правило, создаются для конкретных целей. Для эффективного

использования содержащихся в них данных требуются методы

интеллектуального анализа. Как наилучшим образом воспользоваться

последними достижениями в области искусственного интеллекта (ИИ), чтобы

генерировать, форматировать и распространять данные, чтобы обеспечить

будущие прорывы в разработке лекарств?

Совсем недавно группой из 24 международных экспертов из

государственного и частного секторов была опубликована дорожная карта в

анализе данных для открытых научных организаций [3]. Надежное управление

данными требует наличия точных онтологий и стандартизированной

терминологии, в то время как централизованная архитектура баз данных

облегчает их интеграцию в наборы данных. Автоматизация лабораторий и

использование электронных лабораторных ноутбуков для интеллектуального

анализа данных расширяют границы обмена данными и их моделирования.

Важные соображения при построении надежной системы машинного обучения

модели включают прозрачную и воспроизводимую обработку данных, выбор

наиболее подходящего представления данных, определение правильных наборов

для обучения и тестирования, а также оценку неопределенности прогноза.


background image

309

SUN’IY INTELLEKT

“RAQAMLI IQTISODIYOT” ILMIY-ELEKTRON JURNALI | 8-SON

WWW.INFOCOM.UZ

Помимо обмена данными, облачные вычисления могут быть использованы для

создания и распространения моделей машинного обучения.

Ставится цель создать к 2035 [4] году химические модуляторы для всех

белков человека, пригодных для употребления в медицинских целях. Эта

инициатива, получившая название

Target

2035, обоснована тем, что будут

разработаны инструменты для изучения функциональной геномики и выявления

новых мишеней, а искусственный интеллект (ИИ) может стать ускорителем

достижения

этой сверхамбициозной цели. Однако ИИ может выполнить это

обещание только в том случае, если будет возможность машинного обучения на

больших, надежных и интерпретируемых наборах данных

[5].

В январе

-

феврале 2023 года рабочая группа ученых из консорциума по

структурной геномике (SGC),

организации многонационального научного

государственно

-

частного партнерства, направленное на достижение цели 2035,

обсудила эффективные механизмы, позволяющие использовать науку о данных

для обнаружения и оптимизации очень важной концепции в хемоинформатике,

а именно, понятия сходства. Этот документ содержит стратегические и

оперативные рекомендации для SGC до 2035 года, которые позволят

использовать прогресс в области научных данных для разработки лекарств.

Одним

из

потенциальных

преимуществ

создания

единого

информационного центра является единая, надежная архитектура базы данных,

которая может быть доступна организациям для использования. Важно

отметить, что схема данных быть совместима с

известными хранилищами,

такими как

ChEMBL

5. Агрегирование и согласование больших наборов данных,

чтобы сделать их пригодными для анализа, является сложным, длительным и

подверженным ошибкам процессом [6].

Чтобы облегчить анализ данных, связанных с

Target

2035, можно

использовать облачные сервисы. Более традиционный способ работы с данными

“Data2 Model” (s

библиотека Python) заключается в загрузке данных из

хранилища и их анализе с помощью локальной инфраструктуры [7]. Поскольку

объем данных может достигать нескольких терабайт, их трудно переносить

данные туда, где выполняется анализ, и потому лучше всего переносить код

анализа на место, где хранятся данные (

Model2Data

) [7]. Это стало возможным

благодаря внедрению масштабируемых облачных платформ, таких как

Google

Cloud

, сервисы

AmazonWeb

и

Microsoft Azure

, где ресурсы обработки данных

могут быть подключены к базам хранения данных для интенсивного анализа без

их перемещения.

Большая часть информации, которую можно почерпнуть из баз данных о

лекарственных средствах, в значительной степени зависит от того, как в них

представлены молекулы. Представления о физико

-

химических свойствах или


background image

310

SUN’IY INTELLEKT

“RAQAMLI IQTISODIYOT” ILMIY-ELEKTRON JURNALI | 8-SON

WWW.INFOCOM.UZ

структурных особенностях молекул играют ключевую роль во многих аспектах

исследований, поскольку они обеспечивают основу для идентификации молекул,

которые являются химически или структурно похожими (или непохожими).

Будет ли простое, или сложное молекулярное представление более подходящим

для данной задачи, сильно зависит от данных обучения и требует тщательной

оценки в каждом конкретном случае для получения быстрой и точной модели.

Нейронные сети могут изучать сложные представления данных

посредством последовательных нелинейных преобразований входных данных.

Недостатком такой гибкости является то, что эти модели более чувствительны к

описаниям, находящимся за пределами области применимости [8] и уменьшают

точность модели. По этой причине модели глубокого обучения часто не дают

надежных оценок достоверности своих прогнозов. Так ли это? Ниже будут

представлены три новых модели, которые дадут ответ на эту критику.

ОБЗОР ЛИТЕРАТУРЫ

MolPROP.

Предварительно обученные модели глубокого обучения,

самостоятельно работающие на больших наборах данных языковых, графовых и

визуальных представлений, демонстрируют адаптивность в различных

приложениях, включая чат

-

боты, и сворачивание белков. Дополнительные

исследования сегодня направлены на повышение их производительности за счет

объединения многомерных представлений разных данных. В работе [9]

исследуется новое сочетание предварительно обученной языковой модели

ChemBERTa-

2 с графовыми нейронными сетями для решения задачи

прогнозирования молекулярных свойств. Вначале набор моделей MolPROP

тестируется на семи сетевых наборах из базы данных MoleculeNet и сравнивается

с другими современными архитектурами. Было обнаружено, что:

(1)мультимодальное предсказание свойств малых молекул может

соответствовать современным архитектурам или значительно их превосходить

по эффективности использования энергии, свободной от гидратации (FreeSolv),

экспериментальной растворимости в воде (ESOL), липофильности (Lipo) и

клинической токсичности (ClinTox); (2) мультимодальное слияние Mol

-PROP

особенно полезно при решении задач регрессии; (3)модель замаскированного

языка ChemBERTa

-

2 в задаче предварительного обучения модели (masked

language model, MLM) превзошла многозадачную задачу

предварительного

обучения регрессии (multitask regression pretraining task, MTR) при объединении

с графовыми нейронными сетями для прогнозирования мультимодальных

свойств, и (4) несмотря на улучшения, достигнутые благодаря

мультимодальному объединению в задачах регрессии, MolPROP значительно

уступает в некоторых задачах классификации.


background image

311

SUN’IY INTELLEKT

“RAQAMLI IQTISODIYOT” ILMIY-ELEKTRON JURNALI | 8-SON

WWW.INFOCOM.UZ

Программа

MolPROP

доступна

по

адресу:

https://github.com/merck/MolPROP.

Набор моделей MolPROP

предназначен для

изучения синергии языка и графов в задаче прогнозирования свойств молекул.

Задачи

MolPROP

охватывают задачи классификации и регрессии

-

от квантово

-

механических свойств молекул, таких как энергия распыления, до качественных

физиологических показателей, таких как клиническая токсичность.

Наборы данных для задач классификации

включают ингибирующее

связывание

секретазы

человека

(

BACE

),

проникновение

через

гематоэнцефалический барьер (

BBBP

) и клиническую токсичность (

ClinTox).

Наборы данных разделены на обучающие, валидационные и тестовые наборы

(80/10/10) в соответствии с процедурой разделения на каркасы Bemis

-

Murko от

DeepChem

, разработанной таким образом, чтобы они были сложными,

реалистичными и сопоставимыми с другими опубликованными моделями.

Наборы данных для задачи регрессии

(прогноза) включают энергию, свободную

от гидратации (FreeSolv), экспериментальную растворимость в воде (ESOL),

липофильность (Lipo) и энергию квантово

-

механического распыления (QM7).

МЕТОДОЛОГИЯ

Ансамбли моделей обучаются путем случайного 10

-

кратного разделения,

обучающего/валидационного набора для оценки неопределенности в тестовом

наборе. Набор моделей

MolPROP

включает в себя две предварительно

обученные языковые модели

ChemBERTa-2 (MLM

и

MTR) [

10], объединенные с

двумя архитектурами графовых нейронных сетей (

GCN

и

GATv2)

[11,12], что

дает в общей сложности четыре модели. Модели

MolPROP

были протестированы

на семи наборах данных

MoleculeNet

[13]. Разбиения и потери при обучении

были определены в соответствии с их показателями в литературе, чтобы

обеспечить справедливое сравнение с современными архитектурами. Все 4

модели оптимизированы по гиперпараметрам с использованием алгоритма

BOHB

[14] и обучены в течение 50 эпох. Модели

MolPROP

значительно

превосходят современные архитектуры, такие как

Chemprop

[15] и

MolCLR [16]

по энергии, свободной от гидратации (

FreeSolv

), экспериментальной

растворимости в воде (

ESOL

) и клинической токсичности (

ClinTox).

Однако модели

MolPROP

значительно уступают по энергии квантово

-

механического распыления (

QM

7), ингибирующему связыванию секретазы

человека (

BACE

) и проникновению через гематоэнцефалический барьер (

BBBP).

Модель MRL-Mol.

В настоящее время большинство моделей глубокого

обучения для прогнозирования молекулярных свойств разработаны так, чтобы

использовать единый механизм обработки данных разного вида:

последовательности, графов или изображений, полученных из 2D моментальных


background image

312

SUN’IY INTELLEKT

“RAQAMLI IQTISODIYOT” ILMIY-ELEKTRON JURNALI | 8-SON

WWW.INFOCOM.UZ

снимков молекулярных структур [17]. Модель MRL

-

Mol объединяет три

модальные сети, специально разработанные для графов, изображений и

последовательностей, позволяя извлекать информацию представления из этих

сложных модальностей данных. Цель состоит в том, чтобы повысить точность и

эффективность прогнозирования молекулярных свойств на основе системы

обучения глубокому мультимодальному представлению. В чем отличие и

преимущества модели MRL

-Mol

по сравнению с современными методами

обработки данных? Приведем три основных:

• MRL-Mol

объединяет три сети передачи данных, каждая из которых

предназначена для конкретного способа передачи данных.

• В отличие от современных методов, использующих неконтролируемое

или самоконтролируемое предварительное обучение, в

MRL-Mol

используется

метод контролируемого предварительного обучения с псевдометками,

генерируемыми на основе кластеризации

K-

средних [18], отпечатков молекул

MACCS

[19,20]. Эта процедура помогает

MRL-Mol

получить ценную

информацию об особенностях и структуре молекул.

• MRL-Mol

обеспечивает более высокую производительность по

сравнению с современными методами, несмотря на предварительное обучение

на меньшем наборе данных.

MRL-Mol

включает в себя три ключевых этапа (см. рис. 1): 1.

O

бработка

данных, которая преобразует входные формулы SMILES в молекулярные

изображения, последовательности и графики. 2. Интеграция модальностей, при

которой используются три сети модальностей для извлечения богатых

информацией представлений из каждой модели данных и их интеграции с

использованием метода позднего слияния. 3. Обучение и прогнозирование,

которое использует крупномасштабный набор данных для предварительной

подготовки, позволяющий MRL

-

Mol извлекать полезные закономерности из

различных методов обработки данных и выполнять последующую тонкую

настройку для прогнозирования молекулярных свойств.

На этапе обработки данных формулы входных молекул преобразуются в

каждую модальность (см. рис. 1а): RDKit [21] даёт 2

-

мерную модальность

SMILES, исходя из чего молекулярное изображение генерируется путем

рисования атомов и химических связей на основе представленных двумерных

координат. Одновременно строится молекулярный граф,

кодированием атомов в

узлах графа и соединением атомов ребрами внутри графа. Молекулярная

последовательность получается путем выделения строк SMILES и кодирования

ее в целые числа с помощью эмбеддинга.


background image

313

SUN’IY INTELLEKT

“RAQAMLI IQTISODIYOT” ILMIY-ELEKTRON JURNALI | 8-SON

WWW.INFOCOM.UZ

Рисунок 1: Структура MRL

-Mol. a.

Обработка данных.

b.

Интеграция

методов.

c.

Обучение и прогнозирование

Затем три сети модальностей обучают и объединяют эти представления,

используя методы позднего слияния (см. рис. 1б). В мультимодальных моделях

позднего слияния используются отдельные подмодели, каждая из которых

предназначена для работы с определенной модальностью. Эти подмодели

генерируют представления объектов для соответствующих модальностей, и

объединение этих представлений объектов происходит непосредственно перед

окончательным прогнозированием

[22].

Чтобы модель

MRL-Mol

могла воспринимать информацию о между

-

и

внутри модальных параметрах, извлекая представления, и делать точные

прогнозы, применяют стратегию предварительного обучения и точной

настройки (см. рис. 1с).

Для оптимизации обучаемых параметров в задачах

регрессии используется функция потерь среднеквадратичной ошибки (MSE) с

обратным распространением, а в задачах классификации используют функцию

потери перекрестной энтропии с обратным распространением для оптимизации

обучаемых параметров. Чтобы максимизировать преимущества, получаемые от

предварительной подготовки MRL

-

Mol, применяют методологию из [23] для

точной настройки

MRL-Mol

на последующих наборах данных.

Модель

MSSL2drug.

Сегодня много архитектур глубокого обучения,

которые работают с обычными данными, например, 2

D-

изображениями и

текстовыми последовательностями, и не очень хорошо подходят для графовых

данных (например, для сетей Drug

-Drug Interaction - DDI

и

Drug-Target Interaction

- DTI

), хотя в реальности биомедицинские данные часто формируются в виде

графов или сетей. В частности, биомедицинские гетерогенные сети (

BIOHN),


background image

314

SUN’IY INTELLEKT

“RAQAMLI IQTISODIYOT” ILMIY-ELEKTRON JURNALI | 8-SON

WWW.INFOCOM.UZ

объединяющие несколько типов источников данных, широко используются в

исследованиях, поскольку хорошо подходят для моделирования сложных

взаимодействий в биологических системах. Графические нейронные сети (

GNN)

[24-26] —

архитектуры глубокого обучения, специально разработанные для

подходов к поиску лекарств на основе графовых нейронных сетей, позволяют

получать высокоточные прогнозы, но большинство существующих методов

сильно зависят от размера обучающих выборок, к тому же маркировка данных

является дорогостоящей и отнимает много времени. Поэтому эти графические

модели глубокого обучения, основанные на крупномасштабных маркированных

данных, могут оказаться просто неудачными в реальных сценариях разработки

лекарств.

Self-supervision representation learning (SSL) -

многообещающая

парадигма для решения вышеуказанных проблем. В

SSL

модели глубокого

обучения обучаются с помощью предварительных задач, где обучение

представлению с самоконтролем заставляет модели создавать обобщенные

представления для достижения более высокой производительности. После

огромного успеха

SSL

в области компьютерного зрения [27,28] и обработки

данных на естественном языке [29

-

30], модели

SSL

, построенные на

BioHNs,

привлекают все большее внимание и успешно применяются для разработки

лекарственных препаратов ]31

-34].

Однако, большинство существующих методов часто разрабатывают одну

задачу

SSL

для обучения графовых сетей, что приводит к одной задаче,

игнорируя при этом много перспективные характеристики

BIOHN

. Чтобы

справиться с потенциальным узким местом в

SSL-

приложениях, управляемых

одной задачей, было предпринято несколько попыток использовать несколько

SSL-

задач для облегчения поиска лекарств [35

-

37]. Эти методы направлены на

интеграцию преимуществ различных типов задач

SSL

с помощью

многозадачных парадигм обучения; однако в большинстве предыдущих

подходов обучение

GNN

проводилось в соответствии с фиксированной

совместной стратегией, предусматривающей выполнение нескольких задач, и не

фокусировалось на различиях между комбинациями многозадачности. В то же

время редко изучался вопрос о том, какие стратегии сочетания могут обеспечить

наиболее эффективные улучшения. Многозадачные

SSL-

методы, основанные на

BioHNs

для разработки лекарств, все еще находятся на начальных стадиях, и

срочно необходимы более систематические исследования.

В [38]

построена модель многозадачных совместных стратегий

SSL

в

биомедицинских сетях для поиска лекарств (

MSSL2drug

). Основываясь на трех

модальных свойствах (структуры, семантика и признаки в

BioHNs

), решены

шесть задач, для оценки влияния различных моделей

SSL

на поиск лекарств, в

которых оцениваются пятнадцать совместных многозадачных стратегий с


background image

315

SUN’IY INTELLEKT

“RAQAMLI IQTISODIYOT” ILMIY-ELEKTRON JURNALI | 8-SON

WWW.INFOCOM.UZ

помощью модели многозадачного состязательного обучения. Удалось показать,

что, во

-

первых, комбинации мультимодальных задач демонстрируют более

высокую эффективность по сравнению с другими многозадачными стратегиями,

и, во

-

вторых, модели локально

глобального сочетания, как правило, дают

лучшие результаты по сравнению со случайными комбинациями задач при

одинаковом количестве вариантов выполнения.

На основе результатов эксперимента авторы делают два важных вывода:

(1) комбинации мультимодальных задач

SSL

позволяют достичь самых

современных результатов в области поиска лекарств; (2) совместное обучение

локальным и глобальным задачам

SSL

превосходит случайные комбинации двух

задач

SSL

при наличии существует одинаковое количество модальностей.

Ещё раз подчеркнем новизну,

-

разрабатывают задачи с самоконтролем,

основываясь на знании различных модальностей, включая структуры, семантику

и атрибуты в

BioHNs

; поэтому существует до трех моделей комбинирования

одно

-

модальностей, что приводит к более высокой производительности, чем

случайные комбинации двух задач

SSL

при одинаковом количестве

модальностей. Поэтому можно предположить, что стратегии сочетания

локального и глобального можно рассматривать как эффективное руководство

для многозадачного подхода к поиску лекарств.

Модель SALSA сходство молекулярных графов.

Во всех трех выше

представленных моделях, как

и во многих других моделях до сих пор остается

неразрешенной проблема оценки сходства молекул. В работе [39] предлагается

новый семантически осведомленный латентный пространственный автоэнкодер

(Semantically-Aware

Latent

Space

Autoencoder,

SALSA

), трансформер

-

автоэнкодер, модифицированный с помощью контрастной задачи, специально

предназначенной для изучения сходства между молекулами от графа к графу.

Отличие нового подхода к оценке сходства иллюстрирует рисунок 2.

Формально контрастная задача состоит в том, чтобы отобразить

структурно похожие молекулы на соседние коды в латентном пространстве. При

разработке лекарств изучение семантики, лежащей в основе молекулярных

данных, представляет собой интересную задачу для глубокого обучения.

Эффективное изучение семантики необходимо для успешного решения

ключевых задач, таких как предсказание свойств и генерация de novo [40].

Однако из

-

за неоднозначного характера молекулярных представлений модели

часто не в состоянии адекватно охватить лежащую в их основе семантику, что

приводит к несвязности латентного пространства. В случае молекулярных

данных семантика часто зависит от задачи, но может сводиться к различным

возникающим химическим свойствам, неразрывно связанным с молекулярной

структурой или расположением составляющих ее атомов и связей [41].


background image

316

SUN’IY INTELLEKT

“RAQAMLI IQTISODIYOT” ILMIY-ELEKTRON JURNALI | 8-SON

WWW.INFOCOM.UZ

Поскольку молекулярная структура может быть зафиксирована в виде графа,

семантика, управляющая химическими многообразиями, может быть определена

сходством между графами (т.е. структурным сходством) между молекулами;

далее мы утверждаем, что расстояние редактирования графа (graph edit distance

GED) определяет семантически значимую единицу изменения между

молекулярными объектами.

Рисунок 2: Дана некоторая молекула (А). Рассматривают три молекулы,

графы которых структурно схожи и представляют собой единый граф,

отредактированный из (А). Наивный автоэнкодер сопоставляет эти

похожие молекулы со скрытыми кодами различной близости: (1)

сопоставляется близко к (А), в то время как (3) отображается далеко от (А).

В отличие от этого, предложенный нами автоэнкодер SALSA изучает

семантически организованное пространство таким образом, что

структурно сходные молекулы в совокупности отображаются в

близлежащие коды (по расстоянию Евклида)

Базовая архитектура SALSA основана на парадигме

трансформера

-

кодировщика в сочетании с авторегрессионным декодером. SALSA оперирует

последовательностями SMILES, соответствующими химическим графам. В

исходную архитектуру трансформера вводят уровень объединения и

последующий уровень повышения дискретизации (интерполяции) между

кодировщиком и декодером, и таким образом создают структуру автоэнкодера.

Авторы показали, что SALSA создает более семантически обоснованные

интерполяции и неявно раскрывает физико

-

химические свойства, выявляя более

широкий контекст скрытой организации.


background image

317

SUN’IY INTELLEKT

“RAQAMLI IQTISODIYOT” ILMIY-ELEKTRON JURNALI | 8-SON

WWW.INFOCOM.UZ

Хотя в этой работе семантику определили как структурное сходство между

молекулами, парадигма SALSA может быть применена к любой нужной

семантике для конкретной задаче, основанной на x

-

сходстве между y

-

данными.

Это подтверждает, что SALSA потенциально может быть применена к разным

типам данных в различных областях.

Вышеописанные модели нуждаются в поддержке аппаратных средств,

каковыми в последнее время стали различные роботы. Приведем несколько

коротких замечаний на эту серьезную тему, требующую отдельного анализа,

который выходит за рамки данной статьи.

Рaботы в фармацевтической промышленности

В фарминдустрии робототехника играет жизненно важную роль в сложных

процессах исследований, разработок, производства и упаковки. Обоснование

использования роботов варьируется от повышения безопасности работников до

повышения качества [42].

Ускорение процесса разработки лекарств,

-

еще одно преимущество

робототехники. Ряд производителей роботов выпускают продукцию, специально

разработанную для этой отрасли [43].

Перечислим

области применения роботов:

-

Исследования и разработки

. Роботы играют важную роль в разработке

новых лекарств. Например, технология высокопроизводительного скрининга

(H.T.S.) тестирует миллионы соединений, чтобы определить, какие из них могут

стать новыми лекарствами. Для тестирования миллионов соединений

необходимо использовать робототехнику, которая значительно ускоряет этот,

как и другой процесс, в котором робот заменяет человека, выполняющего любую

повторяющуюся задачу.

-

Лабораторная робототехника.

Робот позволяет сосредоточить людей на

отборе образцов и их представлении, а также на изучении полученных данных.

Желаемыми результатами роботизации являются улучшение качества данных и

сокращение расходов. С её помощью новые экспериментальные процедуры

избавляют человека от рутины и ошибок в расчетах. Это включает в себя

эксперименты по радиоактивному, флуоресцентному и люминесцентно

-

светящемуся анализу. Три наиболее распространенные геометрии лабораторных

роботов: декартова (три взаимно перпендикулярные оси); цилиндрическая (рука

параллельного действия, вращающаяся вокруг центральной точки); и

антропоморфная (многосуставчатая, человекоподобная конфигурация).

Большинство

роботов

имеют

встроенные

контроллеры,

которые

взаимодействуют с программируемыми логическими контроллерами других

машин или с персональными компьютерами, подключенными к сети для

создания самой сети и графических интерфейсов пользователя.


background image

318

SUN’IY INTELLEKT

“RAQAMLI IQTISODIYOT” ILMIY-ELEKTRON JURNALI | 8-SON

WWW.INFOCOM.UZ

-

Системы визуального контроля.

Система визуального контроля является

ценным инструментом для определения точности текста и графики на

фармацевтической и медицинской упаковке. Главным преимуществом, которое

дает добавление робота в систему визуального контроля, является скорость.

Проверка упаковки роботом занимает менее двух минут, а осмотр упаковки

одним оператором и проверка вторым, может занять от 30 минут до часа.

-

Гибкая подача.

Роботы лучше, чем жесткая автоматизация справляются с

гибкой подачей, которая включает в себя обработку нескольких типов продуктов

или упаковок с изменяющейся ориентацией.

ОБСУЖДЕНИЕ И РЕЗУЛЬТАТЫ

Модель мультимодального слияния MolPROP лучше подходит для задач

регрессии. Следовательно, объединение мультимодальных представлений

может повысить производительность для прогнозирования молекулярных

свойств, и эти улучшения будут продолжены благодаря развитию моделей

молекулярного языка. Существуют дополнительные возможности для

улучшения алгоритмического объединения молекулярных графов и языковых

представлений, особенно для задач классификации.

В ходе тщательной оценки была определена эффективность модели MRL

-

Mol в шести различных наборах данных для прогнозирования молекулярных

свойств, охватывающих как задачи и регрессии, что продемонстрировало её

превосходство над современными методами прогнозирования молекулярных

свойств на основе изображений, последовательностей и графов. Благодаря

всесторонним сравнениям и анализу MRL

-

Mol убедительно демонстрирует

существенное улучшение, достигнутое за счет интеграции этих трех типов

данных. Несомненно, что этот инновационный подход представляет собой

значительный шаг вперед в разработке лекарств за счет использования синергии

различных мультимодальных данных.

Результаты тестирования модели MSSL2drug показывают, что можно

обеспечить более высокую производительность в различных наборах данных и

сценариях. MSSL2drug и шесть базовых показателей были оценены при

различных соотношениях разделения между обучающим и тестовым наборами,

из которого видно, что эффективность всех методов снижается, если есть всего

несколько обучающих выборок. В частности, когда соотношение обучающих и

тестовых наборов составляет 5:95 или 10:90, все методы дают плохие результаты

для прогнозирования DDI и DTI

-

коэффициентов. Интересно, что

производительность MSSL2drug не сильно колеблется и превосходит базовые

показатели для различных объемов обучающих наборов. Эти говорит о том, что


background image

319

SUN’IY INTELLEKT

“RAQAMLI IQTISODIYOT” ILMIY-ELEKTRON JURNALI | 8-SON

WWW.INFOCOM.UZ

большинство существующих методов зависят от небольшого объёма данных, в

то время как MSSL2drug может частично преодолеть это ограничение.

Два раздела статьи,

-

платформа

SALSA

и применение роботов в

фармацевтической промышленности являются важными и применимы в любой

из трех описанных выше моделей.

SALSA –

платформа, которая показывает новый взгляд на очень старую

проблему оценки сходства химических соединений в компьютерной разработке

лекарств. Впервые вводится понятие семантически значимых скрытых

представлений. В частности, речь идет о молекулярных представлениях,

основанных на структурном сходстве между молекулами. С этой целью

построили модель и определили показатель локального структурного знания в

скрытом пространстве. Кроме того, SALSA создает более семантически

обоснованные интерполяции и неявно раскрывает физико

-

химические свойства,

выявляя более широкий контекст скрытой организации.

Робототехника, которая появилась как новая и передовая область в

фармацевтике, приобрела большую популярность в фармацевтической

промышленности. Робототехника присутствует в фарминдустрии уже более двух

десятилетий. Будущее всегда трудно предсказать, но оно будет определяться

технологическими разработками, например,

ИИ, коммерческими факторами и

изменениями в самой фармацевтической промышленности. Поскольку

конечным пользователям вряд ли удастся заменить существующее оборудование

для взаимодействия с робототехническими системами, производителям

необходимо найти способ решения этой проблемы. Ожидается, что внедрение

контроллеров с открытой архитектурой позволит решить эту проблему.

ЗАКЛЮЧЕНИЕ

Новизна данного аналитического обзора состоит в том, что впервые

представлены новые методы мультимодального моделирования в химической

информатике. Суть подхода простая,

-

в построении модели прогнозирования

использовать не один, а несколько источников представления исходных данных.

При этом должны модифицироваться базовые показатели оценки адекватности

моделей, построенных на языковых, графовых и видео моделях химических

соединений.

Набор моделей

MolPROP

для прогнозирования молекулярных свойств

использует мультимодальное представление, состоящее из предварительно

обученных языковых

и графовых нейронных сетей. MRL

-

Mol объединяет три

различных метода обработки данных, основанных на изображениях,

последовательностях и графах, каждая из которых соответствует

специализированным моделям для решения задач прогнозирования


background image

320

SUN’IY INTELLEKT

“RAQAMLI IQTISODIYOT” ILMIY-ELEKTRON JURNALI | 8-SON

WWW.INFOCOM.UZ

молекулярных свойств, охватывающих как задачи и регрессии. Более сложная

проблема, мультимодальность для случая многих целей и небольшом объёме

исходных данных решается моделью

MSSL2drug

, которая продемонстрировала

превосходство над современными методами прогнозирования молекулярных

свойств на основе изображений, последовательностей и графов. Остается

проблема определения оптимальных стратегий глобально

локального и

мультимодального сочетания на основе мультиклассовых прогнозов DDI и

DTI

сетей.

Ввести впервые семантику

в понятие структурного сходства между

молекулами удалось на платформе SALSA, которая может быть применена к

любой нужной семантике для конкретной задачи, основанной на x

-

сходстве

между y

-

данными. Таким образом, SALSA потенциально может быть применена

к ряду типов данных в различных областях.

Робототехника в фарминдустрии используется уже 20 лет, основные

направления мы показали, но разбираться в инженерной методологии этого

приложения,

работа будущего.

СПИСОК

ИСПОЛЬЗОВАННОЙ

ЛИТЕРАТУРЫ

1. Karina Martinez-Mayorga, Abraham Madariaga-Mazon, José L. Medina-

Franco Gerald MaggioraThe impact of chemoinformatics on drug discovery in the
pharmaceutical industry Expert Opinion on Drug Discovery, 15:3, 293-306,

https://doi.org/10.1080/17460441.2020.1696307

2. Lo Y-C, Rensi SE, Torng W, et al. Machine learning in chemoinformatics and

drug discovery. Drug Discov Today. 2018;23 (8):1538–1546

3. Kristina Edfeldt, Aled M. Edwards, Ola Engkvist, Judith Günther, Matthew

Hartley et all A data science roadmap for open science organizations engaged in early-
stage drug discovery Nature Communications | (2024) 15:5640

https://doi.org/10.1038/s41467-024-49777-x

4.

Carter, A. J. et al. Target 2035: probing the human proteome. Drug Discov.

Today 24, 2111–2115 (2019).

5. For chemists, the AI revolution has yet to happen. Nature 617,438 (2023).
6. Mammoliti, A. et al. Orchestrating and sharing large multimodal data for

transparent and reproducible research. Nat. Commun. 12,5797 (2021).

7. Guinney, J. & Saez-Rodriguez, J. Alternative models for sharing confidential

biomedical data. Nat. Biotechnol. 36, 391–392 (2018)

8. Goodfellow, I. J., Shlens, J. & Szegedy, C. Explaining and Harnessing

Adversarial Examples. Preprint at (2014)

https://doi.org/10.48550/ARXIV.1412.6572


background image

321

SUN’IY INTELLEKT

“RAQAMLI IQTISODIYOT” ILMIY-ELEKTRON JURNALI | 8-SON

WWW.INFOCOM.UZ

9. A. Rollins, Alan C. Cheng, Essam Metwally MolPROP: Molecular Property

prediction with multimodal language and graph fusion Journal of Cheminformatics
(2024) 16:56

https://doi.org/10.1186/s13321-024-00846-9

10. Ahmad W, Simon E, Chithrananda S, Grand G, Ramsundar B (2022) Chem-

BERTa-2: towards chemical foundation models.

arXiv.

https://doi.org/10.48550/arXiv.2209.01712

11. Kipf TN, Welling M (2017) Semi-supervised classification with graph

convolutional networks. arXiv. https://arxiv. org/ abs/ 1609. 02907

12. sBrody S, Alon U, Yahav E (2022) How attentive are graph attention

networks? arXiv.

https://arxiv.org/abs/2105.14491

13. Wu Z, Ramsundar B, Feinberg EN, Gomes J, Geniesse C, Pappu AS,

Leswing K, Pande V (2018) MoleculeNet: a benchmark for molecular machine
learning. Chem Sci 9(2):513–530. https://doi.org/10.1039/C7SC02664A

14. Falkner S, Klein A, Hutter F (2018) BOHB: robust and efficient

hyperparameter optimization at scale. arXiv. https://doi.org/10.48550/arXiv.
1807.01774

15. Yang K, Swanson K, Jin W, Coley C, Eiden P, Gao H, Guzman-Perez A,

Hopper T, Kelley B, Mathea M, Palmer A, Settels V, Jaakkola T, Jensen K, Barzilay
R (2019) Analyzing learned molecular representations for property prediction.J Chem
Inform Model 59(8):3370–3388.

https://doi.org/10.1021/acs.jcim.9b002 37

16. Wang Y, Wang J, Cao Z, Barati Farimani A (2022) Molecular contrastive

learning of representations via graph neural networks. Nat Mach Intell 4(3):279–287.

https://doi.org/10.1038/s42256-022-00447-x

17. David Weininger. 1988. SMILES, a chemical language and information

system. 1.Introduction to methodology and encoding rules. Journal of chemical
information and computer sciences 28, 1 (1988), 31–36.

18. John A Hartigan and Manchek A Wong. 1979. Algorithm AS 136: A k-

means clustering algorithm. Journal of the royal statistical society. series c (applied
statistics) 28, 1 (1979), 100–108.

19. Adrià Cereto-Massagué, María José Ojeda, Cristina Valls, Miquel Mulero,

Santiago Garcia-Vallvé, and Gerard Pujadas. 2015. Molecular fingerprint similarity
search in virtual screening. Methods 71 (2015), 58–63.

20. Joseph L Durant, Burton A Leland, Douglas R Henry, and James G Nourse.

2002. Reoptimization of MDL keys for use in drug discovery. Journal of chemical
information and computer sciences 42, 6 (2002), 1273–1280.

21. Greg Landrum et al. 2013. RDKit: A software suite for cheminformatics,

computational chemistry, and predictive modeling. Greg Landrum 8 (2013), 31.

22. Samira Ebrahimi Kahou, Xavier Bouthillier, Pascal Lamblin, Caglar

Gulcehre, Vincent Michalski, Kishore Konda, Sйbastien Jean, Pierre Froumenty, Yann


background image

322

SUN’IY INTELLEKT

“RAQAMLI IQTISODIYOT” ILMIY-ELEKTRON JURNALI | 8-SON

WWW.INFOCOM.UZ

Dauphin, Nicolas Boulanger-Lewandowski, et al. 2016. Emonets: Multimodal deep
learning approaches for emotion recognition in video. Journal on Multimodal
UserInterfaces 10 (2016), 99–111

23. Ananya Kumar, Aditi Raghunathan, Robbie Jones, Tengyu Ma, and Percy

Liang.2022. Fine-tuning can distort pretrained features and underperform out-of
distribution. arXiv preprint arXiv:2202.10054 (2022).

24. Kipf, T. N. & Welling, M. Semi-supervised classification with graph

convolutional networks. In Proc. 4th International Conference on Learning
Representations (OpenReview.net, 2017).

25.

Veličković, P. et al. Graph Attention Networks. In Proc. 5th International

Conference on Learning Representations (OpenReview.net, 2018).

26. Hamilton, W. L., Ying, R. & Leskovec, J. Inductive representation learning

on large graphs. In Proc. 31st International Conference on Neural Information
Processing Systems 1025–1035 (MIT Press,2017)

27. He, K., Fan, H., Wu, Y., Xie, S. & Girshick, R. Momentum contrast for

unsupervised visual representation learning. In Proc. 33

rd

IEEE/CVF Conference on

Computer Vision and Pattern Recognition 9729–9738 (IEEE, 2020)

28. Grill, J. B. et al. Bootstrap your own latent: a new approach to self-supervised

learning. In Proc. 34th Conference on Neural Information Processing Systems Vol. 33,
21271–21284 (MIT Press, 2020).

29. Devlin, J., Chang, M. W., Lee, K. & Toutanova, K. BERT: pre-training of

deep bidirectional transformers for language understanding. In Proc. Conference of the
North American Chapter of the Association for Computational Linguistic 4171–4186
(NAACL, 2019)

30. Brown, T. B. et al. Language models are few-shot learners. In Proc. 34th

Conference on Neural Information Processing Systems Vol. 33, 1877–1901 (MIT
Press, 2020).

31. Pham, T. H., Qiu, Y., Zeng, J., Xie, L. & Zhang, P. A deep learning

framework for high-throughput mechanism-driven phenotype compound screening.
Nat. Mach. Intell. 3, 247–257 (2021).

32. Wang, Y., Min, Y., Chen, X. & Wu, J. Multi-view graph contrastive

representation learning for drug–drug interaction prediction. In Proc. 30th Web
Conference 2921–2933 (ACM, 2021).

33. Wang, X. et al. DeepR2cov: deep representation learning on heterogeneous

drug networks to discover anti-inflammatory agents for COVID-19. Brief. Bioinform
22, 1–14 (2021).

34. Chu, Y. et al. A transformer-based model to predict peptide-HLA class I

binding and optimize mutated peptides for vaccine design. Nat. Mach. Intell. 4, 300–
311 (2022)


background image

323

SUN’IY INTELLEKT

“RAQAMLI IQTISODIYOT” ILMIY-ELEKTRON JURNALI | 8-SON

WWW.INFOCOM.UZ

35. Rong, Y. et al. Self-supervised graph transformer on large-scale molecular

data. In Proc. 34th Conference on Neural Information Processing Systems 33, 12559–
12571 (MIT Press, 2020).

36. Wang, X. et al. BioERP: biomedical heterogeneous network-based self-

supervised representation learning approach for entity relationship predictions.
Bioinformatics 37, 4793–4800 (2021).

37. Hu, W. et al. Strategies for pre-training graph neural networks. In Proc. 8th

International Conference on Learning Representations (OpenReview.net, 2020)

38. Xiaoqi Wang, Yingjie Cheng, Yaning Yang, Yue Yu, Fei Li, Shaoliang Peng

Multitask joint strategies of self-supervised representation learning on biomedical
networks for drug discovery Nature Machine Intelligence | Volume 5 | April 2023 |
445–456

39. Kathryn E. Kirchoff, Travis Maxfield, Alexander Tropsha, Shawn M. Gomez

SALSA: Semantically-Aware Latent Space Autoencoder arXiv:2310.02744v1 [cs.LG]
4 Oct 2023

40. Bilodeau, C.; Jin, W.; Jaakkola, T.; Barzilay, R.; and Jensen, K. F. 2022.

Generative models for molecular discovery: Recent advances and challenges. Wiley
Interdiscip. Rev. Comput. Mol. Sci., 12(5)

41. Honda, S.; Shi, S.; and Ueda, H. R. 2019. SMILES Transformer: Pre-trained

Molecular Fingerprint for Low Data Drug Discovery. arXiv:1911.04738

42. Yearimani, Swati, Shilpa Bhilegaonkar, Hashweta Gawade and Yashodita

Desai, et al. “Robotics to Grow Sharply in Pharmaceustical Industry.” Adv Robot
Autom 11 (2022): 218; Carl-Helmut Coulon Robotics of the future in the
pharmaceutical industry TechnoPharm 10, Nr. 3, 150–157 (2020)

43.

http://www.kukarobotics.com

Библиографические ссылки

Karina Martinez-Mayorga, Abraham Madariaga-Mazon, José L. MedinaFranco Gerald MaggioraThe impact of chemoinformatics on drug discovery in the

pharmaceutical industry Expert Opinion on Drug Discovery, 15:3, 293-306,

https://doi.org/10.1080/17460441.2020.1696307

Lo Y-C, Rensi SE, Torng W, et al. Machine learning in chemoinformatics and

drug discovery. Drug Discov Today. 2018;23 (8):1538–1546

Kristina Edfeldt, Aled M. Edwards, Ola Engkvist, Judith Günther, Matthew

Hartley et all A data science roadmap for open science organizations engaged in earlystage drug discovery Nature Communications | (2024) 15:5640

https://doi.org/10.1038/s41467-024-49777-x

Carter, A. J. et al. Target 2035: probing the human proteome. Drug Discov.

Today 24, 2111–2115 (2019).

For chemists, the AI revolution has yet to happen. Nature 617,438 (2023).

Mammoliti, A. et al. Orchestrating and sharing large multimodal data for

transparent and reproducible research. Nat. Commun. 12,5797 (2021).

Guinney, J. & Saez-Rodriguez, J. Alternative models for sharing confidential

biomedical data. Nat. Biotechnol. 36, 391–392 (2018)

Goodfellow, I. J., Shlens, J. & Szegedy, C. Explaining and Harnessing

Adversarial Examples. Preprint at (2014) https://doi.org/10.48550/ARXIV.1412.6572

A. Rollins, Alan C. Cheng, Essam Metwally MolPROP: Molecular Property

prediction with multimodal language and graph fusion Journal of Cheminformatics

(2024) 16:56 https://doi.org/10.1186/s13321-024-00846-9

Ahmad W, Simon E, Chithrananda S, Grand G, Ramsundar B (2022) ChemBERTa-2: towards chemical foundation models. arXiv.

https://doi.org/10.48550/arXiv.2209.01712

Kipf TN, Welling M (2017) Semi-supervised classification with graph

convolutional networks. arXiv. https://arxiv. org/ abs/ 1609. 02907

sBrody S, Alon U, Yahav E (2022) How attentive are graph attention

networks? arXiv. https://arxiv.org/abs/2105.14491

Wu Z, Ramsundar B, Feinberg EN, Gomes J, Geniesse C, Pappu AS,

Leswing K, Pande V (2018) MoleculeNet: a benchmark for molecular machine

learning. Chem Sci 9(2):513–530. https://doi.org/10.1039/C7SC02664A

Falkner S, Klein A, Hutter F (2018) BOHB: robust and efficient

hyperparameter optimization at scale. arXiv. https://doi.org/10.48550/arXiv.

01774

Yang K, Swanson K, Jin W, Coley C, Eiden P, Gao H, Guzman-Perez A,

Hopper T, Kelley B, Mathea M, Palmer A, Settels V, Jaakkola T, Jensen K, Barzilay

R (2019) Analyzing learned molecular representations for property prediction.J Chem

Inform Model 59(8):3370–3388. https://doi.org/10.1021/acs.jcim.9b002 37

Wang Y, Wang J, Cao Z, Barati Farimani A (2022) Molecular contrastive

learning of representations via graph neural networks. Nat Mach Intell 4(3):279–287.

https://doi.org/10.1038/s42256-022-00447-x

David Weininger. 1988. SMILES, a chemical language and information

system. 1.Introduction to methodology and encoding rules. Journal of chemical

information and computer sciences 28, 1 (1988), 31–36.

John A Hartigan and Manchek A Wong. 1979. Algorithm AS 136: A kmeans clustering algorithm. Journal of the royal statistical society. series c (applied

statistics) 28, 1 (1979), 100–108.

Adrià Cereto-Massagué, María José Ojeda, Cristina Valls, Miquel Mulero,

Santiago Garcia-Vallvé, and Gerard Pujadas. 2015. Molecular fingerprint similarity

search in virtual screening. Methods 71 (2015), 58–63.

Joseph L Durant, Burton A Leland, Douglas R Henry, and James G Nourse.

Reoptimization of MDL keys for use in drug discovery. Journal of chemical

information and computer sciences 42, 6 (2002), 1273–1280.

Greg Landrum et al. 2013. RDKit: A software suite for cheminformatics,

computational chemistry, and predictive modeling. Greg Landrum 8 (2013), 31.

Samira Ebrahimi Kahou, Xavier Bouthillier, Pascal Lamblin, Caglar

Gulcehre, Vincent Michalski, Kishore Konda, Sйbastien Jean, Pierre Froumenty, Yann

Dauphin, Nicolas Boulanger-Lewandowski, et al. 2016. Emonets: Multimodal deep

learning approaches for emotion recognition in video. Journal on Multimodal

UserInterfaces 10 (2016), 99–111

Ananya Kumar, Aditi Raghunathan, Robbie Jones, Tengyu Ma, and Percy

Liang.2022. Fine-tuning can distort pretrained features and underperform out-of

distribution. arXiv preprint arXiv:2202.10054 (2022).

Kipf, T. N. & Welling, M. Semi-supervised classification with graph

convolutional networks. In Proc. 4th International Conference on Learning

Representations (OpenReview.net, 2017).

Veličković, P. et al. Graph Attention Networks. In Proc. 5th International

Conference on Learning Representations (OpenReview.net, 2018).

Hamilton, W. L., Ying, R. & Leskovec, J. Inductive representation learning

on large graphs. In Proc. 31st International Conference on Neural Information

Processing Systems 1025–1035 (MIT Press,2017)

He, K., Fan, H., Wu, Y., Xie, S. & Girshick, R. Momentum contrast for

unsupervised visual representation learning. In Proc. 33rd IEEE/CVF Conference on

Computer Vision and Pattern Recognition 9729–9738 (IEEE, 2020)

Grill, J. B. et al. Bootstrap your own latent: a new approach to self-supervised

learning. In Proc. 34th Conference on Neural Information Processing Systems Vol. 33,

–21284 (MIT Press, 2020).

Devlin, J., Chang, M. W., Lee, K. & Toutanova, K. BERT: pre-training of

deep bidirectional transformers for language understanding. In Proc. Conference of the

North American Chapter of the Association for Computational Linguistic 4171–4186

(NAACL, 2019)

Brown, T. B. et al. Language models are few-shot learners. In Proc. 34th

Conference on Neural Information Processing Systems Vol. 33, 1877–1901 (MIT

Press, 2020).

Pham, T. H., Qiu, Y., Zeng, J., Xie, L. & Zhang, P. A deep learning

framework for high-throughput mechanism-driven phenotype compound screening.

Nat. Mach. Intell. 3, 247–257 (2021).

Wang, Y., Min, Y., Chen, X. & Wu, J. Multi-view graph contrastive

representation learning for drug–drug interaction prediction. In Proc. 30th Web

Conference 2921–2933 (ACM, 2021).

Wang, X. et al. DeepR2cov: deep representation learning on heterogeneous

drug networks to discover anti-inflammatory agents for COVID-19. Brief. Bioinform

, 1–14 (2021).

Chu, Y. et al. A transformer-based model to predict peptide-HLA class I

binding and optimize mutated peptides for vaccine design. Nat. Mach. Intell. 4, 300–

(2022)

Rong, Y. et al. Self-supervised graph transformer on large-scale molecular

data. In Proc. 34th Conference on Neural Information Processing Systems 33, 12559–

(MIT Press, 2020).

Wang, X. et al. BioERP: biomedical heterogeneous network-based selfsupervised representation learning approach for entity relationship predictions.

Bioinformatics 37, 4793–4800 (2021).

Hu, W. et al. Strategies for pre-training graph neural networks. In Proc. 8th

International Conference on Learning Representations (OpenReview.net, 2020)

Xiaoqi Wang, Yingjie Cheng, Yaning Yang, Yue Yu, Fei Li, Shaoliang Peng

Multitask joint strategies of self-supervised representation learning on biomedical

networks for drug discovery Nature Machine Intelligence | Volume 5 | April 2023 |

–456

Kathryn E. Kirchoff, Travis Maxfield, Alexander Tropsha, Shawn M. Gomez

SALSA: Semantically-Aware Latent Space Autoencoder arXiv:2310.02744v1 [cs.LG]

Oct 2023

Bilodeau, C.; Jin, W.; Jaakkola, T.; Barzilay, R.; and Jensen, K. F. 2022.

Generative models for molecular discovery: Recent advances and challenges. Wiley

Interdiscip. Rev. Comput. Mol. Sci., 12(5)

Honda, S.; Shi, S.; and Ueda, H. R. 2019. SMILES Transformer: Pre-trained

Molecular Fingerprint for Low Data Drug Discovery. arXiv:1911.04738

Yearimani, Swati, Shilpa Bhilegaonkar, Hashweta Gawade and Yashodita

Desai, et al. “Robotics to Grow Sharply in Pharmaceustical Industry.” Adv Robot

Autom 11 (2022): 218; Carl-Helmut Coulon Robotics of the future in the

pharmaceutical industry TechnoPharm 10, Nr. 3, 150–157 (2020)

http://www.kukarobotics.com.