
Эксперты Института общей и неорганической химии им. Н.С. Курнакова РАН, Национального исследовательского университета «Высшая школа экономики», Московского государственного университета им. М.В. Ломоносова и Венского университета представили выдающуюся новинку в области хемоинформатики — расширенную версию крупнейшей на сегодняшний день базы растворимости органических соединений в неводных растворителях под названием BigSolDB 2.0. Объединяя усилия ведущих научных организаций, команда исследователей подготовила уникальный массив из более чем 100 000 экспериментальных измерений, заново открывая возможности прикладных и фундаментальных исследований в химии, фармацевтике и материаловедении.
Большой скачок в объеме и качестве химических данных
Растворимость остается одним из критически важных параметров для изучения свойств и поведения органических веществ. От нее напрямую зависят процессы синтеза новых материалов, разработка лекарств, технологии анализа и экстракции. В отличие от водных растворов, данные по растворимости в органических и других неводных средах были крайне ограничены. На этот вызов ответил международный исследовательский коллектив, предложив масштабный и стандартизированный массив данных, призванный ускорить научный прогресс.
По словам Льва Краснова, младшего научного сотрудника Лаборатории кристаллохимии и Центра цвета ИОНХ РАН, в рамках работы были исследованы и проанализированы 1595 рецензируемых научных публикаций, что позволило собрать 103 944 достоверных значения растворимости 1448 органических соединений для 213 неводных растворителей в широком температурном диапазоне (от 243 до 425 K). Особое внимание уделялось контролю качества: все данные прошли стандартизацию, проверку на уникальность, устранение дублирующих записей и валидацию источников.
Цифровизация и современный формат данных
Для максимального удобства анализа и интеграции с алгоритмами машинного обучения все молекулярные структуры были записаны в машиночитаемом формате SMILES. Такой подход дает возможность быстро и точно проводить компьютерную обработку информации, строить и обучать интеллектуальные модели, способные предсказывать растворимость новых веществ в различных условиях. Все количественные данные приведены к единому формату LogS, что позволяет напрямую применять их в современных вычислительных и аналитических системах.
Команда разработчиков также реализовала онлайн-приложение, позволяющее эффективно и с минимальными затратами времени искать необходимую информацию как по названию соединения, так и по особенностям структуры молекулы. Пользователи могут визуализировать результаты поиска, проводить быстрый анализ и интегрировать данные в свои собственные научные проекты.
Расширенные возможности для прогнозирования и разработки
База BigSolDB 2.0 существенно изменяет подход к решению одной из старейших проблем в хемоинформатике — точному прогнозированию растворимости в неводных растворителях. Если ранее большая часть научных работ касалась преимущественно водных растворов, то теперь появилась платформа, которая охватывает широкий спектр органических и неорганических растворителей.
Среди наиболее часто изучаемых растворителей в новой базе выделяются низкомолекулярные спирты, этилацетат, ацетон, ацетонитрил, а также вода, что важно для мультидисциплинарных исследований, связанных с синтезом новых соединений, созданием эффективных методик экстракции, очистки и сверхточной кристаллизации. Такой охват открывает перед учёными, технологами и фармацевтами возможности для детального анализа сотен различных исследований и позволяет разрабатывать инструменты автоматизированного подбора растворителей для самых разных нужд.
Интеграция с технологиями машинного обучения
Наличие столь обширной и тщательно верифицированной базы данных позволяет использовать мощные методы машинного обучения практически без ограничений: ускоряются расчеты, появляется возможность быстрого скрининга сотен тысяч потенциальных соединений, а разработка новых материалов и препаратов становится более экономичной и результативной. Даже те специалисты, кто не обладает глубокими знаниями в программировании, благодаря интуитивному онлайн-интерфейсу получат доступ к инструментам анализа и прогнозирования, которые ранее требовали многочисленных трудозатрат.
Возможность проведения масштабных вычислений и предсказаний свойств новых веществ на основе достоверных исторических данных делает проект BigSolDB 2.0 незаменимым ресурсом для научных исследований. Такой подход ускоряет не только академическую, но и индустриальную разработку — от химико-технологических процессов до создания лекарственных средств и диагностики.
Роль национального и международного сотрудничества
Работа была выполнена при активной поддержке Министерства науки и высшего образования Российской Федерации, а также в рамках программы государственной поддержки института ИОНХ РАН. Неоценимый вклад внесли также партнеры из Австрии — Венский университет, а объединение академических центров позволило выстроить эффективный обмен знаниями, ускорить стандартизацию данных и создать, по сути, международный стандарт исследования растворимости органических соединений.
Проект был реализован при непосредственной поддержке программы «Виртуальный музей химии: продолжение осмотра», что дополнительно способствовало популяризации современных научных инструментов среди широкой аудитории. Вклад BigSolDB 2.0 важен для, Десятилетия науки и технологий, демонстрируя достижения российской науки на фоне глобального научного сообщества.
Доступные ресурсы и перспективы развития
Онлайн-приложение BigSolDB 2.0 уже доступно для пользователей. Веб-интерфейс позволяет интуитивно использовать фильтры поиска, строить выборки по интересующим растворителям и соединениям, получать наглядные диаграммы и связывать найденные данные с внешними экспертными системами. Исследователи получают доступ к массиву данных через платформу https://bigsoldb.streamlit.app/ и могут загрузить массив в целом по ссылке https://doi.org/10.5281/zenodo.15094979.
Участники научного коллектива уверены, что BigSolDB 2.0 станет драйвером дальнейших открытий в области хемоинформатики, машинного обучения и прикладной химии, а качество и прозрачность массива данных послужит ускорению разработки передовых технологий. В будущем планируется масштабировать проект, добавлять новые значения растворимости, включать органические системы смешанных растворителей и расширять интеграцию с международными исследовательскими платформами.
Проект реализован с участием ведущих вузов и институтов и уже получил высокую оценку специалистов. BigSolDB 2.0 является уникальным инструментом, нацеленным на эффективную и оперативную поддержку научного сообщества, развитию сотрудничества между академической средой и промышленностью и вдохновения для новых прорывных исследований в химии и смежных науках.
Источник: indicator.ru