Оружие вытаскивают грешники, натягивают лука своего, чтобы перестрелять нищих, заколоть правых сердцем. Оружие их войдет в сердце их, и луки их сломаются.
Владимир Мономах, великий князь киевский (1113-1125), государственный и политический деятель

«Людей нужно лечить, а мир - спасать»

Профессор Наталья Шаховская об информационной системе моделирования и прогнозирования распространения вирусов, ковиду в том числе
10 ноября, 2020 - 18:30
ФОТО РУСЛАНА КАНЮКИ / «День»

Национальный фонд фундаментальных исследований Украины в октябре 2020 года определил перечень проектов конкурса «Наука для безопасности человека и общества», рекомендуемых к реализации за счет грантовой поддержки. Среди проектов - «Система поддержки принятия решений моделирования распространения вирусных инфекций», автором которого является заведующая кафедрой систем искусственного интеллекта Института компьютерных наук и информационных технологий Национального университета «Львовская политехника», доктор технических наук, профессор Наталья ШАХОВСКАЯ, интервью с которой я предлагаю вашему вниманию.

- Наталья! Чем вызвано появление Вашего проекта?

- На ход болезней, вызванных инфекциями и вирусами (даже с известными схемами предупреждения) влияют различные факторы, а именно: изменчивость штаммов, характер взаимодействия, особенности территории распространения. Именно поэтому разработка имитационных моделей распространения и протекания заболеваемости разного рода инфекций и вирусов является сложной научной задачей. Эта задача характеризуется множеством критериев: типом распространения (эпидемическое распространение, контролируемое распространение в легкой форме заболевания), исходными данными распространения, территорией распространения; зависимостью от времени; интервалом моделирования, разнотипностью входных данных.

Коронавирусное заболевание (COVID-19) - это инфекционная болезнь, которую вызывает новый штамм коронавируса. 50,5 млн. человек во всем мире заболели COVID-19. Из них – 33,1 млн. вылечены. От болезни умерло более 1,26 млн. человек.

- Во многих странах?

- В 203 странах.

- В чем заключается новизна проекту, предложенного Вами?

- Предлагается создать информационную систему моделирования и прогнозирования распространения инфекций различного рода, которая обладает способностью масштабирования (страна, регион, город). Данная система будет базироваться на двух подходах к моделированию распространения инфекций и определению причин отклонений данных. Первый метод сосредоточен на моделировании течения болезни и определении основных факторов влияния на конкретного индивида, второй - имитация в режиме реального времени пространственного распространения инфекции с возможностью динамического изменения параметров.

Поиск скрытых зависимостей данных для определения характера течения болезни индивида. Анализ больших объемов данных требует определения групп атрибутов, которые образуют функциональные зависимости. Однако в реальных наборах данных, полученных из различных источников, важные зависимости определены только для подмножества значений группы атрибутов (существуют зависимости, например, между перенесенными ранее заболеваниями и характером течения нынешней болезни - такая зависимость установлена между подмножествами значений различных кортежей и не может быть найдена существующими методами поиска скрытых данных); мы будем называть такие зависимости частичными функциональными зависимостями. Соответственно, уровень поддержки таких зависимостей является низким, что не позволяет использовать их для дальнейшего анализа данных. В то же время частичные функциональные зависимости являются модифицированными ассоциативными правилам, но выполнимыми только для части данных и зависящими от фактора времени. Поэтому предлагается разработать аппарат вероятностных секвенциальных зависимостей. Метод поиска таких зависимостей будет базироваться на основе отложенных вычислений (модификация FP-дерева). Это позволяет уменьшить временную сложность и использовать параллельный и распределенный режим для расчета. Итак, алгоритм поиска зависимостей может быть реализован на MapReduce.

- А имитация?

- Имитация - в режиме реального времени распространения инфекции. В результате получаем динамику (пространственную и статистическую) таких показателей, как количество инфицированных, здоровых, переболевших, летальных случаев и другие показатели. Также можно будет имитировать различные сценарии предотвращения распространения инфекции вроде карантина или других мероприятий, оценивать их эффективность и научно-обоснованно принимать стратегические решения.

- Вы уже выработали и методологию исследования?

- Конечно. Задача поиска зависимостей в данных требует анализа зависимостей между десятками параметров исследуемого процесса и сотнями возможных источников воздействия на этот процесс. Зависимости носят недетерминированный характер, и поэтому моделирование требует применения статистических методов анализа случайных процессов. Значительная часть информации часто скрыта от наблюдения или наблюдение за ней не ведется. Это вносит много трудностей в процесс анализа собранной информации.

- К примеру?

- На сегодняшний день разработанные методы статистического анализа позволяют работать с частично неопределенными размытыми процессами. Но имеющиеся методы имеют существенные ограничения в области применения и типах данных, которые могут анализироваться этими методами.

Другой особенностью медицинских данных является их иерархичность и сетевая зависимость. К сетевым данным относится информация о сопутствующих патологиях, аллергических реакциях и т.д., что также является прямым или косвенным фактором, определяющим характер заболеваемости индивида. Итак, необходимым является поиск не только линейных зависимостей в данных.

- Словом, работы - непочатый край ...

- Безусловно. Ведь все вышеперечисленные факторы могут негативно влиять на проведение, интерпретацию и обобщение результатов исследований, а также на понимание и толкование исследуемого феномена. В работе предлагается разработка подхода моделирования характера заболеваемости индивида на основе подхода Больших данных

- Разработан уже и метод?

- Да. Метод состоит из двух частей: 1) Поиск вероятностных производительных зависимостей на основе модели больших данных; 2) Использование вероятностных производительных зависимостей для моделирования характера заболеваемости.

В основе этого метода будет предложена разработка уже специальных методов формирования обучающего множества данных и предварительной обработки атрибутов с учетом специфики контента медицинских данных и данных окружающей обстановки. А еще и разработки ансамблей моделей импутации данных на основе базовых моделей разносторонней природы в составе специализированной информационной технологии восстановления пропущенных данных для автоматизированной обработки информации.

Следующим этапом будет прогнозирование динамики распространения инфекции и моделирование различных сценариев воздействия со стороны государства. Эта модель базируется на теории агентных систем и может быть реализована методами имитационного моделирования. Для моделирования необходимы данные, которые могут быть получены из первой части разработки и известных статистических данных.

- О чем идет речь?

- Это количество населения центра и всех районов области, плотность населения областного центра и районов, социальная дистанция между людьми, продолжительность болезни, вероятность заболевания при контактах людей, уровень смертности, наличие мест скопления людей (супермаркеты, церкви, аптеки, рынки, объекты строительства, спортзалы), процент людей, переносящих болезнь бессимптомно, наличие процедуры изоляции больных людей, возможность перемещения человека из района в областной центр и обратно, соблюдение людьми необходимой дистанции, инкубационный период и другие. Для устойчивости результата необходимо использовать ансамбли моделей, которые легко распараллелить. Поэтому реализация расчетного ядра должна выполняться на компьютерных кластерах.

- Кто еще, кроме Вас, имеет отношение к поданному проекту?

- Профессор Виклюк Я.И., доценты Мельникова Н.И., Кривенчук Ю.П., Изонин И.В. готовы принять участие в данном проекте, учитывая характер их научной деятельности.

- И, главное: какие ожидаются результаты от выполнения проекта «Система поддержки принятия решений моделирования распространения вирусных инфекций», научным руководителем которого Вы являетесь?

- Ожидаем получить такую научную и научно-техническую продукцию:

1) Метод и алгоритм формирования и анализа Больших данных для построения информационного портрета исследуемого объекта при необходимости их консолидации и параллельной обработки;

2) Метод и алгоритм предсказания сложности течения болезни на основе секвенционных ассоциативных зависимостей;

3) Метод поиска зависимостей в многомерных данных на основе ансамбля моделей (стеккинг) и с использованием регуляризации информационных признаков;

4) Имитационная модель распространения заболеваемости населения, вызванной вирусом или инфекцией, на основе мультиагентных систем;

5) Информационная технология для моделирования распространения заболеваемости с визуализацией на карте, а также рекомендательная врачебная система моделирования течения болезни индивидом.

- В таком случае, госпожа Наталья, и мир будет здоровым, и Украина. Не так ли?

- А почему бы и нет? Людей нужно лечить - мир нужно спасать. Правда?

- Правда, госпожа Наталья! Благодарю Вас за беседу, а прежде всего - за Вашу с коллегами работу, которую Вам удастся (я в это верю) провести, думая о человеке и мире.

Общался Богдан ЗАЛИЗНЯК, руководитель пресс-центра научной журналистики ЗНЦ НАН Украины и МОН Украины, член НСПУ и НСЖУ, Львов
Рубрика: 




НОВОСТИ ПАРТНЕРОВ