Коли надія перевищує страх, то вона породжує відвагу.
Георгій Кониський, український письменник, проповідник, церковний і культурний діяч

Про що (не) каже статистика

Як науковці Вінницького національного технічного університету складають прогноз поширення коронавірусу для РНБО і Кабміну
13 січня, 2021 - 18:59
ФОТО REUTERS

Модель для довгострокового прогнозування поширення вірусу COVID-19 розробили викладачі кафедри системного аналізу та інформаційних технологій Вінницького політеху. Технологія базується на даних з 70 країн і дає можливість робити тижневі та двотижневі прогнози поширення епідемії не лише територією України, а й світу. В її основі оригінальний підхід до моделювання факту зараження через відстеження впливу аномальних дат (свят, змін карантинного режиму, теплих днів без опадів) з використанням спеціально налаштованої для цього моделі Facebook Prophet. Відтак похибка прогнозу мінімальна і становить 2 — 7,5%, у залежності від поданих даних, відзначає автор моделі, науковий керівник науково-дослідної лабораторії екологічних досліджень та екологічного моніторингу, професор ВНТУ Віталій МОКІН. Він визнає, що в Україні прорахувати, як поводитиметься вірус у довготривалій перспективі, не дозволяє «шкутильгання» звітності, а от спрогнозувати розвиток подій на тиждень-два цілком імовірно. Тому, забігаючи наперед, зауважує, що не варто недооцінювати доцільність введення локдауну на тлі низького рівня захворюваності. Адже вірус має чимало «прихованих резервів», з якими наша система медицини може не впоратися, якщо розпочнеться нова хвиля.

«Питання про доцільність локдауну — це, напевно, найчастіше, яке ставлять журналісти. Здавалося б, вводити його на тлі зменшення статистики хворих не раціонально, але насправді не все так просто, особливо у нас. Найперше, на що варто звертати увагу, — це не кількість хворих, а на графік падіння кількості тестів і відсоток позитивних серед них. Якщо раніше робилося 50 тисяч тестів і з них було 10 тисяч позитивних, маємо 20%, а коли 20 тисяч тестів — 10 тисяч позитивних — то це ж 50%. Зрозуміло, що тестів робиться недостатньо. Наші фахівці кажуть, що в нас співвідношення низьке, коли 35 % позитивних від загальної кількості проведених ПЛР-тестів. Я бачив графік: Німеччина та інші провідні країни — 5,7% до 10% позитивних тестів. Тобто якщо в них позитивність понад 10%, вони суттєво нарощують кількість тестів, щоб знову знизити до 10%. А в нас «вимахало» до 35% і кажуть, що все — ОК! Тому цілком можливо, що в нас, попри вказані показники насправді з кількістю хворих усе складніше».

«НАШІ ЗВІТИ ПОТРАПЛЯТЬ ДО ЛЮДЕЙ, ЯКІ УХВАЛЮЮТЬ РІШЕННЯ»

Віталій Мокін розповідає, що алгоритм побудови моделі складання прогнозів він зі своєю командою випробували на основі даних по 70 країнах світу. Не скрізь вона спрацювала на 100%, але, наприклад, для США похибка якийсь час становила лише 5%, Білорусі — 2%, і це ще спрощена модель. Зараз вони удосконалили технологію і зуміли з’ясувати нові цікаві закономірності та глибше опанувати сучасні моделі прогнозування, зокрема часових рядів з використанням штучного інтелекту. Така система зацікавила науковців з НАНУ, які запропонували вінницьким науковцям долучитися до моделювання і складання прогнозу поширення епідемії. Тепер програма вінничан щодня автоматично скачує дані РНБО (вони віддають перевагу роботі тільки з відкритою інформацією) і видає графіки-прогнози, які щотижня оформляють у звіти і відправляють у Київ, для звіту робочої групи, який потім пересилається в РНБО і Кабмін. Ознайомитися з ними можна за посиланням: http://www.nas.gov.ua/UA/Activity/covid/Pages/wg.aspx.

«Тривалий час я займаюся так званим напрямом Data Science та штучним інтелектом, який просто незамінний для обробки даних у різних сферах. У гуглівській платформі Kaggle я став першим з українців, хто отримав статус гросмейстера з розробки програм, і входжу до п’ятнадцятки з понад 175 тисяч учасників з усього світу — фахівців зі штучного інтелекту. Так от, улітку минулого року одна з моїх розробок потрапила на очі робочій групі при НАНУ, яка досліджувала поширення коронавірусу для РНБО і Кабміну, — пригадує професор. — Вони одразу сказали, що в них є своя модель прогнозування, але їм цікаво було б залучити й інших фахівців, адже аналітичної інформації забагато не буває. Так розпочалася наша співпраця, щоправда, на волонтерських засадах. Але коли ти маєш знання і навички, які можеш застосувати для суспільної мети, то це і є той внесок, які повинні робити науковці в боротьбі з епідемією. Наші звіти потраплять до людей, які ухвалюють рішення. Можливо, саме якийсь із моїх графіків надихне їх на розуміння аспектів проблеми, а прийняті рішення приведуть до поліпшення ситуації».

«ГОЛОВНА ОСОБЛИВІСТЬ — ВІДСТЕЖУВАТИ ВПЛИВ СВЯТ НА ЗАХВОРЮВАНІСТЬ»

По суті система, яку розробив Віталій Мокін, опрацьовує величезну купу інформації, включаючи дані про всі зроблені в Україні ПЛР-тести на коронавірус, надані РНБО. Професор визнає, що на сьогодні в Україні проводять замало тестів на ПЛР: восени було до 60 тисяч, а в перших числах січня було 11 — 15 тисяч. У Великій Британії, за твердженнями соцмереж, щодня тестують 300 — 400 тисяч жителів. Ба більше, за даними всесвітньовідомого сайта Worldometers, які щодня публікують статистику по всіх країнах світу, Україна по кількості ПЛР-тестів на коронавірус на 1 млн населення перебуває на передостанньому місці, після Албанії. Але знову ж таки — питання не в кількості проведених ПЛРів, а в тому, який відсоток з них позитивні. Всі стандартні дашборди містять лише тести на ПЛР, позаяк саме вони вважаються точним підтвердженням. Однак, як визнає професор, абсолютно точно відомо, що дані про кількість нових хворих не відповідає фактичній кількості, яка має місце, оскільки не всі інфіковані останнім часом роблять тести.

«На сьогодні ми даємо тільки загальний графік по країні. Академія наук використовує так звану балансову модель, яка бере за основу різні складові і дивиться, як вони між собою взаємодіють, враховуючи природу явища і як одне впливає на інше. Я ж використовую статистичну модель. Тобто беру одне число, його ряд за рік, і прогнозую наступні значення. Власне кажучи, головна особливість моєї моделі в тому, що я намагаюся відстежувати вплив свят на захворюваність, — уточнює Віталій Мокін. — Наприклад, був День захисника України — зробили значно менше аналізів. Як на мене, це не дуже зрозуміло: чому не можна людям доплатити за роботу, найняти іще персонал? Чому не можна налагодити стабільну роботу? Чому я, працюючи безоплатно, у вихідні виконую свою роботу, а вони за гроші — ні? Ми зав’язані на якості даних, якщо вони приходять зі «спадом», відповідно погіршується якість прогнозу.

Ба більше, «шкутильгає» звітність. Наприклад, один із експертів нашої Робочої групи вирішив порівняти дати реєстрації ПЛР-тесту і його оприлюднення (тобто дата реєстрації — це коли людина прийшла і зробила тест, дата оприлюднення — коли МОЗ опублікував про це відомості). Ми знаємо, що ПЛР-тест робиться добу. Логічно припустити, що те, що вони написали — це дані за вчора. Нічого подібного! З графіка в нашому звіті видно, що в оприлюднених даних відсотків із 30% результату — це дані вчорашніх аналізів, ще 30 — 40% — вимірювання за останні 2 — 3 дні, частина даних за тиждень тому, ще частина — за два тижні до того і навіть за місяць. У деякі дати оприлюднені дані містили відомості про тести, зроблені влітку, або навіть весною. Хоча це були поодинокі випадки, але маємо зі статистикою і оприлюдненням ось такий «салат».

«ОДИН ІЗ ЧИННИКІВ ВИЯВЛЕННЯ РЕАЛЬНОЇ КАРТИНКИ ЗАХВОРЮВАНОСТІ — АНАЛІЗУВАТИ «НАДЛИШКОВУ» СМЕРТНІСТЬ»

На завершення новорічно-рідзвяних свят, за найоптимістичнішим сценарієм, професор прогнозує спад захворюваності до 2,5 тис. нових випадків на добу. Це передусім буде пов’язано з малою кількістю проведених тестів через зменшення звернень від людей. Однак кількість летальних випадків у відсотковому співвідношенні від кількості нових хворих може зрости. Показник летальності Віталій Мокін називає більш достовірним, ніж інфікованість. Хоча зараз різні джерела вказують дані від 1 — 2 % до 8 %, на жаль, точної інформації немає. Ба більше, навіть у цій площині повторюється ситуація з ПРЛ-тестами: серед оприлюднених даних по смертях «за вчора» є випадки, зареєстровані місяць тому. Інформація від лікарні до оприлюднення йде часом місяць, а то і два.

«Медики кажуть, що вони просто завалені паперовою роботою, попри те що намагаються лікувати людей. Одні й ті самі дані вони змушені подавати в паперовому вигляді, в електронному, та ще й телефоном. Якщо хворий ковід-позитивний — треба ще одну форму заповнювати, — розповідає професор. — Тому як один із чинників виявлення реальної картинки захворюваності — це аналізувати «надлишкову» смертність. Сьогодні в усьому світі застосовують таку технологію. Беруть статистику по летальних випадках за 5 років по країні і окремо по регіонах і порівнюють. У звіті нашої Робочої групи є такий графік, це робиться потижнево. Єдине, що в нас офіційна статистика йде з запізненням на місяць, що ускладнює використання цих даних для прогнозування».

Віталій Мокін додає: не так давно аналітики Робочої групи порахували, що насправді смертей, пов’язаних з COVID-19, приблизно втричі більше, ніж свідчать щоденні дані МОЗ. Судячи з цих даних, на середину грудня було приблизно 50 тисяч і щодня їх стає більше приблизно на 500. Автори аналітичного дослідження не стверджують, що всі смерті спричинені COVID-19, але сам факт підвищення летальності наштовхує на роздуми. Ба більше, якщо проаналізувати графік по надлишковій смертності, то суттєве підвищення помітно саме по тих регіонах, де спостерігалося значне зростання поширення коронавірусної інфекції. Йдеться, наприклад, про Чернівецьку, Львівську та Тернопільську області. А тому радять не радіти передчасно, чуючи по телевізору про зменшення інфікованих і так би мовити спад епідемії, бо за 4 — 5 тисячами інфікованих, про яких звітують, може стояти значно більша кількість людей, які потраплять (а може, й ні) до статистики за тиждень-другий.

Олеся ШУТКЕВИЧ, «День», Вінниця
Газета: 
Рубрика: