ML для защиты персональных данных в медицине | bobr.ai

Применение машинного обучения для информационной безопасности в медицине. Обнаружение аномалий, 152-ФЗ, GDPR и архитектура интеллектуальной защиты.

#машинное обучение#информационная безопасность#персональные данные#здравоохранение#152-фз#искусственный интеллект#cybersecurity

Watch
Pitch

01

НАУЧНАЯ ПРЕЗЕНТАЦИЯ • 2026

Применение методов машинного обучения
для защиты персональных данных
в медицинских системах

Информационная безопасность × Машинное обучение × Медицинские ИС

Автор

Иванов Иван Иванович

Организация

Медицинский Университет Инноваций

Made by

02

CONTENTS

Содержание

1

Актуальность и постановка проблемы

2

Угрозы информационной безопасности в медицине

3

Нормативно-правовая база (152-ФЗ, GDPR)

4

Методы машинного обучения для ИБ

5

Обнаружение аномалий и вторжений

6

Классификация и фильтрация угроз

7

Архитектура системы защиты

8

Практическая реализация и результаты

9

Оценка эффективности

10

Выводы и рекомендации

Made by

03

ПРОБЛЕМАТИКА

Актуальность проблемы

41 млн

записей пациентов похищено в 2023 году в мире

2× рост

атак на медицинские ИС за последние 3 года

€20 млн

максимальный штраф по GDPR за утечку данных

Традиционные методы защиты не справляются с объёмом и сложностью угроз

Медицинские данные — наиболее ценная цель для злоумышленников

Необходима автоматизированная интеллектуальная система защиты

02

Made by

04

Угрозы ИБ в медицинских системах

Внешние атаки

Ransomware/шифровальщики

Фишинг и социальная инженерия

DDoS на медицинские сервисы

Внутренние угрозы

Несанкционированный доступ персонала

Утечки через привилегированных пользователей

Случайное раскрытие данных

Уязвимости ПО

Устаревшие медицинские ИС

Незащищённые API и интеграции

Слабая аутентификация

Нарушения регуляторов

Несоответствие 152-ФЗ / GDPR

Отсутствие аудита доступа

Нарушение сроков хранения данных

03

Made by

05

Нормативно-правовая база

Российское законодательство

152-ФЗ «О персональных данных»

требования к обработке и защите ПДн

Приказ ФСТЭК №17, №21

защита государственных ИС

Постановление Правительства №1119

уровни защищённости ПДн

ГОСТы серии Р 57580

безопасность финансовых/медицинских данных

Международные стандарты

GDPR (EU) 2016/679

защита данных граждан ЕС

HIPAA (США)

стандарт защиты медицинских данных

ISO/IEC 27001

система управления ИБ

HL7 FHIR Security

стандарт безопасности медицинских API

Нарушение требований → штрафы до 20 млн € (GDPR) / уголовная ответственность (152-ФЗ)

04

Made by

06

ТЕХНОЛОГИЧЕСКИЙ СТЕК ИБ

Методы машинного обучения для ИБ

Обучение с учителем

(Supervised Learning)

Random Forest

Классификация вредоносного трафика

SVM (Support Vector Machine)

Обнаружение аномальных запросов

Gradient Boosting (XGBoost)

Выявление мошеннического доступа

Обучение без учителя

(Unsupervised Learning)

K-Means Clustering

Группировка паттернов поведения

Autoencoder (Нейросети)

Обнаружение сложных аномалий

Isolation Forest

Выявление выбросов в логах

Глубокое обучение

(Deep Learning)

LSTM (Рекуррентные сети)

Анализ последовательностей событий

CNN

Обнаружение паттернов в сетевом трафике

Transformer / BERT

Анализ текстовых логов и угроз

05

Made by

07

06

Обнаружение аномалий и вторжений

Нормальное поведение

Аномалия

Поведенческий анализ пользователей (UEBA)

• Профилирование типичных действий врача/медсестры
• Выявление отклонений: время доступа, объём данных, геолокация

Сетевой IDS на основе ML

• Обнаружение DDoS, port scanning, lateral movement
• Классификатор трафика: точность до 97.3%

Анализ журналов событий (Log Analysis)

• LSTM-модель на последовательностях событий
• Корреляция событий из SIEM-системы

Made by

08

Классификация и фильтрация угроз

1

Входящие данные

логи, трафик, запросы к БД

2

Предобработка

нормализация, feature extraction, tokenization

3

ML-классификатор

Random Forest / XGBoost / LSTM

4

Оценка риска

Low / Medium / High / Critical scoring

5

Реагирование

блокировка, алерт, расследование

Класс угрозы	Пример	Метод ML	Точность
Несанкционированный доступ	Brute force	SVM	96.8%
Утечка данных	Аномальный экспорт	Isolation Forest	94.2%
Вредоносное ПО	Ransomware	CNN	98.1%
Инсайдерская угроза	UEBA отклонение	LSTM	91.5%

07

Made by

09

СИСТЕМА ЗАЩИТЫ ДАННЫХ

Архитектура системы защиты

Уровень
реагирования

SIEM, SOC, Alerting, Auto-blocking

Уровень
ML-анализа

Anomaly Detection Engine, Classifier Models, Risk Scoring

Уровень
сбора данных

Log Aggregation, Network Monitoring, API Gateway Logs, DB Audit

Медицинская
инфраструктура

МИС/ЭМК, DICOM-серверы, Web-порталы, Мобильные приложения

Технологический стек

ML Engine

Python / scikit-learn / TensorFlow

Data Pipeline

Apache Kafka + Spark

Storage

PostgreSQL + Elasticsearch

SIEM Integration

IBM QRadar / Splunk

08

Made by

10

Набор данных и обучение модели

Характеристики набора данных

━ Источник: логи МИС регионального медицинского центра
━ Период: 2021–2024 гг. (36 месяцев)
━ Объём: 14.7 млн событий
━ Классы: 12 типов угроз + нормальная активность
━ Разбивка: 70% обучение / 15% валидация / 15% тест

78%

22%

Нормальные события

Аномалии

Методы балансировки классов:

SMOTE (Synthetic Minority Oversampling)
Class weighting
Undersampling majority class

Процесс обучения

1

Feature Engineering

47 признаков

2

Кросс-валидация

5-fold CV

3

Подбор гиперпараметров

Grid Search / Bayesian Opt.

4

Ансамблирование

Stacking (RF + XGBoost + LSTM)

5

Оценка

ROC-AUC, F1, Precision, Recall

09

Made by

11

Результаты оценки моделей

Модель	Accuracy	Precision	Recall	F1-Score	ROC-AUC
Random Forest	96.8%	95.4%	97.1%	96.2%	0.987
XGBoost	97.3%	96.8%	97.6%	97.2%	0.991
LSTM	95.9%	94.7%	96.2%	95.4%	0.983
Ансамбль (Stacking)	98.4%	97.9%	98.7%	98.3%	0.996
Baseline (SVM)	88.2%	86.9%	89.1%	88.0%	0.941

False Positive Rate: 1.6%

Низкий уровень ложных тревог

Время обнаружения: 2.3 сек

Обработка события в реальном времени

* Тестирование на реальных данных медицинского центра, 2024

10

Made by

12

ВНЕДРЕНИЕ РЕШЕНИЯ

Практическая реализация

Этап 1 (3 мес.) — Анализ и проектирование

Аудит существующей ИС, сбор требований, выбор архитектуры

Этап 2 (4 мес.) — Сбор и подготовка данных

Развёртывание агентов сбора логов, разметка датасета

Этап 3 (5 мес.) — Разработка ML-моделей

Обучение, валидация, ансамблирование моделей

Этап 4 (3 мес.) — Интеграция и тестирование

Подключение к SIEM, нагрузочное тестирование, пилот

Этап 5 (2 мес.) — Внедрение и мониторинг

Развёртывание в продуктиве, обучение персонала

Технологический стек

Python 3.11

scikit-learn

TensorFlow 2.x

Apache Kafka

Elasticsearch

Kibana

Docker/K8s

PostgreSQL

REST API

IBM QRadar

ПИЛОТНАЯ ПЛОЩАДКА

Региональный медицинский центр

1200 пользователей

3 корпуса

11

Made by

13

12

РЕЗУЛЬТАТЫ • СРАВНЕНИЕ

Эффект от внедрения системы

ДО внедрения

Среднее время обнаружения угрозы: 48 часов

Количество пропущенных инцидентов: ~35%

Ложные срабатывания: ~40% алертов

Ручной анализ: 8 часов/день (SOC-аналитик)

Штрафные риски: высокие (несоответствие 152-ФЗ)

ПОСЛЕ внедрения

Среднее время обнаружения угрозы: 2.3 секунды

Пропущенные инциденты: менее 2%

Ложные срабатывания: снижены до 1.6%

Автоматическая обработка: 94% алертов

Штрафные риски: минимальные (соответствие)

VS

−97%

Время обнаружения угроз

−99%

Пропущенные инциденты

−96%

Ложные срабатывания

+94%

Автоматизация обработки

Made by

14

АНАЛИЗ И ПЕРСПЕКТИВЫ

Ограничения и направления развития

Текущие ограничения

Высокие требования к вычислительным ресурсам для LSTM-моделей

Необходимость переобучения при изменении паттернов атак

Сложность разметки обучающих данных в реальных условиях

Риск adversarial attacks на ML-модели (атаки на сами алгоритмы)

Ограниченная интерпретируемость ансамблевых моделей (черный ящик)

Перспективы развития

Federated Learning — обучение на распределённых данных без их передачи

Explainable AI (XAI) — интерпретируемые решения для регуляторов

Real-time streaming ML — обработка потоков в Apache Flink

LLM для анализа угроз — GPT-подобные модели для SIEM

Квантово-устойчивая криптография в связке с ML

13

Made by

15

Выводы и рекомендации

1

Эффективность подтверждена

Ансамблевая ML-модель достигает точности 98.4% при обнаружении угроз в медицинских ИС

2

Соответствие требованиям

Разработанная система обеспечивает выполнение требований 152-ФЗ, GDPR и HIPAA в части автоматизированного контроля

3

Практическая применимость

Успешное пилотное внедрение в региональном медицинском центре подтверждает готовность к масштабированию

4

Перспективность направления

Использование Federated Learning и XAI позволит преодолеть текущие ограничения

Рекомендуется внедрение ML-систем ИБ во всех медицинских организациях 1-го и 2-го уровня как обязательного элемента инфраструктуры защиты ПДн

14

Made by

16

Спасибо
за внимание!

sec.research@med-innovations.ru

+7 (495) 987-65-43

t.me/med_infosec

Список использованной литературы

Сибгатуллин Д.Р. и др. Применение методов машинного обучения для обнаружения аномалий в медицинских ИС // Информационная безопасность. — 2023. — №4. — С. 45–52.
Литвинова Т.А. Защита персональных данных пациентов: правовые и технические аспекты. — М.: МГТУ им. Баумана, 2022. — 312 с.
Esteva A. et al. A guide to deep learning in healthcare // Nature Medicine. — 2019. — Vol. 25. — P. 24–29.
Федеральный закон от 27.07.2006 №152-ФЗ «О персональных данных».
GDPR Regulation (EU) 2016/679 of the European Parliament.
NIST SP 800-66r2: Implementing the HIPAA Security Rule. — NIST, 2023.
Buczak A.L., Guven E. A Survey of Data Mining and ML Methods for Cybersecurity Intrusion Detection // IEEE Communications Surveys. — 2016.
Шаньгин В.Ф. Защита компьютерной информации. Эффективные методы и средства. — М.: ДМК Пресс, 2021.

Презентация подготовлена в 2026 г.

Made by

DESIGNER-MADE
PRESENTATION,
GENERATED FROM
YOUR PROMPT

Create your own professional slide deck with real images, data charts, and unique design in under a minute.

Generate For Free