ML для защиты персональных данных в медицине | bobr.ai
Применение машинного обучения для информационной безопасности в медицине. Обнаружение аномалий, 152-ФЗ, GDPR и архитектура интеллектуальной защиты.
НАУЧНАЯ ПРЕЗЕНТАЦИЯ • 2026
Применение методов машинного обучения<br>для защиты персональных данных<br>в медицинских системах
Информационная безопасность × Машинное обучение × Медицинские ИС
Иванов Иван Иванович
Медицинский Университет Инноваций
Содержание
Актуальность и постановка проблемы
Угрозы информационной безопасности в медицине
Нормативно-правовая база (152-ФЗ, GDPR)
Методы машинного обучения для ИБ
Обнаружение аномалий и вторжений
Классификация и фильтрация угроз
Архитектура системы защиты
Практическая реализация и результаты
Оценка эффективности
Выводы и рекомендации
ПРОБЛЕМАТИКА
Актуальность проблемы
41 млн
записей пациентов похищено в 2023 году в мире
2× рост
атак на медицинские ИС за последние 3 года
€20 млн
максимальный штраф по GDPR за утечку данных
Традиционные методы защиты не справляются с объёмом и сложностью угроз
Медицинские данные — наиболее ценная цель для злоумышленников
Необходима автоматизированная интеллектуальная система защиты
02
Угрозы ИБ в медицинских системах
03
Внешние атаки
Ransomware/шифровальщики
Фишинг и социальная инженерия
DDoS на медицинские сервисы
Внутренние угрозы
Несанкционированный доступ персонала
Утечки через привилегированных пользователей
Случайное раскрытие данных
Уязвимости ПО
Устаревшие медицинские ИС
Незащищённые API и интеграции
Слабая аутентификация
Нарушения регуляторов
Несоответствие 152-ФЗ / GDPR
Отсутствие аудита доступа
Нарушение сроков хранения данных
Нормативно-правовая база
Российское законодательство
152-ФЗ «О персональных данных»
требования к обработке и защите ПДн
Приказ ФСТЭК №17, №21
защита государственных ИС
Постановление Правительства №1119
уровни защищённости ПДн
ГОСТы серии Р 57580
безопасность финансовых/медицинских данных
Международные стандарты
GDPR (EU) 2016/679
защита данных граждан ЕС
HIPAA (США)
стандарт защиты медицинских данных
ISO/IEC 27001
система управления ИБ
HL7 FHIR Security
стандарт безопасности медицинских API
Нарушение требований →
штрафы до 20 млн € (GDPR)
уголовная ответственность (152-ФЗ)
ТЕХНОЛОГИЧЕСКИЙ СТЕК ИБ
Методы машинного обучения для ИБ
Обучение с учителем
(Supervised Learning)
Random Forest
Классификация вредоносного трафика
SVM (Support Vector Machine)
Обнаружение аномальных запросов
Gradient Boosting (XGBoost)
Выявление мошеннического доступа
Обучение без учителя
(Unsupervised Learning)
K-Means Clustering
Группировка паттернов поведения
Autoencoder (Нейросети)
Обнаружение сложных аномалий
Isolation Forest
Выявление выбросов в логах
Глубокое обучение
(Deep Learning)
LSTM (Рекуррентные сети)
Анализ последовательностей событий
CNN
Обнаружение паттернов в сетевом трафике
Transformer / BERT
Анализ текстовых логов и угроз
Обнаружение аномалий и вторжений
Поведенческий анализ пользователей (UEBA)
Профилирование типичных действий врача/медсестры
Выявление отклонений: время доступа, объём данных, геолокация
Сетевой IDS на основе ML
Обнаружение DDoS, port scanning, lateral movement
Классификатор трафика: точность до 97.3%
Анализ журналов событий (Log Analysis)
LSTM-модель на последовательностях событий
Корреляция событий из SIEM-системы
Классификация и фильтрация угроз
Входящие данные
логи, трафик, запросы к БД
Предобработка
нормализация, feature extraction, tokenization
ML-классификатор
Random Forest / XGBoost / LSTM
Оценка риска
Low / Medium / High / Critical scoring
Реагирование
блокировка, алерт, расследование
Класс угрозы
Пример
Метод ML
Точность
Несанкционированный доступ
Brute force
SVM
96.8%
Утечка данных
Аномальный экспорт
Isolation Forest
94.2%
Вредоносное ПО
Ransomware
CNN
98.1%
Инсайдерская угроза
UEBA отклонение
LSTM
91.5%
07
СИСТЕМА ЗАЩИТЫ ДАННЫХ
Архитектура системы защиты
Уровень<br>реагирования
SIEM, SOC, Alerting, Auto-blocking
Уровень<br>ML-анализа
Anomaly Detection Engine, Classifier Models, Risk Scoring
Уровень<br>сбора данных
Log Aggregation, Network Monitoring, API Gateway Logs, DB Audit
Медицинская<br>инфраструктура
МИС/ЭМК, DICOM-серверы, Web-порталы, Мобильные приложения
Технологический стек
ML Engine
Python / scikit-learn / TensorFlow
Data Pipeline
Apache Kafka + Spark
Storage
PostgreSQL + Elasticsearch
SIEM Integration
IBM QRadar / Splunk
08
Набор данных и обучение модели
Результаты оценки моделей
False Positive Rate: 1.6%
Низкий уровень ложных тревог
Время обнаружения: 2.3 сек
Обработка события в реальном времени
* Тестирование на реальных данных медицинского центра, 2024
10
ВНЕДРЕНИЕ РЕШЕНИЯ
Практическая реализация
Этап 1 (3 мес.)
Анализ и проектирование
Аудит существующей ИС, сбор требований, выбор архитектуры
Этап 2 (4 мес.)
Сбор и подготовка данных
Развёртывание агентов сбора логов, разметка датасета
Этап 3 (5 мес.)
Разработка ML-моделей
Обучение, валидация, ансамблирование моделей
Этап 4 (3 мес.)
Интеграция и тестирование
Подключение к SIEM, нагрузочное тестирование, пилот
Этап 5 (2 мес.)
Внедрение и мониторинг
Развёртывание в продуктиве, обучение персонала
Технологический стек
Python 3.11
scikit-learn
TensorFlow 2.x
Apache Kafka
Elasticsearch
Kibana
Docker/K8s
PostgreSQL
REST API
IBM QRadar
ПИЛОТНАЯ ПЛОЩАДКА
Региональный медицинский центр
1200 пользователей
3 корпуса
11
РЕЗУЛЬТАТЫ • СРАВНЕНИЕ
Эффект от внедрения системы
Время обнаружения угроз
Пропущенные инциденты
Ложные срабатывания
Автоматизация обработки
АНАЛИЗ И ПЕРСПЕКТИВЫ
Ограничения и направления развития
Текущие ограничения
<b>Высокие требования</b> к вычислительным ресурсам для LSTM-моделей
<b>Необходимость переобучения</b> при изменении паттернов атак
<b>Сложность разметки</b> обучающих данных в реальных условиях
Риск <b>adversarial attacks</b> на ML-модели (атаки на сами алгоритмы)
<b>Ограниченная интерпретируемость</b> ансамблевых моделей (черный ящик)
Перспективы развития
<b>Federated Learning</b> — обучение на распределённых данных без их передачи
<b>Explainable AI (XAI)</b> — интерпретируемые решения для регуляторов
<b>Real-time streaming ML</b> — обработка потоков в Apache Flink
<b>LLM для анализа угроз</b> — GPT-подобные модели для SIEM
<b>Квантово-устойчивая криптография</b> в связке с ML
13
Выводы и рекомендации
Эффективность подтверждена
Ансамблевая ML-модель достигает точности 98.4% при обнаружении угроз в медицинских ИС
Соответствие требованиям
Разработанная система обеспечивает выполнение требований 152-ФЗ, GDPR и HIPAA в части автоматизированного контроля
Практическая применимость
Успешное пилотное внедрение в региональном медицинском центре подтверждает готовность к масштабированию
Перспективность направления
Использование Federated Learning и XAI позволит преодолеть текущие ограничения
Рекомендуется внедрение ML-систем ИБ во всех медицинских организациях 1-го и 2-го уровня как обязательного элемента инфраструктуры защиты ПДн
Список использованной литературы
Спасибо<br>за внимание!
sec.research@med-innovations.ru
+7 (495) 987-65-43
t.me/med_infosec
Сибгатуллин Д.Р. и др. Применение методов машинного обучения для обнаружения аномалий в медицинских ИС // Информационная безопасность. — 2023. — №4. — С. 45–52.
Литвинова Т.А. Защита персональных данных пациентов: правовые и технические аспекты. — М.: МГТУ им. Баумана, 2022. — 312 с.
Esteva A. et al. A guide to deep learning in healthcare // Nature Medicine. — 2019. — Vol. 25. — P. 24–29.
Федеральный закон от 27.07.2006 №152-ФЗ «О персональных данных».
GDPR Regulation (EU) 2016/679 of the European Parliament.
NIST SP 800-66r2: Implementing the HIPAA Security Rule. — NIST, 2023.
Buczak A.L., Guven E. A Survey of Data Mining and ML Methods for Cybersecurity Intrusion Detection // IEEE Communications Surveys. — 2016.
Шаньгин В.Ф. Защита компьютерной информации. Эффективные методы и средства. — М.: ДМК Пресс, 2021.
Презентация подготовлена в 2026 г.
- машинное обучение
- информационная безопасность
- персональные данные
- здравоохранение
- 152-фз
- искусственный интеллект
- cybersecurity