Как мы обезличиваем ПДн, сохраняя их смысл и качество. Чтобы тестовый стенд был полезным, будто там данные с прода
Год назад мы выпустили «Маскировщик» — промышленный софт, который обезличивает персональные данные, сохраняя их качество и смысл. То есть гендерный баланс; социально‑демографическую структуру; родственные связи; страну и оператора в телефоне; валидность паспортов, ИНН, СНИЛС. В общем, «Маскировщик» делает так, чтобы вы тестировали продукты и обучали ML‑модели будто бы на «живых» ПД.
В этой статье пролью свет на методы изменения состава и семантики, которые использует продукт. Для простоты буду называть их «алгоритмами маскирования». Расскажу, по какой логике меняем одни данные другими, какие ограничения и как учитываем.
Разобраться в алгоритмах маскированияИсточник: Хабрахабр
Похожие новости
- Почему ваша LLM-платформа — следующая цель: аудит безопасности AI-сервиса изнутри
- [Перевод] Пять документов ломают ваш RAG: где реальная уязвимость и что с ней делать
- Простой гайд как на одном и том же сервере иметь и панель 3X-UI за NGINX, и свой сервис
- Спираль эволюции веб-дизайна: от десктопной версии к адаптиву и обратно к многоликости
- Окружайте, так удобнее промахиваться! Встроенные в Hugging Face проверки ML-моделей против одного сканера
- [Перевод] Проблемы санации SVG
- Яндекс Плюс AdTech: как экосистемные решения обеспечили рост продаж билетов на фильм «Горыныч»
- Молодые дизайнеры против алгоритмов: страх перед ИИ испытывает лишь каждый десятый
- Безопасность приложений на Typescript от А до Я: гайд по защите от очевидных и не очень уязвимостей
- Доля рекламных бюджетов под управлением ИИ в Яндексе достигла 85%