1. O concepto de enmascaramento de datos
O enmascaramento de datos tamén se coñece como enmascaramento de datos. É un método técnico para converter, modificar ou cubrir datos confidenciais como o número de teléfono móbil, o número de tarxeta bancaria e outra información cando demos regras e políticas de enmascaramento. Esta técnica utilízase principalmente para evitar que os datos confidenciais se utilicen directamente en ambientes pouco fiables.
Principio de enmascaramento de datos: o enmascaramento de datos debe manter as características orixinais dos datos, as regras comerciais e a relevancia dos datos para garantir que o desenvolvemento, probas e análises de datos posteriores non se vexan afectados polo enmascaramento. Garantir a coherencia e a validez dos datos antes e despois do enmascaramento.
2. Clasificación do enmascaramento de datos
O enmascaramento de datos pódese dividir en enmascaramento de datos estático (SDM) e enmascaramento de datos dinámico (DDM).
Enmascaramento de datos estáticos (SDM): O enmascaramento de datos estáticos require o establecemento dunha nova base de datos de ambientes non produtivos para o illamento do ambiente de produción. Os datos sensibles extráense da base de datos de produción e almacénanse despois na base de datos non de produción. Deste xeito, os datos desensibilizados quedan illados do entorno de produción, o que atende ás necesidades empresariais e garante a seguridade dos datos de produción.
Enmascaramento de datos dinámicos (DDM): úsase xeralmente no ambiente de produción para desensibilizar datos sensibles en tempo real. Ás veces, son necesarios diferentes niveis de enmascaramento para ler os mesmos datos sensibles en diferentes situacións. Por exemplo, diferentes roles e permisos poden implementar diferentes esquemas de enmascaramento.
Aplicación de informes de datos e enmascaramento de produtos de datos
Estes escenarios inclúen principalmente produtos de seguimento de datos internos ou cartelería, produtos de datos de servizos externos e informes baseados na análise de datos, como informes comerciais e revisión de proxectos.
3. Solución de enmascaramento de datos
Os esquemas de enmascaramento de datos comúns inclúen: invalidación, valor aleatorio, substitución de datos, cifrado simétrico, valor medio, compensación e redondeo, etc.
Invalidación: a invalidación refírese ao cifrado, truncamento ou ocultación de datos confidenciais. Este esquema adoita substituír os datos reais por símbolos especiais (como *). O funcionamento é sinxelo, pero os usuarios non poden coñecer o formato dos datos orixinais, o que pode afectar a aplicacións de datos posteriores.
Valor aleatorio: O valor aleatorio refírese á substitución aleatoria de datos sensibles (os números substitúen os díxitos, as letras as letras e os caracteres os caracteres). Este método de enmascaramento garantirá ata certo punto o formato dos datos sensibles e facilitará a posterior aplicación de datos. Poden ser necesarios dicionarios de enmascaramento para algunhas palabras significativas, como nomes de persoas e lugares.
Substitución de datos: a substitución de datos é semellante ao enmascaramento de valores nulos e aleatorios, excepto que en lugar de usar caracteres especiais ou valores aleatorios, os datos de enmascaramento substitúense por un valor específico.
Cifrado simétrico: O cifrado simétrico é un método especial de enmascaramento reversible. Cifra datos sensibles mediante claves de cifrado e algoritmos. O formato do texto cifrado é coherente cos datos orixinais en regras lóxicas.
Media: O esquema medio utilízase a miúdo en escenarios estatísticos. Para os datos numéricos, primeiro calculamos a súa media e despois distribuímos aleatoriamente os valores desensibilizados arredor da media, mantendo así a suma dos datos constante.
Offset e redondeo: Este método cambia os datos dixitais por desprazamento aleatorio. O redondeo de compensación garante a autenticidade aproximada do rango mantendo a seguridade dos datos, que se aproxima máis aos datos reais que os esquemas anteriores, e ten unha gran importancia no escenario da análise de big data.
O modelo recomendado"ML-NPB-5660"para o enmascaramento de datos
4. Técnicas de enmascaramento de datos de uso habitual
(1). Técnicas estatísticas
Mostraxe de datos e agregación de datos
- Mostraxe de datos: a análise e avaliación do conxunto de datos orixinal mediante a selección dun subconxunto representativo do conxunto de datos é un método importante para mellorar a eficacia das técnicas de desidentificación.
- Agregación de datos: como unha colección de técnicas estatísticas (como suma, reconto, media, máximo e mínimo) aplicadas aos atributos dos microdatos, o resultado é representativo de todos os rexistros do conxunto de datos orixinal.
(2). Criptografía
A criptografía é un método común para desensibilizar ou mellorar a eficacia da desensibilización. Diferentes tipos de algoritmos de cifrado poden conseguir diferentes efectos de desensibilización.
- Cifrado determinista: un cifrado simétrico non aleatorio. Normalmente procesa os datos de identificación e pode descifrar e restaurar o texto cifrado ao ID orixinal cando é necesario, pero a chave debe estar debidamente protexida.
- Cifrado irreversible: a función hash utilízase para procesar datos, que normalmente se usa para os datos de identificación. Non se pode descifrar directamente e hai que gardar a relación de mapeo. Ademais, debido á característica da función hash, pode ocorrer unha colisión de datos.
- Cifrado homomórfico: utilízase o algoritmo homomórfico de texto cifrado. A súa característica é que o resultado da operación de texto cifrado é o mesmo que o da operación de texto plano despois do descifrado. Polo tanto, úsase habitualmente para procesar campos numéricos, pero non é moi utilizado por razóns de rendemento.
(3). Tecnoloxía do sistema
A tecnoloxía de supresión elimina ou protexe os datos que non cumpren a protección da privacidade, pero non os publica.
- Enmascaramento: refírese ao método de desensibilización máis común para enmascarar o valor do atributo, como o número do opoñente, o DNI está marcado cun asterisco ou o enderezo está truncado.
- Supresión local: refírese ao proceso de eliminación de valores de atributos específicos (columnas), eliminando campos de datos non esenciais;
- Supresión de rexistros: refírese ao proceso de eliminación de rexistros específicos (filas), eliminación de rexistros de datos non esenciais.
(4). Pseudónimo Tecnoloxía
Pseudomanning é unha técnica de desidentificación que utiliza un pseudónimo para substituír un identificador directo (ou outro identificador sensible). As técnicas de pseudónimo crean identificadores únicos para cada suxeito de información individual, en lugar de identificadores directos ou sensibles.
- Pode xerar valores aleatorios de forma independente para corresponder ao ID orixinal, gardar a táboa de mapeo e controlar estrictamente o acceso á táboa de mapeo.
- Tamén pode usar o cifrado para producir pseudónimos, pero cómpre manter a clave de descifrado correctamente;
Esta tecnoloxía é moi utilizada no caso dun gran número de usuarios de datos independentes, como OpenID no escenario de plataforma aberta, onde diferentes desenvolvedores obteñen diferentes Openids para o mesmo usuario.
(5). Técnicas de xeneralización
A técnica de xeneralización refírese a unha técnica de desidentificación que reduce a granularidade dos atributos seleccionados nun conxunto de datos e proporciona unha descrición máis xeral e abstracta dos datos. A tecnoloxía de xeneralización é fácil de implementar e pode protexer a autenticidade dos datos a nivel de rexistro. Úsase habitualmente en produtos de datos ou informes de datos.
- Redondeo: implica seleccionar unha base de redondeo para o atributo seleccionado, como a forense ascendente ou descendente, obtendo resultados 100, 500, 1K e 10K
- Técnicas de codificación superior e inferior: substitúe os valores por riba (ou por debaixo) do limiar por un limiar que represente o nivel superior (ou inferior), obtendo un resultado "por riba de X" ou "por debaixo de X".
(6). Técnicas de aleatorización
Como unha especie de técnica de desidentificación, a tecnoloxía de aleatorización refírese á modificación do valor dun atributo mediante a aleatorización, de xeito que o valor despois da aleatorización é diferente do valor real orixinal. Este proceso reduce a capacidade dun atacante para derivar un valor de atributo a partir doutros valores de atributo no mesmo rexistro de datos, pero afecta a autenticidade dos datos resultantes, que é común cos datos de proba de produción.
Hora de publicación: 27-09-2022