1. O concepto de enmascaramento de datos
O enmascaramento de datos tamén se coñece como enmascaramento de datos. É un método técnico para converter, modificar ou ocultar datos confidenciais como o número de teléfono móbil, o número da tarxeta bancaria e outra información cando se establecen regras e políticas de enmascaramento. Esta técnica utilízase principalmente para evitar que os datos confidenciais se utilicen directamente en entornos pouco fiables.
Principio de enmascaramento de datos: o enmascaramento de datos debe manter as características orixinais dos datos, as regras empresariais e a relevancia dos datos para garantir que o desenvolvemento, as probas e a análise de datos posteriores non se vexan afectados polo enmascaramento. Asegúrese a coherencia e a validez dos datos antes e despois do enmascaramento.
2. Clasificación do enmascaramento de datos
O enmascaramento de datos pódese dividir en enmascaramento de datos estático (SDM) e enmascaramento de datos dinámico (DDM).
Enmascaramento de datos estáticos (SDM)O enmascaramento de datos estáticos require o establecemento dunha nova base de datos de ambientes non produtivos para illala do ambiente de produción. Os datos sensibles extráense da base de datos de produción e almacénanse na base de datos non produtiva. Deste xeito, os datos insensibilizados illánse do ambiente de produción, o que satisfai as necesidades empresariais e garante a seguridade dos datos de produción.
Enmascaramento dinámico de datos (DDM)Xeralmente úsase no entorno de produción para desensibilizar datos confidenciais en tempo real. Ás veces, requírense diferentes niveis de enmascaramento para ler os mesmos datos confidenciais en diferentes situacións. Por exemplo, diferentes roles e permisos poden implementar diferentes esquemas de enmascaramento.
Aplicación de enmascaramento de produtos de datos e informes de datos
Estes escenarios inclúen principalmente produtos ou carteis de monitorización de datos internos, produtos de datos de servizos externos e informes baseados na análise de datos, como informes empresariais e revisións de proxectos.
3. Solución de enmascaramento de datos
Os esquemas habituais de enmascaramento de datos inclúen: invalidación, valor aleatorio, substitución de datos, cifrado simétrico, valor medio, desprazamento e arredondamento, etc.
InvalidaciónA invalidación refírese ao cifrado, truncamento ou ocultación de datos confidenciais. Este esquema adoita substituír os datos reais por símbolos especiais (como *). A operación é sinxela, pero os usuarios non poden coñecer o formato dos datos orixinais, o que pode afectar a aplicacións de datos posteriores.
Valor aleatorioO valor aleatorio refírese á substitución aleatoria de datos confidenciais (os números substitúen os díxitos, as letras substitúen as letras e os caracteres substitúen os caracteres). Este método de enmascaramento garantirá o formato dos datos confidenciais ata certo punto e facilitará a aplicación posterior de datos. Pode que sexan necesarios dicionarios de enmascaramento para algunhas palabras significativas, como nomes de persoas e lugares.
Substitución de datosA substitución de datos é similar ao enmascaramento de valores nulos e aleatorios, agás que en lugar de usar caracteres especiais ou valores aleatorios, os datos de enmascaramento substitúense por un valor específico.
Cifrado simétricoO cifrado simétrico é un método especial de enmascaramento reversible. Cifra datos confidenciais mediante claves e algoritmos de cifrado. O formato de texto cifrado é coherente cos datos orixinais nas regras lóxicas.
MediaO esquema de media úsase a miúdo en escenarios estatísticos. Para datos numéricos, primeiro calculamos a súa media e, a continuación, distribuímos aleatoriamente os valores desensibilizados arredor da media, mantendo así constante a suma dos datos.
Desprazamento e arredondamentoEste método cambia os datos dixitais mediante un desprazamento aleatorio. O arredondamento de desprazamento garante a autenticidade aproximada do rango, mantendo ao mesmo tempo a seguridade dos datos, que se aproximan máis aos datos reais que os esquemas anteriores e ten unha grande importancia no escenario da análise de macrodatos.
O modelo recomendado"ML-NPB-5660"para o enmascaramento de datos
4. Técnicas de enmascaramento de datos de uso común
(1). Técnicas estatísticas
Mostraxe de datos e agregación de datos
- Mostraxe de datos: A análise e avaliación do conxunto de datos orixinal mediante a selección dun subconxunto representativo do conxunto de datos é un método importante para mellorar a eficacia das técnicas de desidentificación.
- Agregación de datos: como conxunto de técnicas estatísticas (como a suma, a contaxe, a media, os máximos e os mínimos) aplicadas aos atributos dos microdatos, o resultado é representativo de todos os rexistros do conxunto de datos orixinal.
(2). Criptografía
A criptografía é un método común para desensibilizar ou mellorar a eficacia da desensibilización. Os diferentes tipos de algoritmos de cifrado poden conseguir diferentes efectos de desensibilización.
- Cifrado determinista: un cifrado simétrico non aleatorio. Normalmente procesa datos de identificación e pode descifrar e restaurar o texto cifrado ao ID orixinal cando sexa necesario, pero a clave debe estar protexida axeitadamente.
- Cifrado irreversible: a función hash utilízase para procesar datos, que normalmente se empregan para datos de identificación. Non se poden descifrar directamente e a relación de mapeo debe gardarse. Ademais, debido á característica da función hash, poden producirse colisións de datos.
- Cifrado homomórfico: Úsase o algoritmo homomórfico de texto cifrado. A súa característica é que o resultado da operación de texto cifrado é o mesmo que o da operación de texto plano despois do descifrado. Polo tanto, úsase habitualmente para procesar campos numéricos, pero non se usa amplamente por razóns de rendemento.
(3). Tecnoloxía do sistema
A tecnoloxía de supresión elimina ou protexe os elementos de datos que non cumpren coa protección da privacidade, pero non os publica.
- Enmascaramento: refírese ao método de desensibilización máis común para enmascarar o valor do atributo, como o número do opoñente, o DNI marcado cun asterisco ou o enderezo truncado.
- Supresión local: refírese ao proceso de eliminar valores de atributos específicos (columnas), eliminando campos de datos non esenciais;
- Supresión de rexistros: refírese ao proceso de eliminar rexistros específicos (filas), eliminando rexistros de datos non esenciais.
(4). Tecnoloxía do pseudónimo
A pseudonomía é unha técnica de desidentificación que emprega un pseudónimo para substituír un identificador directo (ou outro identificador sensible). As técnicas de pseudónimo crean identificadores únicos para cada persoa suxeita a información, en lugar de identificadores directos ou sensibles.
- Pode xerar valores aleatorios de forma independente para corresponder ao ID orixinal, gardar a táboa de mapeo e controlar estritamente o acceso á táboa de mapeo.
- Tamén podes usar o cifrado para producir pseudónimos, pero debes gardar a clave de descifrado correctamente;
Esta tecnoloxía úsase amplamente no caso dun gran número de usuarios de datos independentes, como OpenID no escenario de plataforma aberta, onde diferentes desenvolvedores obteñen diferentes OpenID para o mesmo usuario.
(5). Técnicas de xeneralización
A técnica de xeneralización refírese a unha técnica de anonimización que reduce a granularidade dos atributos seleccionados nun conxunto de datos e proporciona unha descrición máis xeral e abstracta dos datos. A tecnoloxía de xeneralización é doada de implementar e pode protexer a autenticidade dos datos a nivel de rexistro. Úsase habitualmente en produtos de datos ou informes de datos.
- Arredondamento: implica a selección dunha base de arredondamento para o atributo seleccionado, como a forense ascendente ou descendente, o que produce resultados 100, 500, 1K e 10K
- Técnicas de codificación superior e inferior: Substitúense os valores por riba (ou por debaixo) do limiar por un limiar que represente o nivel superior (ou inferior), o que produce un resultado de "por riba de X" ou "por debaixo de X".
(6). Técnicas de aleatorización
Como unha especie de técnica de desidentificación, a tecnoloxía de aleatorización refírese á modificación do valor dun atributo mediante a aleatorización, de xeito que o valor despois da aleatorización sexa diferente do valor real orixinal. Este proceso reduce a capacidade dun atacante para derivar un valor de atributo doutros valores de atributo no mesmo rexistro de datos, pero afecta á autenticidade dos datos resultantes, o que é común cos datos de proba de produción.
Data de publicación: 27 de setembro de 2022