Cal é a tecnoloxía e a solución de enmascarado de datos no corredor de paquetes de rede?

1. O concepto de enmascarado de datos

A máscara de datos tamén se coñece como máscara de datos. É un método técnico para converter, modificar ou cubrir datos sensibles como o número de teléfono móbil, o número de tarxeta bancaria e outra información cando damos normas e políticas de enmascarado. Esta técnica úsase principalmente para evitar que os datos sensibles se usen directamente en ambientes non fiables.

Principio de máscara de datos: a máscara de datos debe manter as características orixinais de datos, as regras comerciais e a relevancia dos datos para asegurarse de que o desenvolvemento posterior, a proba e a análise de datos non se verán afectados pola enmascaración. Asegúrese de coherencia e validez de datos antes e despois do enmascarado.

2. Clasificación de enmascarado de datos

A máscara de datos pódese dividir en máscara de datos estática (SDM) e enmascarado de datos dinámicos (DDM).

Masking de datos estáticos (SDM): A máscara de datos estática require o establecemento dunha nova base de datos de ambiente de non produción para o illamento do ambiente de produción. Os datos sensibles son extraídos da base de datos de produción e logo almacenados na base de datos de non produción. Deste xeito, os datos desensibilizados están illados do ambiente de produción, o que satisfaga as necesidades empresariais e asegura a seguridade dos datos de produción.

SDM

Masking de datos dinámicos (DDM): Úsase xeralmente no ambiente de produción para desensibilizar datos sensibles en tempo real. Ás veces, son necesarios diferentes niveis de enmascarado para ler os mesmos datos sensibles en diferentes situacións. Por exemplo, diferentes roles e permisos poden implementar diferentes esquemas de enmascarado.

DDM

Aplicación de informes de datos e produtos de datos

Estes escenarios inclúen principalmente produtos de control de datos internos ou cartelería, produtos de datos de servizos externos e informes baseados na análise de datos, como informes empresariais e revisión do proxecto.

Datos que informan a máscara do produto

3. Solución de enmascarado de datos

Os esquemas comúns de enmascarado de datos inclúen: invalidación, valor aleatorio, substitución de datos, cifrado simétrico, valor medio, compensación e redondeo, etc.

Invalidación: A invalidación refírese ao cifrado, truncamento ou oculto de datos sensibles. Este esquema normalmente substitúe datos reais por símbolos especiais (como *). A operación é sinxela, pero os usuarios non poden coñecer o formato dos datos orixinais, o que pode afectar ás aplicacións de datos posteriores.

Valor aleatorio: O valor aleatorio refírese á substitución aleatoria de datos sensibles (os números substitúen os díxitos, as letras substitúen as letras e os caracteres substitúen os caracteres). Este método de enmascarado asegurará o formato de datos sensibles ata certo punto e facilitará a aplicación de datos posterior. É posible que os dicionarios de enmascaramento sexan necesarios para algunhas palabras significativas, como nomes de persoas e lugares.

Substitución de datos: A substitución de datos é similar á enmascarado de valores nulos e aleatorios, excepto que en vez de usar caracteres especiais ou valores aleatorios, os datos de enmascarado substitúense por un valor específico.

Cifrado simétrico: O cifrado simétrico é un método especial de enmascarado reversible. Cifra datos sensibles a través de claves e algoritmos de cifrado. O formato de cifrado é consistente cos datos orixinais das regras lóxicas.

Media: O esquema medio úsase a miúdo en escenarios estatísticos. Para datos numéricos, primeiro calculamos a súa media e, a continuación, distribuímos de xeito aleatorio os valores desensibilizados ao redor da media, mantendo así a suma dos datos constantes.

Compensación e redondeo: Este método cambia os datos dixitais por cambio aleatorio. O redondeo de compensación asegura a autenticidade aproximada do rango mantendo a seguridade dos datos, que está máis preto dos datos reais que os esquemas anteriores, e ten un gran significado no escenario da análise de datos de grandes datos.

ML-NPB-5660- 数据脱敏

O modelo recomendado "ML-NPB-5660"Para a máscara de datos

4. Técnicas de enmascarado de datos de uso común

(1). Técnicas estatísticas

Mostraxe de datos e agregación de datos

- Mostraxe de datos: a análise e avaliación dos datos orixinais conxuntos seleccionando un subconxunto representativo do conxunto de datos é un método importante para mellorar a eficacia das técnicas de desidentificación.

- Agregación de datos: como colección de técnicas estatísticas (como sumación, reconto, media, máxima e mínima) aplicada a atributos en microdatos, o resultado é representativo de todos os rexistros do conxunto de datos orixinal.

(2). Criptografía

A criptografía é un método común para desensibilizar ou mellorar a eficacia da desensibilización. Diferentes tipos de algoritmos de cifrado poden conseguir diferentes efectos de desensibilización.

- cifrado determinista: un cifrado simétrico non aleatorio. Normalmente procesa datos de ID e pode descifrar e restaurar o texto do ID orixinal cando sexa necesario, pero a clave debe estar protexida correctamente.

- Cifrado irreversible: a función de hash úsase para procesar datos, que normalmente se usa para datos de identificación. Non se pode descifrar directamente e debe gardar a relación de mapeo. Ademais, debido á característica da función de hash, pode producirse unha colisión de datos.

- Cifrado homomórfico: úsase o algoritmo homomórfico cifrado. A súa característica é que o resultado da operación de texto cifrado é o mesmo que o da operación de texto plano despois do descifrado. Polo tanto, úsase comunmente para procesar campos numéricos, pero non se usa amplamente por razóns de rendemento.

(3). Tecnoloxía do sistema

A tecnoloxía de supresión elimina ou protexe os elementos de datos que non cumpren a protección contra a privacidade, pero non os publica.

- Enmascarado: refírese ao método de desensibilización máis común para enmascarar o valor do atributo, como o número de opoñente, a tarxeta de identificación está marcada cun asterisco ou o enderezo está truncado.

- Supresión local: refírese ao proceso de eliminación de valores de atributos específicos (columnas), eliminando campos de datos non esenciais;

- Supresión de rexistros: refírese ao proceso de eliminación de rexistros específicos (filas), eliminando rexistros de datos non esenciais.

(4). Tecnoloxía de pseudónimo

Pseudomanning é unha técnica de desidentificación que usa un pseudónimo para substituír un identificador directo (ou outro identificador sensible). As técnicas de pseudónimo crean identificadores únicos para cada suxeito de información individual, en lugar de identificadores directos ou sensibles.

- Pode xerar valores aleatorios de forma independente para corresponder ao ID orixinal, gardar a táboa de mapeo e controlar estrictamente o acceso á táboa de mapeo.

- Tamén podes usar o cifrado para producir pseudónimos, pero necesitas manter correctamente a clave de descifrado;

Esta tecnoloxía é amplamente utilizada no caso dun gran número de usuarios de datos independentes, como OpenID no escenario de plataforma aberta, onde diferentes desenvolvedores obteñen diferentes OpenIds para o mesmo usuario.

(5). Técnicas de xeneralización

A técnica de xeneralización refírese a unha técnica de desidentificación que reduce a granularidade dos atributos seleccionados nun conxunto de datos e proporciona unha descrición máis xeral e abstracta dos datos. A tecnoloxía de xeneralización é fácil de implementar e pode protexer a autenticidade dos datos a nivel de rexistro. Úsase habitualmente en produtos de datos ou informes de datos.

- Redondeo: implica seleccionar unha base de redondeo para o atributo seleccionado, como forenses cara arriba ou descendente, obtendo resultados 100, 500, 1K e 10K

- Técnicas de codificación superior e inferior: substitúe os valores por riba (ou por baixo) o limiar por un limiar que representa o nivel superior (ou inferior), obtendo un resultado de "por encima de x" ou "debaixo x"

(6). Técnicas de aleatorización

Como unha especie de técnica de desidentificación, a tecnoloxía de aleatorización refírese a modificar o valor dun atributo mediante aleatorización, de xeito que o valor despois da aleatorización é diferente do valor real orixinal. Este proceso reduce a capacidade dun atacante para obter un valor de atributo doutros valores de atributo no mesmo rexistro de datos, pero afecta á autenticidade dos datos resultantes, que é común cos datos de proba de produción.


Tempo post: 27-2022 de setembro