A deduplicación de datos é unha tecnoloxía de almacenamento popular e popular que optimiza a capacidade de almacenamento. Elimina os datos redundantes ao eliminar os datos duplicados do conxunto de datos, deixando só unha copia. Como se mostra na figura seguinte. Esta tecnoloxía pode reducir en gran medida a necesidade de espazo de almacenamento físico para satisfacer a crecente demanda de almacenamento de datos. A tecnoloxía de deduplicación pode traer moitos beneficios prácticos, incluíndo principalmente os seguintes aspectos:
(1) | Cumprir os requisitos de ROI (retorno do investimento)/TCO (custo total de propiedade); |
(2) | O rápido crecemento dos datos pódese controlar eficazmente; |
(3) | Aumentar o espazo de almacenamento efectivo e mellorar a eficiencia do almacenamento; |
(4) | Aforra o custo total de almacenamento e o custo de xestión; |
(5) | Aforra o ancho de banda da rede para a transmisión de datos; |
(6) | Aforra custos de operación e mantemento como espazo, subministración de enerxía e refrixeración. |
A tecnoloxía de deduplicación úsase amplamente nos sistemas de copia de seguridade e arquivo de datos, porque hai moitos datos duplicados despois de varias copias de seguridade de datos, o que é moi axeitado para esta tecnoloxía. De feito, a tecnoloxía de deduplicación pódese usar en moitas situacións, incluíndo datos en liña, datos near-line e sistemas de almacenamento de datos fóra de liña. Pódese implementar en sistemas de ficheiros, xestores de volumes, NAS e sans. A deduplicación tamén se pode usar para a recuperación de desastres de datos, a transmisión e sincronización de datos, xa que se pode usar unha tecnoloxía de compresión de datos para o empaquetado de datos. A tecnoloxía de deduplicación pode axudar a moitas aplicacións a reducir o almacenamento de datos, aforrar ancho de banda de rede, mellorar a eficiencia do almacenamento, reducir a xanela de copia de seguridade e aforrar custos.
A deduplicación ten dúas dimensións principais: as taxas de deduplicación e o rendemento. O rendemento da deduplicación depende da tecnoloxía de implementación específica, mentres que a taxa de deduplicación está determinada polas características dos propios datos e polos patróns da aplicación, como se mostra na táboa seguinte. Os provedores de almacenamento actualmente informan de taxas de deduplicación que oscilan entre 20:1 e 500:1.
Alta taxa de deduplicación | Baixa taxa de deduplicación |
Datos creados polo usuario | Datos do mundo natural |
Baixa taxa de cambio de datos | Alta taxa de cambio de datos |
Datos de referencia, datos inactivos | Datos activos |
Aplicación de baixa taxa de cambio de datos | Aplicación de alta taxa de cambio de datos |
Copia de seguridade completa dos datos | Copia de seguridade incremental de datos |
Almacenamento de datos a longo prazo | Almacenamento de datos a curto prazo |
Ampla gama de aplicacións de datos | Pequena gama de aplicacións de datos |
Procesamento continuo de datos empresariais | Procesamento xeral de datos empresariais |
Segmentación de datos pequenos | Segmentación de macrodatos |
Alongar a segmentación de datos | Segmentación de datos de lonxitude fixa |
contido de datos percibido | Contido de datos descoñecido |
Deduplicación de datos de tempo | Deduplicación de datos espaciais |
Puntos de implementación de deduplicación
Débense ter en conta varios factores ao desenvolver ou aplicar a tecnoloxía Dedupe, xa que estes factores afectan directamente ao seu rendemento e eficacia.
(1) | Que | Que datos están desponderados? |
(2) | Cando | Cando se eliminará o peso? |
(3) | Onde | Onde está a eliminación de peso? |
(4) | Como | Como reducir o peso? |
Tecnoloxía de claves de deduplicación
O proceso de deduplicación dun sistema de almacenamento en xeral é o seguinte: en primeiro lugar, o ficheiro de datos divídese nun conxunto de datos. Para cada bloque de datos, calcúlase a pegada dixital e, a continuación, en función das palabras clave de busca hash de pegadas dixitais, a coincidencia indica os datos dos bloques de datos duplicados e só se almacena o número de índice do bloque de datos; se non, significa que o bloque de datos é a única peza dun novo bloque de datos, que se almacena e crea metainformación relevante. Así, un ficheiro físico no sistema de almacenamento corresponde a unha representación lóxica dun conxunto de metadatos de FP. Ao ler o ficheiro, primeiro le o ficheiro lóxico e, a continuación, segundo a secuencia de FP, extráese o bloque de datos correspondente do sistema de almacenamento e restaúrase a copia do ficheiro físico. No proceso anterior pódese ver que as tecnoloxías clave da deduplicación inclúen principalmente a segmentación de bloques de datos de ficheiros, o cálculo da pegada dixital do bloque de datos e a recuperación de bloques de datos.
(1) Segmentación de bloques de datos de ficheiros
(2) Cálculo da impresión dixital do bloque de datos
(3) Recuperación de bloques de datos
Para atopar estes modelos recomendados para iniciar a deduplicación de paquetes de rede:
Axente de paquetes de rede Mylinking™ (NPB) ML-NPB-640048*10GE SFP+ máis 4*40GE/100GE QSFP28, máx. 880 Gbps
Axente de paquetes de rede Mylinking™ (NPB) ML-NPB-56606 QSFP28 de 40 GE/100 GE máis 48 SFP28 de 10 GE/25 GE, máx. 1,8 Tbps
Axente de paquetes de rede Mylinking™ (NPB) ML-NPB-506048*10GE SFP+ máis 2*40GE QSFP, máx. 560 Gbps
Axente de paquetes de rede Mylinking™ (NPB) ML-NPB-486048*10GE SFP+, máx. 480 Gbps, función Plus
Axente de paquetes de rede Mylinking™ (NPB) ML-NPB-481048*10GE SFP+, máx. 480 Gbps
Axente de paquetes de rede Mylinking™ (NPB) ML-NPB-2410P24*10GE SFP+, máx. 240 Gbps, función DPI
Axente de paquetes de rede Mylinking™ (NPB) ML-NPB-6400
48*10GE SFP+ máis 4*40GE/100GE QSFP28, máx. 880 Gbps
Data de publicación: 18 de outubro de 2022