Deduplicação ou desduplicação de dados, o que é e quando usar?

Índice de conteúdos

Como empresa, tende a trabalhar com uma quantidade significativa de dados – já que hoje, cada pessoa com um dispositivo digital é um gerador de dados.

Ou seja, novos dados estão a ser gerados a cada segundo, e armazenar esses dados é um desafio.

Afinal, precisa captar esses dados e classificá-los para formar alguns padrões que possam ser usados pela sua empresa.

Mas, a sua empresa tem a capacidade de armazenamento de dados limitada. Adicionar mais armazenamento aumenta as despesas, porém, ainda precisa de todos esses dados.

Qual é a solução?

É a deduplicação de dados – que não é um sinónimo para armazenamento de instância única, nem para compressão.

Neste artigo, descubra quais são as diferenças entre os dois processos, quando usar a deduplicação e como ela funciona.

O que significa data deduplication?

Significa deduplicação (ou desduplicação) de dados: um processo que elimina cópias redundantes de dados e reduz a sobrecarga de armazenamento.

As técnicas de desduplicação garantem que apenas uma instância exclusiva de dados seja retida no dispositivo de armazenamento, como disco, flash, entre outros.

Blocos de dados redundantes são substituídos por um ponteiro para a cópia de dados exclusiva.

Desta forma, a desduplicação alinha-se com o backup incremental, que copia apenas os dados alterados desde o backup anterior.

Por exemplo, um sistema de e-mail típico pode conter 100 instâncias do mesmo anexo de ficheiro de 1 MB.

Se houver backup ou arquivamento da plataforma de e-mail, todas as 100 instâncias serão salvas, exigindo 100 MB de espaço de armazenamento.

Com a desduplicação de dados, apenas uma instância do anexo é armazenada e cada instância subsequente é referenciada de volta para a cópia salva.

Assim, conforme o exemplo, uma quantidade de armazenamento de 100 MB cai para 1 MB.

Deduplicação ou desduplicação de dados?

Deduplicação e desduplicação de dados são sinónimos. Ambos representam uma tecnologia em que se compacta os dados, gerando economia de espaço e reduzem as necessidades de armazenamento, eliminando dados redundantes.

Isto é, apenas uma instância exclusiva dos dados é realmente retida na dispositivo de armazenamento, como disco ou fita. Os dados redundantes são substituídos por um ponteiro para a cópia de dados exclusiva.

O que é deduplicação de dados?

Como vimos antes, a desduplicação é um método de eliminação de dados redundantes de um conjunto de dados.

Num processo seguro de desduplicação de dados, uma ferramenta identifica cópias extras de dados e exclui-as, para que uma única instância possa ser armazenada.

Ou seja, a deduplicação permite que os utilizadores eliminem dados redundantes e gerirem com mais eficiência a atividade de backup — além de garantir backups mais eficazes.

Qual a diferença entre deduplicação e armazenamento de instância única?

Enquanto o armazenamento de instância única substitui as referências a ficheiros idênticos num sistema de ficheiros por referências a uma única cópia de armazenamento do ficheiro, a desduplicação compara registos eletrónicos com base nas suas características e remove ou marca registos duplicados no conjunto de dados.

Qual a diferença entre deduplicação e compressão?

É fundamental compreender o que diferencia as duas. Afinal, com isso, saberemos qual funciona melhor para cada caso.

Confira a seguir as principais diferenças entre deduplicação e compressão:

Processo: na desduplicação, os dados são agrupados com base nos blocos comuns neles contidos. Uma única versão de cada bloco é mantida, enquanto as outras ocorrências são referenciadas usando ponteiros. Por outro lado, na compactação, dados adicionais, espaços, entre outros, são eliminados para reduzir o tamanho do ficheiro de dados

Taxa de redução de tamanho: a compactação reduz o tamanho dos dados para a proporção de 2:1 até 2,5:1, conforme reivindicado por alguns programas com base nos tipos de ficheiros de dados disponíveis. Com a deduplicação, porém, os dados são alterados substancialmente. Além disso, as taxas de redução podem variar de 4:1 até 20:1 – e alguns dados específicos podem até ser reduzidos para 200:1. Porém, isto depende do tipo de dados disponível, portanto, o mesmo programa de desduplicação pode compactar diferentes tipos de dados com taxas variadas de redução

Perda de dados: a deduplicação envolve agrupar dados e manter uma única cópia dos dados redundantes. Isto resulta na eliminação de muitos dados originais, mas os principais não mudam. Desta forma, a perda de dados na desduplicação é mínima. Por outro lado, na compactação, o excesso de dados é eliminado. Ou seja, há uma perda de dados envolvida, mesmo que isso não prejudique a integridade geral deles

Alterações nos dados: a compactação remove os dados excessivos, mas o pacote de dados principal permanece o mesmo. Assim, o pacote de dados geral não é tão alterado. Com a desduplicação, porém, os dados são alterados substancialmente devido a números de hash e ponteiros. Se os dados compactados forem usados sem o software relevante, não farão sentido. Enquanto que, com a compactação, eles podem ser usados como estão, pois os dados principais permanecem os mesmos.

Quando usar a deduplicação de dados (DEDUP)?

A desduplicação é ideal para operações muito redundantes — como backups — que exigem copiar e armazenar repetidamente o mesmo conjunto de dados várias vezes para fins de recuperação.

O ideal é realizar esse procedimento em períodos de 30 a 90 dias.

Como funciona a deduplicação de dados?

A desduplicação segmenta um fluxo de dados de entrada, identifica segmentos de dados de forma exclusiva e compara os segmentos com dados armazenados anteriormente.

Se o segmento for único, será armazenado em disco. Caso um segmento de dados de entrada for uma duplicata do que já foi armazenado, uma referência é criada para ele e o segmento não é armazenado novamente.

Por exemplo, um ficheiro ou volume cujo backup é feito toda semana e cria uma quantidade significativa de dados duplicados.

Nesse caso, os algoritmos de desduplicação analisam os dados e armazenam apenas os segmentos compactados e exclusivos de um ficheiro.

Este processo pode proporcionar uma redução média de 10 a 30 vezes nos requisitos de capacidade de armazenamento, com políticas médias de retenção de backup em dados corporativos normais.

Isto significa que as empresas podem armazenar de 10 TB a 30 TB de dados de backup em 1 TB de disco, o que traz enormes benefícios económicos.

Deduplicação ao nível de ficheiro

Com esta modalidade, é possível ignorar o armazenamento de cópias de vários ficheiros – que são substituídas pelo link do ficheiro original.

Através das “impressões digitais” dos objetos (conjunto de caracteres exclusiva em cada ficheiro), é verificado se já está armazenado.

Sendo que a técnica de impressão digital, normalmente, se baseia em métodos de hashing ou atributos de ficheiro — dependendo da solução de desduplicação.

Esta modalidade tem a implementação mais fácil, já que os seus índices são menores e demoram menos para computação.

Por outro lado, a sua economia de armazenamento é inferior à da desduplicação ao nível de bloco — permitindo economizar no máximo 80% em espaço de armazenamento.

Isto porque, quando está a operar ao nível do ficheiro, o sistema trata qualquer alteração mínima como um ficheiro novo.

Vale destacar que a maior economia é percebida no armazenamento compartilhado (como sistemas NAS, ficheiros ou diretórios compartilhados) — já que costumam conter várias cópias dos mesmos ficheiros.

Outro ponto: a eficiência da desduplicação também depende dos tipos de ficheiros. Imagens ou áudios, por exemplo, geralmente são únicos e não beneficiam do processo. Enquanto modelos e ficheiros internos do sistema costumam apresentar boa taxa de deduplicação.

Deduplicação ao nível de bloco

Uma modalidade mais profunda, a desduplicação ao nível de bloco verifica a exclusividade de todos os ficheiros.

Nela, quando um ficheiro é alterado, o sistema armazena apenas as partes (chamadas de blocos) modificadas do ficheiro original.

Considerando que cada bloco possui a sua identificação própria (normalmente gerada através de um algoritmo de hash) o sistema compara-os com os metadados já armazenados.

Com isto, é possível economizar um espaço maior — visto que a taxa de redução através da deduplicação ao nível de bloco pode alcançar até 95%.

Por outro lado, esta modalidade exige mais computação, já que o número de objetos (blocos) a serem processados é consideravelmente maior.

Armazenamento em nuvem para o backup

O ideal para reduzir ainda mais o espaço consumido e economizar em armazenamento seria usar um sistema de backup com back end baseado em nuvem.

O problema é que grande parte dos provedores de armazenamento não oferece a alternativa de desduplicação nativa — e, quando oferecem, cobram a mais por isso.

O que resta é implementar um software de deduplicação independente para fazer upload apenas de dados deduplicados para a nuvem

Precisa recuperar dados no disco com deduplicação?

Mesmo um disco com desduplicação pode sofrer danos físicos ou falhas que causam a perda de dados.

Quando isto ocorre, o ideal é recorrer a um serviço especializado em recuperação de dados, para garantir que terá os seus ficheiros e documentos de volta em segurança – sem o risco de comprometer ainda mais o seu disco.

Aqui na Bot, por exemplo, trabalhamos com a sala limpa — um ambiente com todas as partículas controladas, garantindo a integridade do seu disco.

Além disso, temos uma experiência de mais de uma década a recuperar dados e já resolvemos mais de 60.000 casos com sucesso.

Conclusão

A deduplicação (ou desduplicação) é um processo que elimina cópias excessivas de dados e diminui significativamente os requisitos de capacidade de armazenamento.

Diferente do que algumas pessoas podem acreditar, a desduplicação não é o mesmo que compressão, nem armazenamento de instância única — e classifica-se em dois tipos: ao nível de ficheiro e de bloco.

O processo de desduplicação é indicado para operações muito redundantes (como backups) e deve ser realizada com uma frequência de 30 a 90 dias — podendo ser armazenado em nuvem, para garantir a segurança dos dados.

Por fim, vale destacar que um disco com deduplicação também pode sofrer danos que causem a perda dos seus dados.

Neste caso, é recomendável recorrer a uma recuperação profissional de dados, como a que oferecemos aqui na Bot.

Além de garantirmos a integridade do seu disco, também oferecemos o envio gratuito do seu dispositivo a partir de qualquer morada em Portugal e podemos propor-lhe um orçamento para a recuperação dos seus dados até 48h – ou menos!

Portanto, se quer agilidade e segurança ao recuperar os seus ficheiros e documentos, inicie já a sua recuperação de dados connosco!

Categorias: