Calculando custos de armazenamento digital através da digitalização

Se você decidiu digitalizar os arquivos da sua empresa – seja um projeto pequeno ou um que englobe todos os departamentos – você precisará se atentar ao espaço em disco necessário para armazenamento digital dessas digitalizações.

Dois arquivos de aço de quatro gavetas cada comportam por volta de 20.000 páginas. A digitalização desse arquivo, ocupada um espaço em disco de mais ou menos 1 Gigabyte.

Claro que outros fatores também podem fazer com que esse tamanho varie, como o tamanho do papel, a resolução configurada no scanner e se a digitalização foi feita em cores ou em preto e branco. Além disso, espaço em disco também é necessário para backups, indexação, etc.

Antigamente, o custo do armazenamento digital era uma grande limitação. Hoje em dia, o custo de alguns terabytes diminuiu bastante, facilitando a implantação de projetos de Digitalização de Documentos. Na verdade, os custos com hardware provavelmente serão a parte mais barata da sua solução de Digitalização de Documentos.

Agora, quando são necessários petabytes (um petabyte é igual a mil terabytes – 1.024, para ser mais exato) de espaço, as coisas ficam um pouco mais complicadas. Ninguém conhece mais sobre necessidades de espaço para armazenamento digital que o a Internet Archive, uma biblioteca digital que não visa lucros e que oferece acesso gratuito a livros, filmes e música, totalizando 267 bilhões de páginas arquivadas.

“A Internet Archive contém por volta de 10 petabytes de conteúdo único”, diz Alexis Rossi, diretor da empresa. “Contando backups, clusters e todas as máquinas nas quais estão nossos sites, eu acredito que tenhamos aproximadamente 29 petabytes de espaço de armazenamento. Nossa equipe mantém essas máquinas e nossa rede funcionando e os softwares atualizados”.

Dos 4 milhões de textos arquivados, a equipe do Internet Archive digitalizou cerca de 1.9 milhões, ocupando cerca de 1 petabyte de dados, diz Rossi. “Nós temos as cópias primárias desses textos na nossa sede em San Francisco e cópias de backup armazenadas em uma de nossas locações remotas. Os backups são atualizados toda vez que alguma tarefa seja executada nos itens primários. Nós usamos nosso cluster para atualizar textos em massa quando precisamos modificar novos formatos de acesso de arquivos, executar melhorias no OCR, etc”. A equipe estimula que cerca de 500 MB de espaço sejam necessários para cada livro digitalizado, ela diz.

Um dos maiores desafios é manter todo esse armanezamento sendo executado de forma funcional e por um preço acessível. “Nós focamos em armazenamento digital de alta densidade com o menor consumo de energia possível, assim como manter as máquinas com um baixo nível de ruído, possibilitando que possamos coexistir com elas em nosso prédio”, diz Rossi. “Atualmente possuímos cerca de 1 petabyte de espaço de armazenamento em cada rack – embora estejamos no meio de um processo de mudança de discos de 3 TB para 4 TB, fazendo com que esse número aumente logo – e o consumo de energia é de 4 a 5W por rack. Nós não utilizamos ar condicionado em nossos espaços de armazenamento de dados, apenas ar fresco e ventiladores”. Na sede do Internet Archive em San Francisco, o excesso de calor gerado pelos servidores é utilizado para aquecer outras partes do prédio.

Fonte: Laserfiche

Print Friendly
Posted in: