O guia completo das dimensões da Qualidade de Dados
Saiba mais sobre os diferentes parâmetros que conduzem estratégias guiadas por dados verdadeiramente eficazes
A definição de um dado qualificado não poderia ser mais simples: entendemos que assim ele é quando ele é adequado para a utilização, para o planejamento operacional e para todo o processo de tomada de decisões estratégicas por parte da organização que o tem em seus bancos. Pode parecer trivial, pois, afinal, ninguém pretende colocar para uso aquilo que sabem ser impróprio para os fins desejados. Na prática, estudos já demonstraram que menos de 50% das empresas confiam em suas bases de dados.
Para vários negócios que estão começando a entender mais sobre o assunto, com o intuito de construir uma efetiva visão corporativa estratégica, pode soar estranho falar em termos tão abstratos quanto estes. Como a qualidade de dados passa necessariamente pelo reconhecimento e aplicação de padrões, são definidas, conforme moldes globais, as chamadas dimensões de qualidade, que permitem uma mensuração descomplicada e eficiente das bases sob controle de uma entidade qualquer.
Ao longo dessa postagem, vamos explorar as diferentes dimensões da qualidade de dados, ressaltando seus fundamentos e destacando a importância de cada uma para estratégias guiadas pela data analytics. Acompanhe!
Medindo a qualidade de dados
Antes de entrarmos nas dimensões propriamente ditas, é interessante fazer alguns esclarecimentos. Todo trabalho certificado de qualidade de dados deve seguir o que foi certificado pela Organização Internacional da Normalização (ISO) na resolução ISO 8000, o padrão mundial para a qualidade de dados, para a qual muitas empresas passam a olhar com mais atenção.
(Reprodução: freepik.com)
Segundo estes padrões, são estabelecidas as dimensões da qualidade de dados, que nada mais são do que um agrupamento de KPIs — key performance indicators, ou indicadores-chave de desempenho, em português. Por analisarem diferentes aspectos concernentes a cada conjunto de dados, não as tratamos de um mesmo modo único. Pelo contrário, opta-se por separá-las em quatro tipos, sendo eles:
Dimensões intrínsecas de qualidade
Quando nos referimos às dimensões intrínsecas da qualidade de um banco de dados, estamos tentando assegurar que dados sejam qualificados por si só, sem que dependam da atuação de outros elementos externos para tanto. Dentre as mais comuns, temos:
- Acurácia: há quem defenda que a acurácia seja a mais fácil de mensurar de todas as dimensões de qualidade. Ela estima o quanto um dado seguramente reflete um valor ou um evento descrito — por exemplo, o preço de um produto na base catalogal de um site de vendas, a idade de um cliente ou a temperatura atingida por um equipamento no ambiente industrial.
- Consistência: o indicativo do quanto os parâmetros e valores de uma base de dados são coerentes entre si e não se contradizem.
- Atualidade: aqui, tentamos garantir que todos os dados necessários estejam sendo atualizados constantemente, além de coletados e processados dentro do intervalo de tempo estipulado, a fim de que a informação esteja acessível no momento em que a organização precisar.
- Completude: um dado é apenas considerado completo se atender a todas as expectativas para sua compreensão e apreensão. Desta forma, um dado pode ser considerado completo mesmo que seus campos opcionais não tenham sido preenchidos, contanto que assim possa ser utilizado e aplicado em outras situações.
Dimensões de contexto
(Reprodução: freepik.com)
Já as dimensões de contexto consideram que um dado nunca existe por si só, mas está sempre rodeado de informações, em uma trama de conexões muito maior. Comumente, tratamos de duas:
- Compliance: se a posse de um conjunto de dados concorda com os marcos regulatórios mais recentes. Considerando a Lei Geral de Proteção de Dados, por exemplo, a qualidade faz parte da lista de 10 princípios para um efetivo tratamento de dados do Serviço Federal de Processamento de Dados, o Serpro.
- Unicidade: posto que dados duplicados são uma constância a ser evitada, é estabelecido o critério de unicidade para garantir que cada dado aparece ao longo de um mesmo banco uma única vez, de modo a evitar a formulação de estratégias baseadas naquilo que não existe.
Dimensões de representação
Embora menos comentadas que as duas categorias anteriores, as próximas são tão relevantes quanto para uma grande parte dos trabalhos de qualificação e avaliação da qualidade de dados. Estamos falando das dimensões de representação e de acessibilidade. A começar pela primeira, nos referimos à formatação dos dados — isto é, se sua representação é de fato consistente e concisa. Temos, mais uma vez, duas dimensões que se encaixam nestes quesitos:
- Interpretabilidade: a facilidade pela qual usuários podem entender, utilizar e analisar dados apropriadamente.
- Coerência: o quanto dados estão verdadeiramente conectados entre si e consistentes enquanto um conjunto.
Dimensões de acessibilidade
(Reprodução: freepik.com)
Por sua vez, as dimensões de acessibilidade têm um significado um pouco mais claro: medem, de diferentes maneiras, o quão fácil de acessar são os dados em questão e se há algum tipo de impeditivo neste sentido.
Assim, tratamos novamente de duas KPIs:
- Segurança de acesso: a garantia de que há infraestruturas que inibam o vazamento e a utilização indevida de um conjunto de dados específico.
- Disponibilidade: a certificação de que há interfaces que permitam o acesso às bases requeridas por parte daqueles que precisam operá-las.
Na Twist, nossa principal ferramenta para a avaliação da qualidade de dados de uma organização é o Quality. Com o emprego correto das técnicas avançadas de Inteligência Artificial, nós mapeamos cada parte dos bancos de dados de uma empresa em busca de inconsistências. De acordo com os critérios e dimensões oportunos ao trabalho, cada dado é, então, analisado para que uma nota de 0 a 10, indicando sua pertinência e utilidade para aquela ocasião.
Pelo Quality, também podemos gerar uma média final que siga o balanço de todos os dados de um determinado banco de um departamento em particular da empresa, de maneira que ela possa compará-lo, bem como seu desempenho, a outros. No fim, todo problema identificado gera alertas e notificações em tempo real, permitindo uma rápida resolução.
Para saber mais sobre o Quality, fale com o nosso time de especialistas! No nosso blog e em nossas redes sociais, estamos sempre comentando sobre tudo o que você precisa saber sobre as novas fronteiras de inovação tecnológica. Aproveite para nos acompanhar em nosso LinkedIn e não deixe de assinar a nossa newsletter.