O Open Refine (previamente Google Refine) é um programa de limpeza de dados que utiliza o seu navegador de internet como interface. Isso significa que parece que ele atua na internet, mas todos os seus dados permanecem na sua máquina e você não precisa de uma conexão de internet para trabalhar com eles.
O maior objetivo do Refine é ajudar você a explorar e limpar os seus dados antes de utilizá-los. Foi construído para grandes conjuntos de dados – então não se preocupe, desde que as suas planilhas possam armazenar as informações, o Refine também pode.
Para trabalhar com seus dados no Refine, você precisa começar um novo projeto.
Passo a passo: Criar um projeto Refine
- Dê início ao Refine: uma janela será aberta no navegador indicando https://127.0.0.1:3333. Se isso não acontecer, abra o link diretamente em uma janela nova
- Crie um novo projeto: na aba esquerda, selecione “Create Project”:
- Clique em “Choose Files” para escolher o arquivo que você baixou e clique em “next” – você também pode utilizar o URL para o CSV direto, se os seus dados estiverem armazenados na rede.
- Você terá uma prévia em como a limpeza vai interferir nos seus dados. Se selecionou um CSV bem formatado ou outro arquivo, isso deve acontecer automaticamente.
- Faça uma revisão da prévia com atenção para ter certeza que os dados estão corretos. Verifique duas vezes os códigos de caracteres. Muitos dados, mesmo que não todos, utilizam UTF-8 nos dias de hoje, mas tenha certeza que você não está visualizando nenhum caractere esquisito na sua revisão.
- No nosso caso, nenhuma coluna tem título – a primeira fileira do arquivo está em branco.
- Se você verificar mais para baixo, verá que os títulos das colunas para os dados estão nas fileiras 5 e 6.
- Vamos contar ao Refine onde encontrar as informações das colunas: na parte de baixo, você encontra informações sobre como a limpeza terá efeito sobre as informações das colunas.
- Dizemos para ignorar as cinco primeiras linhas, considere as duas próximas linhas como etiquetas para as colunas e ignore o restante:
- Ótimo – agora a visualização prévia está bem melhor.
- Dê um nome ao seu projeto na caixa no lado superior direito e clique em “Create Project”.
- O projeto vai abrir no visualizador de projetos, esta é a interface básica em que você vai trabalhar: por padrão, o Refine mostra apenas 10 linhas de dados. Você pode modificar isso na barra acima das linhas de dados. Você também pode utilizar a navegação à direita para ver as linhas prévias e anteriores.
Agora você criou com sucesso o seu primeiro projeto Refine. Lembre-se: apesar dele ser executado em um navegador de internet, o servidor do Refine está na sua máquina, todos os dados estão ali (então, nada de preocupação se você está lidando com informações confidenciais).
Uma vez que criamos o nosso projeto, vamos seguir e explorar um pouco os dados e a interface do Refine. Utilizar o Refine pode intimidar no começo, já que parece tão diferente de planilhas, mas assim que você se habituar, vai perceber quão fácil é usá-lo.
Uma das funções geralmente usadas nas planilhas é classificar e filtrar dados – para descobrir mínimos, máximos ou características de certas categorias. O Refine pode fazer o mesmo.
Passo a passo: Classificar linhas
- O Refine lida com os dados de maneira semelhante à da planilha: você tem linhas, colunas e células – uma célula é o campo definido por uma linha e uma coluna.
- Para disponibilizar as suas linhas baseado em uma coluna específica, clique no pequeno triângulo voltado para baixo próximo à coluna.
- Selecione “Sort…” para abrir o diálogo de classificação.
- Você pode selecionar como vai classificar os valores e, depois, em qual ordem vai organizá-los. (Nós vamos organizá-los em texto, já que por ora temos somente colunas de texto).
- Clique em “OK” e suas linhas vão estar organizadas conforme a coluna.
- Para desfazer essa organização, clique nas opções de coluna novamente, selecione “sort” e depois “remove sort”
Outra função usada frequentemente em planilhas é o filtro – no Refine, ela é chamada de polimento. O polimento no Refine é bem poderoso – você verá que na maior parte do restante do texto, vamos utilizar esses filtros.
Passo a passo: Filtrar linhas baseado em uma coluna
- Selecione as opções da coluna com as quais você quer filtrar a coluna.
- Selecione “Facet”
- Você pode filtrar textos, números ou datas de maneira diferente. Vamos experimentar com texto: clique em “Text facet”
- Isso vai abrir um novo filtro na barra da esquerda
- Agora selecione um ou mais critérios e você verá como as suas linhas de dados estão limitadas apenas àquelas selecionadas.
- Claro que você pode adicionar mais de um filtro e desse modo filtrar mais de uma vez.
- Vamos adicionar outro filtro: repare que uma das colunas contém datas: podemos colocar um filtro de linha do tempo que nos permita selecionar um intervalo de datas.
- Isso abrirá um novo filtro parecido com este:
- Você pode escolher um intervalo de datas movimentando os indicadores para esquerda ou direita.
Às vezes, as pessoas cometem erros ao inserir dados – digitam errado nome de cidades ou inserem caracteres que não podem ver, mas que o computador percebe. (Por exemplo, você pode colocar um simples espaço ao final de um nome e o programa vai considerar um nome diferente). Por isso, vamos criar um filtro de texto para as cidades:
Passo a passo: Conciliar Colunas
- Crie um filtro de texto para a coluna “Cidade”
- Siga para baixo até encontrar “La Paz”: percebe quantas maneiras diferentes de grafia há para escrever “la paz”?
- Vamos arrumar isso! Esse tipo de coisa é tão comum que o Refine construiu um mecanismo para detectar essas diferenças.
- Clique no botão “Cluster” no canto superior direito no filtro.
- Agora verifique tudo que o Refine filtrou corretamente como similares.
- Clique no botão “Merge Selected & Re-Cluster”. Brinque com a função de afinamento e os métodos no topo para identificar possíveis características que podem ser colocadas juntas.
Você percebeu como a maioria das cidades estão com todas as letras em maiúscula? É estranho ler algo assim. E talvez você queira ter nomes com melhor aparência para leitura: sem problemas. O Refine pode fazer isso.
Passo a passo: Mudar a Letra no Refine
- Vamos modificar a letra na nossa coluna de cidade de tudo em caixa alta para somente as primeiras letras em maiúscula
- Para fazer isso, abra as opções da coluna, vá para “Edit cells”, depois “Common transforms”, depois “To titlecase”.
- Pronto – como mágica, todos os seus nomes foram modificados.
Parabéns! Você limpou com sucesso um grupo de dados usando o Refine!
Michael vive em Viena e trabalha como argumentador de dados junto ao Open Knowledge Foundation, majoritariamente com o School of Data. Depois de um breve desvio que realizou em direção a pesquisas biomédicas, quando aprendeu a adorar argumentação de dados, dedicou algum tempo à sua paixão: liberdade na idade digital. Uniu-se à Open Knowledge Foundation para satisfazer sua curiosidade. Contente da vida, ele vai explorar qualquer assunto que você lhe indicar. Veja mais em
https://okfn.org/about/team/#Michael_Bauer_8212_Data_Wrangler_School_of_Data