O Open Refine (previamente Google Refine) é um programa de limpeza de dados que utiliza o seu navegador de internet como interface. Isso significa que parece que ele atua na internet, mas todos os seus dados permanecem na sua máquina e você não precisa de uma conexão de internet para trabalhar com eles.

O maior objetivo do Refine é ajudar você a explorar e limpar os seus dados antes de utilizá-los. Foi construído para grandes conjuntos de dados – então não se preocupe, desde que as suas planilhas possam armazenar as informações, o Refine também pode.

Criar um novo Projeto

Para trabalhar com seus dados no Refine, você precisa começar um novo projeto.

Passo a passo: Criar um projeto Refine

  1. Dê início ao Refine: uma janela será aberta no navegador indicando http://127.0.0.1:3333. Se isso não acontecer, abra o link diretamente em uma janela nova
  2. Crie um novo projeto: na aba esquerda, selecione “Create Project”:Cleaning Data with Refine
  1. Clique em “Choose Files” para escolher o arquivo que você baixou e clique em “next” – você também pode utilizar o URL para o CSV direto, se os seus dados estiverem armazenados na rede.
  2. Você terá uma prévia em como a limpeza vai interferir nos seus dados. Se selecionou um CSV bem formatado ou outro arquivo, isso deve acontecer automaticamente.
  3. Faça uma revisão da prévia com atenção para ter certeza que os dados estão corretos. Verifique duas vezes os códigos de caracteres. Muitos dados, mesmo que não todos, utilizam UTF-8 nos dias de hoje, mas tenha certeza que você não está visualizando nenhum caractere esquisito na sua revisão.
  4. No nosso caso, nenhuma coluna tem título – a primeira fileira do arquivo está em branco.Cleaning Data with Refine
  1. Se você verificar mais para baixo, verá que os títulos das colunas para os dados estão nas fileiras 5 e 6.
  2. Vamos contar ao Refine onde encontrar as informações das colunas: na parte de baixo, você encontra informações sobre como a limpeza terá efeito sobre as informações das colunas.
  3. Dizemos para ignorar as cinco primeiras linhas, considere as duas próximas linhas como etiquetas para as colunas e ignore o restante:

Cleaning Data with Refine

  1. Ótimo – agora a visualização prévia está bem melhor.
  2. Dê um nome ao seu projeto na caixa no lado superior direito e clique em “Create Project”.
  3. O projeto vai abrir no visualizador de projetos, esta é a interface básica em que você vai trabalhar: por padrão, o Refine mostra apenas 10 linhas de dados. Você pode modificar isso na barra acima das linhas de dados. Você também pode utilizar a navegação à direita para ver as linhas prévias e anteriores.

Agora você criou com sucesso o seu primeiro projeto Refine. Lembre-se: apesar dele ser executado em um navegador de internet, o servidor do Refine está na sua máquina, todos os dados estão ali (então, nada de preocupação se você está lidando com informações confidenciais).

Classificar e Filtrar

Uma vez que criamos o nosso projeto, vamos seguir e explorar um pouco os dados e a interface do Refine. Utilizar o Refine pode intimidar no começo, já que parece tão diferente de planilhas, mas assim que você se habituar, vai perceber quão fácil é usá-lo.

Uma das funções geralmente usadas nas planilhas é classificar e filtrar dados – para descobrir mínimos, máximos ou características de certas categorias. O Refine pode fazer o mesmo.

Passo a passo: Classificar linhas

    1. O Refine lida com os dados de maneira semelhante à da planilha: você tem linhas, colunas e células – uma célula é o campo definido por uma linha e uma coluna.
    2. Para disponibilizar as suas linhas baseado em uma coluna específica, clique no pequeno triângulo voltado para baixo próximo à coluna.Cleaning Data with Refine
  1. Selecione “Sort…” para abrir o diálogo de classificação.
  2. Você pode selecionar como vai classificar os valores e, depois, em qual ordem vai organizá-los. (Nós vamos organizá-los em texto, já que por ora temos somente colunas de texto).

    Cleaning Data with Refine

  1. Clique em “OK” e suas linhas vão estar organizadas conforme a coluna.
  2. Para desfazer essa organização, clique nas opções de coluna novamente, selecione “sort” e depois “remove sort”

Cleaning Data with Refine

Outra função usada frequentemente em planilhas é o filtro – no Refine, ela é chamada de polimento. O polimento no Refine é bem poderoso – você verá que na maior parte do restante do texto, vamos utilizar esses filtros.

Passo a passo: Filtrar linhas baseado em uma coluna

  1. Selecione as opções da coluna com as quais você quer filtrar a coluna.
  2. Selecione “Facet”Cleaning Data with Refine
  1. Você pode filtrar textos, números ou datas de maneira diferente. Vamos experimentar com texto: clique em “Text facet”
  2. Isso vai abrir um novo filtro na barra da esquerdaCleaning Data with Refine
  1. Agora selecione um ou mais critérios e você verá como as suas linhas de dados estão limitadas apenas àquelas selecionadas.
  2. Claro que você pode adicionar mais de um filtro e desse modo filtrar mais de uma vez.
  3. Vamos adicionar outro filtro: repare que uma das colunas contém datas: podemos colocar um filtro de linha do tempo que nos permita selecionar um intervalo de datas.

    Cleaning Data with Refine

  1. Isso abrirá um novo filtro parecido com este:

    Cleaning Data with Refine

  1. Você pode escolher um intervalo de datas movimentando os indicadores para esquerda ou direita.

Conciliar Colunas

Às vezes, as pessoas cometem erros ao inserir dados – digitam errado nome de cidades ou inserem caracteres que não podem ver, mas que o computador percebe. (Por exemplo, você pode colocar um simples espaço ao final de um nome e o programa vai considerar um nome diferente). Por isso, vamos criar um filtro de texto para as cidades:

Passo a passo: Conciliar Colunas

  1. Crie um filtro de texto para a coluna “Cidade”
  2. Siga para baixo até encontrar “La Paz”: percebe quantas maneiras diferentes de grafia há para escrever “la paz”?Cleaning Data with Refine
  1. Vamos arrumar isso! Esse tipo de coisa é tão comum que o Refine construiu um mecanismo para detectar essas diferenças.
  2. Clique no botão “Cluster” no canto superior direito no filtro.

    Cleaning Data with Refine

  1. Agora verifique tudo que o Refine filtrou corretamente como similares.
  2. Clique no botão “Merge Selected & Re-Cluster”. Brinque com a função de afinamento e os métodos no topo para identificar possíveis características que podem ser colocadas juntas.

Melhorar a aparência do nome de cidades

Você percebeu como a maioria das cidades estão com todas as letras em maiúscula? É estranho ler algo assim. E talvez você queira ter nomes com melhor aparência para leitura: sem problemas. O Refine pode fazer isso.

Passo a passo: Mudar a Letra no Refine

  1. Vamos modificar a letra na nossa coluna de cidade de tudo em caixa alta para somente as primeiras letras em maiúscula
  2. Para fazer isso, abra as opções da coluna, vá para “Edit cells”, depois “Common transforms”, depois “To titlecase”.

    Cleaning Data with Refine

  1. Pronto – como mágica, todos os seus nomes foram modificados.

Parabéns! Você limpou com sucesso um grupo de dados usando o Refine!

Michael vive em Viena e trabalha como argumentador de dados junto ao Open Knowledge Foundation, majoritariamente com o School of Data. Depois de um breve desvio que realizou em direção a pesquisas biomédicas, quando aprendeu a adorar argumentação de dados, dedicou algum tempo à sua paixão: liberdade na idade digital. Uniu-se à Open Knowledge Foundation para satisfazer sua curiosidade. Contente da vida, ele vai explorar qualquer assunto que você lhe indicar. Veja mais em http://okfn.org/about/team/#Michael_Bauer_8212_Data_Wrangler_School_of_Data