segunda-feira, 10 de agosto de 2020

Dicionário de dados na analise de dados

Photo by Edho Pratama on Unsplash

A criação e manutenção de um dicionário de dados é uma tarefa muito importante na analise de dados. Mais o que é um dicionário de dados? Um dicionário de dados é uma tabela com informações sobre os dados, como por exemplo, o significado das abreviações usadas no banco de dados, uma explicação de como esses dados foram obtidos, entre outras coisas. Um dos principais objetivos de um dicionário é explicar qual é o significado de cada coluna. O dicionário é importante quando o trabalho é em grupo, ou pra você mesmo quando passar muito tempo sem olhar os dados. Com um dicionário fica fácil, para uma pessoa que acabou de pegar esses dados, saber do que se trata e como utiliza-lo da melhor forma.
Um exemplo parecido é um dicionário de termos urbanos. Esse dataset contem expressões e os seus significados. Um dicionário de dados tem a mesma função: explicar termos ou dados que podem confundir o analista.

>>> import pandas as pd
>>> urban_dictionary = pd.read_csv('urban_dictionary.csv')
>>> urban_dictionary
                                             definition  ...               date
0     When a city or town specifically zones an area...  ...     April 05, 2013
1                                        A toilet bowl.  ...     March 23, 2017
2     Excellent health care reserved exclusively for...  ...       May 16, 2008
3     A dick thing you say to a tall person to piss ...  ...     March 20, 2017
4     The insane, narcissistic, outrageous asshat wh...  ...     March 18, 2017
...                                                 ...  ...                ...
4267  Verb. Etymology: coming from the modern car tu...  ...     March 26, 2003
4268  (adjective, adverb, interjection) awesome; coi...  ...  February 17, 2003
4269  Something socially unacceptable done in a soci...  ...      June 28, 2004
4270  A night when groups of adults get drunk and us...  ...   January 07, 2004
4271  A year whose number is divisible by four in wh...  ...   January 03, 2004

[4272 rows x 7 columns]

Um dicionário de dados é útil para informar o significado de abreviações. Mas é possível notar que um dataframe não é o melhor lugar para guardar um dicionário de dados. Uma escolha melhor pode ser uma planilha do Excel ou uma do Google. Pra min a melhor alternativa é uma célula Markdown no jupyter.
É comum que você tenha que entrar em contato com quem criou o banco de dados com o qual você está trabalhando, para obter algumas informações. Uma complicação que pode ser evitada com um dicionário de dados. Por isso sempre crie um dicionário de dados do seu banco de dados.

Referência:
Método read_csv()

0 comentários:

Postar um comentário