quinta-feira, 4 de fevereiro de 2021

Introdução aos dados no Machine Learning

DADOS: Pode ser qualquer fato, valor, texto, som ou imagem não processado que não esteja sendo interpretado e analisado. Os dados são a parte mais importante de todas as análises de dados, aprendizado de máquina e inteligência artificial. Sem dados, não podemos treinar nenhum modelo e toda a pesquisa e automação modernas serão em vão. As grandes empresas estão gastando muito dinheiro apenas para reunir o máximo de dados possível.

Exemplo: Por que o Facebook adquiriu o WhatsApp pagando um preço enorme de USS 19 bilhões?

A resposta é muito simples e lógica - é ter acesso às informações dos usuários que o Facebook pode não ter, mas o WhatsApp terá. Esta informação de seus usuários é de suma importância para o Facebook, pois facilitará a tarefa de melhoria em seus serviços.

INFORMAÇÃO: Dados que foram interpretados e manipulados e agora têm alguma inferência significativa para os usuários.

CONHECIMENTO: Combinação de informações inferidas, experiências, aprendizado e percepções. Resulta em conscientização ou construção de conceito para um indivíduo ou organização.

Como dividimos os dados no aprendizado de máquina?

  • Dados de treinamento: a parte dos dados que usamos para treinar nosso modelo. Esses são os dados que seu modelo realmente vê (entrada e saída) e com os quais aprende.
  • Dados de validação: A parte dos dados que é usada para fazer uma avaliação frequente do modelo, se ajusta ao conjunto de dados de treinamento junto com a melhoria dos hiperparâmetros envolvidos (inicialmente defina os parâmetros antes que o modelo comece a aprender). Esses dados desempenham sua parte quando o modelo está realmente em treinamento.
  • Dados de teste: uma vez que nosso modelo esteja completamente treinado, os dados de teste fornecem uma avaliação imparcial. Quando alimentamos as entradas de dados de teste, nosso modelo prevê alguns valores (sem ver a saída real). Após a previsão, avaliamos nosso modelo comparando-o com a saída real presente nos dados de teste. É assim que avaliamos e vemos o quanto nosso modelo aprendeu com as experiências alimentadas como dados de treinamento, definidas no momento do treinamento.

Considere um exemplo: há um proprietário de um Shopping Mart que conduziu uma pesquisa para a qual ele tem uma longa lista de perguntas e respostas que ele fez aos clientes, esta lista de perguntas e respostas é DATA. Agora, toda vez que ele quer inferir alguma coisa e não pode simplesmente passar por todas as perguntas de milhares de clientes para encontrar algo relevante, pois isso consumiria tempo e não seria útil. Para reduzir esta sobrecarga e desperdício de tempo e para facilitar o trabalho, os dados são manipulados através de software, cálculos, gráficos etc. conforme a própria conveniência, esta inferência dos dados manipulados é Informação. Portanto, os dados são essenciais para a informação. Agora Conhecimento tem o seu papel de diferenciar dois indivíduos com as mesmas informações. Na verdade, o conhecimento não é um conteúdo técnico, mas está vinculado ao processo de pensamento humano.

Propriedades dos dados:

  1. Volume: Escala de dados. Com o crescimento da população mundial e da tecnologia exposta, enormes dados são gerados a cada milissegundo.
  2. Variedade: diferentes formas de dados - saúde, imagens, vídeos, recortes de áudio.
  3. Velocidade: Taxa de streaming e geração de dados.
  4. Valor: Significância dos dados em termos de informações que os pesquisadores podem inferir deles.
  5. Veracidade: Certeza e correção nos dados que estamos trabalhando.

Alguns fatos sobre os dados:

  • Em comparação com 2005, 300 vezes, ou seja, 40 zetabytes (1ZB = 10 ^ 21 bytes) de dados serão gerados até 2020.
  • Em 2011, o setor de saúde tinha dados de 161 bilhões de Gigabytes
  • 400 milhões de tweets são enviados por cerca de 200 milhões de usuários ativos por dia
  • A cada mês, mais de 4 bilhões de horas de streaming de vídeo são feitas pelos usuários.
  • 30 bilhões de tipos diferentes de conteúdos são compartilhados todos os meses pelo usuário.
  • É relatado que cerca de 27% dos dados são imprecisos e, portanto, 1 em cada 3 idealistas ou líderes de negócios não confia nas informações sobre as quais estão tomando decisões.

Os fatos mencionados acima são apenas um vislumbre das enormes estatísticas de dados realmente existentes. Quando falamos em termos de cenário do mundo real, o tamanho dos dados atualmente presentes e gerados a cada momento está além de nossos horizontes mentais.

Artigo escrito por Mohit Gupta_OMG :) e traduzido por Acervo Lima de ML | Introduction to Data in Machine Learning.

0 comentários:

Postar um comentário