quinta-feira, 18 de fevereiro de 2021

Introdução a linguagem de programação Rust

Observação: esta edição do livro é igual a The Rust Programming Language, disponível em formato impresso e e-book na No Starch Press.

Bem-vindo ao The Rust Programming Language, um livro introdutório sobre o Rust. A linguagem de programação Rust ajuda a escrever software mais rápido e confiável. Ergonomia de alto nível e controle de baixo nível estão freqüentemente em desacordo no projeto de linguagem de programação; Rust desafia esse conflito. Ao equilibrar uma capacidade técnica poderosa e uma ótima experiência de desenvolvedor, o Rust oferece a opção de controlar detalhes de baixo nível (como o uso de memória) sem todo o incômodo tradicionalmente associado a esse controle.

Para quem é a linguagem de programação Rust

Rust é ideal para muitas pessoas por diversos motivos. Vejamos alguns dos grupos mais importantes.

Equipes de desenvolvedores

Rust está provando ser uma ferramenta produtiva para colaboração entre grandes equipes de desenvolvedores com vários níveis de conhecimento de programação de sistemas. O código de baixo nível está sujeito a uma variedade de bugs sutis, que na maioria das outras linguagens podem ser detectados apenas por meio de testes extensivos e revisão cuidadosa do código por desenvolvedores experientes. No Rust, o compilador desempenha um papel de guardião, recusando-se a compilar o código com esses bugs elusivos, incluindo bugs de simultaneidade. Trabalhando junto com o compilador, a equipe pode gastar seu tempo focando na lógica do programa ao invés de perseguir bugs.

Rust também traz ferramentas de desenvolvedor contemporâneas para o mundo da programação de sistemas:

  • Cargo, o gerenciador de dependências incluído e a ferramenta de construção, torna a adição, compilação e gerenciamento de dependências fácil e consistente em todo o ecossistema Rust.
  • Rustfmt garante um estilo de codificação consistente entre os desenvolvedores.
  • O Rust Language Server capacita a integração com as IDEs (Integrated Development Environment) para conclusão de código e mensagens de erro em linha.

Ao usar essas e outras ferramentas no ecossistema Rust, os desenvolvedores podem ser produtivos ao escrever código em nível de sistema.

Alunos

Rust é para estudantes e interessados ​​em aprender sobre conceitos de sistemas. Usando o Rust, muitas pessoas aprenderam sobre tópicos como desenvolvimento de sistemas operacionais. A comunidade é muito acolhedora e fica feliz em responder às perguntas dos alunos. Por meio de esforços como este livro, as equipes de Rust desejam tornar os conceitos de sistema mais acessíveis a mais pessoas, especialmente as novas em programação.

Empresas

Centenas de empresas, grandes e pequenas, usam Rust na produção para uma variedade de tarefas. Essas tarefas incluem ferramentas de linha de comando, serviços da web, ferramentas DevOps, dispositivos incorporados, análise e transcodificação de áudio e vídeo, criptomoedas, bioinformática, mecanismos de pesquisa, aplicativos da Internet das coisas, aprendizado de máquina e até mesmo partes importantes do navegador Firefox.

Desenvolvedores de código aberto

Rust é para pessoas que desejam construir a linguagem de programação, comunidade, ferramentas de desenvolvedor e bibliotecas Rust. Adoraríamos que você contribuísse com a linguagem Rust.

Pessoas que valorizam velocidade e estabilidade

Rust é para pessoas que desejam velocidade e estabilidade em um idioma. Por velocidade, queremos dizer a velocidade dos programas que você pode criar com o Rust e a velocidade com que o Rust permite que você os escreva. As verificações do compilador Rust garantem a estabilidade por meio de adições de recursos e refatoração. Isso contrasta com o código legado frágil em linguagens sem essas verificações, que os desenvolvedores geralmente têm medo de modificar. Buscando abstrações de custo zero, recursos de nível superior que compilam para código de nível inferior tão rápido quanto o código escrito manualmente, Rust se empenha em fazer com que o código seguro seja um código rápido também.

A linguagem Rust espera oferecer suporte a muitos outros usuários também; aqueles mencionados aqui são apenas alguns dos maiores interessados. No geral, a maior ambição de Rust é eliminar os trade-offs que os programadores aceitaram por décadas, fornecendo segurança e produtividade, velocidade e ergonomia. Experimente o Rust e veja se as escolhas funcionam para você.

Para quem é este livro

Este livro pressupõe que você escreveu código em outra linguagem de programação, mas não faz suposições sobre qual. Tentamos tornar o material amplamente acessível para aqueles com uma ampla variedade de experiências de programação. Não gastamos muito tempo falando sobre o que é programação ou como pensar sobre isso. Se você é totalmente novo em programação, seria melhor ler um livro que fornece especificamente uma introdução à programação.

Como usar este livro

Em geral, este livro presume que você o está lendo em sequência, do início ao fim. Os capítulos posteriores baseiam-se nos conceitos dos capítulos anteriores, e os capítulos anteriores podem não se aprofundar nos detalhes de um tópico; normalmente revisitamos o tópico em um capítulo posterior.

Você encontrará dois tipos de capítulos neste livro: capítulos de conceitos e capítulos de projetos. Nos capítulos conceituais, você aprenderá sobre um aspecto do Rust. Nos capítulos do projeto, construiremos pequenos programas juntos, aplicando o que você aprendeu até agora. Os capítulos 2, 12 e 20 são capítulos de projeto; o resto são capítulos de conceitos.

O Capítulo 1 explica como instalar o Rust, como escrever um programa Hello, world! e como usar o Cargo, o gerenciador de pacotes e ferramenta de compilação do Rust. O Capítulo 2 é uma introdução prática à linguagem Rust. Aqui, cobrimos os conceitos em alto nível e os capítulos posteriores fornecerão detalhes adicionais. Se você quiser sujar as mãos imediatamente, o Capítulo 2 é o lugar para isso. A princípio, você pode até querer pular o Capítulo 3, que cobre os recursos do Rust semelhantes aos de outras linguagens de programação, e ir direto para o Capítulo 4 para aprender sobre o sistema de propriedade do Rust. No entanto, se você for um aluno particularmente meticuloso que prefere aprender todos os detalhes antes de passar para o próximo, você pode querer pular o Capítulo 2 e ir direto para o Capítulo 3, voltando ao Capítulo 2 quando quiser trabalhar em um projeto aplicando os detalhes que você aprendeu.

O Capítulo 5 discute estruturas e métodos, e o Capítulo 6 cobre enums, expressões match e a construção de fluxo de controle if let. Você usará structs e enums para criar tipos personalizados em Rust.

No Capítulo 7, você aprenderá sobre o sistema de módulo de Rust e sobre as regras de privacidade para organizar seu código e sua API (Interface de Programação de Aplicativo) pública. O Capítulo 8 discute algumas estruturas de coleta de dados comuns que a biblioteca padrão fornece, como vetores, strings e mapas hash. O Capítulo 9 explora a filosofia e as técnicas de tratamento de erros de Rust.

O Capítulo 10 investiga genéricos, características e tempos de vida, que lhe dão o poder de definir o código que se aplica a vários tipos. O Capítulo 11 trata de testes, que mesmo com as garantias de segurança de Rust são necessários para garantir que a lógica de seu programa está correta. No Capítulo 12, construiremos nossa própria implementação de um subconjunto de funcionalidades da ferramenta de linha de comando grep que pesquisa texto em arquivos. Para isso, usaremos muitos dos conceitos que discutimos nos capítulos anteriores.

O Capítulo 13 explora fechamentos e iteradores: recursos do Rust que vêm de linguagens de programação funcionais.

No Capítulo 14, examinaremos o Cargo com mais detalhes e falaremos sobre as melhores práticas para compartilhar suas bibliotecas com outras pessoas.

O Capítulo 15 discute ponteiros inteligentes que a biblioteca padrão fornece e as características que permitem sua funcionalidade.

No Capítulo 16, examinaremos diferentes modelos de programação simultânea e falaremos sobre como o Rust o ajuda a programar em vários threads sem medo. O Capítulo 17 examina como os idiomas do Rust se comparam aos princípios de programação orientada a objetos com os quais você pode estar familiarizado.

O Capítulo 18 é uma referência sobre padrões e correspondência de padrões, que são maneiras poderosas de expressar ideias em programas Rust. O Capítulo 19 contém uma miscelânea de tópicos avançados de interesse, incluindo Rust inseguro, macros e muito mais sobre vidas, características, tipos, funções e encerramentos.

No Capítulo 20, concluiremos um projeto no qual implementaremos um servidor da web multithread de baixo nível!

Finalmente, alguns apêndices contêm informações úteis sobre a linguagem Rust em um formato mais parecido com uma referência. O Apêndice A cobre as palavras-chave do Rust, o Apêndice B cobre os operadores e símbolos do Rust, o Apêndice C cobre as características deriváveis ​​fornecidas pela biblioteca padrão, o Apêndice D cobre algumas ferramentas de desenvolvimento úteis e o Apêndice E explica as edições do Rust.

Não há maneira errada de ler este livro: se você quiser pular, vá em frente! Você pode ter que voltar aos capítulos anteriores se sentir alguma confusão. Mas faça o que funcionar para você.

Uma parte importante do processo de aprendizagem do Rust é aprender a ler as mensagens de erro que o compilador exibe: elas o guiarão para o código de trabalho. Como tal, forneceremos muitos exemplos que não compilam junto com a mensagem de erro que o compilador mostrará a você em cada situação. Saiba que se você inserir e executar um exemplo aleatório, ele pode não ser compilado! Certifique-se de ler o texto ao redor para ver se o exemplo que você está tentando executar está destinado a erro. Ferris também o ajudará a distinguir o código que não foi feito para funcionar:

Ferris Significado
Esse código não compila Este código não compila!
Este código entra em pânico Este código entra em pânico!
Este bloco de código contém código não seguro Este bloco de código contém código não seguro.
Este código não produz o comportamento desejado Este código não produz o comportamento desejado.

Na maioria das situações, levaremos você à versão correta de qualquer código que não compila.

Código fonte

Os arquivos de origem a partir dos quais este livro é gerado podem ser encontrados no GitHub.

Traduzido por Acervo Lima. O original pode ser acessado aqui.

Licença

Prefácio

Nem sempre foi tão claro, mas a linguagem de programação Rust é fundamentalmente sobre empoderamento : não importa que tipo de código você está escrevendo agora, Rust permite que você vá mais longe, para programar com confiança em uma variedade maior de domínios do que você fazia antes.

Considere, por exemplo, o trabalho de “nível de sistema” que lida com detalhes de baixo nível de gerenciamento de memória, representação de dados e simultaneidade. Tradicionalmente, esse reino da programação é visto como misterioso, acessível apenas a alguns poucos selecionados que devotaram os anos necessários para aprender a evitar suas armadilhas infames. E mesmo aqueles que o praticam o fazem com cautela, para que seu código não fique aberto a exploits, travamentos ou corrupção.

Rust quebra essas barreiras eliminando as velhas armadilhas e fornecendo um conjunto de ferramentas amigável e polido para ajudá-lo ao longo do caminho. Os programadores que precisam “mergulhar” no controle de nível inferior podem fazer isso com Rust, sem assumir o risco habitual de travamentos ou falhas de segurança e sem ter que aprender os detalhes de uma cadeia de ferramentas inconstante. Melhor ainda, a linguagem foi projetada para guiá-lo naturalmente em direção a um código confiável e eficiente em termos de velocidade e uso de memória.

Os programadores que já estão trabalhando com código de baixo nível podem usar Rust para aumentar suas ambições. Por exemplo, a introdução do paralelismo no Rust é uma operação de risco relativamente baixo: o compilador detectará os erros clássicos para você. E você pode lidar com otimizações mais agressivas em seu código com a confiança de que não introduzirá acidentalmente travamentos ou vulnerabilidades.

Mas Rust não está limitado à programação de sistemas de baixo nível. É expressivo e ergonômico o suficiente para tornar aplicativos CLI, servidores da web e muitos outros tipos de código bastante agradáveis ​​de escrever - você encontrará exemplos simples de ambos posteriormente neste livro. Trabalhar com Rust permite que você desenvolva habilidades que são transferidas de um domínio para outro; você pode aprender Rust escrevendo um aplicativo da web e, em seguida, aplicar essas mesmas habilidades para direcionar seu Raspberry Pi.

Este livro abrange totalmente o potencial do Rust para capacitar seus usuários. É um texto amigável e acessível que visa ajudá-lo a evoluir não apenas em seu conhecimento sobre Rust, mas também em seu alcance e confiança como programador em geral. Então mergulhe, prepare-se para aprender e bem-vindo à comunidade Rust!

- Nicholas Matsakis e Aaron Turon

Tradução feita por Acervo Lima. O original pode ser acessado aqui.

Licença

A Linguagem de Programação Rust

por Steve Klabnik e Carol Nichols, com contribuições da Comunidade Rust

Esta versão do texto presume que você está usando o Rust 1.48 ou posterior com edition="2018" no arquivo Cargo.toml em todos os projetos para usar a linguagem da edição Rust 2018. Consulte a seção “Instalação” do Capítulo 1 para instalar ou atualizar o Rust e consulte o novo Apêndice E para obter informações sobre as edições.

A edição 2018 da linguagem Rust inclui uma série de melhorias que tornam o Rust mais ergonômico e fácil de aprender. Esta iteração do livro contém uma série de alterações para refletir essas melhorias:

  • O Capítulo 7, “Gerenciando projetos em crescimento com pacotes, crates e módulos”, foi quase todo reescrito. O sistema de módulos e a forma como os caminhos funcionam na edição 2018 ficaram mais consistentes.
  • O Capítulo 10 tem novas seções intituladas “Características como parâmetros” e “Tipos de retorno que implementam características” que explicam a nova sintaxe impl Trait.
  • O Capítulo 11 tem uma nova seção intitulada “Usando Result<T, E> em testes” que mostra como escrever testes que usam o operador ?.
  • A seção “Tempo de vida avançado” no Capítulo 19 foi removida porque as melhorias do compilador tornaram as construções nessa seção ainda mais raras.
  • O Apêndice D anterior, “Macros”, foi expandido para incluir macros procedimentais e foi movido para a seção “Macros” no Capítulo 19.
  • O Apêndice A, “Palavras-chave”, também explica o novo recurso de identificadores brutos que permite a interoperação de códigos escritos nas edições 2015 e 2018.
  • O Apêndice D agora é intitulado “Ferramentas úteis de desenvolvimento” e cobre as ferramentas lançadas recentemente que ajudam a escrever código Rust.
  • Corrigimos uma série de pequenos erros e redação imprecisa ao longo do livro. Obrigado aos leitores que os relataram!

Observe que qualquer código em iterações anteriores do The Rust Programming Language que compilou continuará a compilar sem edition="2018" no arquivo Cargo.toml do projeto, mesmo que você atualize a versão do compilador Rust que está usando. Essas são as garantias de compatibilidade com versões anteriores do Rust em ação!

O formato HTML está disponível online em https://doc.rust-lang.org/stable/book/ e offline com instalações do Rust feitas com rustup; execute rustup docs --book para abrir.

Este texto está disponível em formato de brochura e e-book na No Starch Press .

Tradução feita por Acervo Lima. O original pode ser acessado aqui.

Licença

quinta-feira, 4 de fevereiro de 2021

Aplicações do Machine Learning

Introdução

O aprendizado de máquina é uma das tecnologias mais interessantes que alguém já encontrou. Como fica evidente pelo nome, ele confere ao computador aquilo que o torna mais parecido com o ser humano: a capacidade de aprender. O aprendizado de máquina está sendo usado ativamente hoje, talvez em muitos mais lugares do que seria de se esperar. Provavelmente usamos um algoritmo de aprendizado dezenas de vezes, mesmo sem saber. As aplicações de aprendizado de máquina incluem:

  • Mecanismo de busca na web: uma das razões pelas quais mecanismos de busca como google, bing etc funcionam tão bem é porque o sistema aprendeu como classificar as páginas por meio de um algoritmo de aprendizado complexo.
  • Aplicativos de marcação de fotos: seja no Facebook ou qualquer outro aplicativo de marcação de fotos, a capacidade de marcar amigos torna isso ainda mais acontecendo. Tudo isso é possível por causa de um algoritmo de reconhecimento de rosto executado por trás do aplicativo.
  • Detector de spam: nosso agente de e-mail, como Gmail ou Hotmail, faz um grande trabalho duro para nós, classificando os e-mails e movendo-os para a pasta de spam. Isso é novamente alcançado por um classificador de spam executado no back-end do aplicativo de e-mail.

Hoje, as empresas estão usando o aprendizado de máquina para melhorar as decisões de negócios, aumentar a produtividade, detectar doenças, prever o clima e fazer muito mais coisas. Com o crescimento exponencial da tecnologia, não só precisamos de melhores ferramentas para entender os dados que temos atualmente, mas também precisamos nos preparar para os dados que teremos. Para atingir esse objetivo, precisamos construir máquinas inteligentes. Podemos escrever um programa para fazer coisas simples. Mas, na maioria das vezes, conectar a inteligência com hardware é difícil. A melhor maneira de fazer isso é ter uma maneira de as próprias máquinas aprenderem as coisas. Um mecanismo de aprendizagem - se uma máquina pode aprender com a entrada, ela faz o trabalho difícil para nós. É aqui que o Machine Learning entra em ação. Alguns exemplos de aprendizado de máquina são:

  • Mineração de banco de dados para o crescimento da automação: as aplicações típicas incluem dados de cliques da Web para uma melhor experiência do usuário (experiência do usuário), registros médicos para uma melhor automação em saúde, dados biológicos e muito mais.
  • Aplicativos que não podem ser programados: Existem algumas tarefas que não podem ser programadas porque os computadores que usamos não são modelados dessa forma. Os exemplos incluem direção autônoma, tarefas de reconhecimento de dados não ordenados (reconhecimento facial / reconhecimento de caligrafia), processamento de linguagem natural, visão por computador etc.
  • Compreendendo a aprendizagem humana: isso é o mais próximo que entendemos e imitamos o cérebro humano. É o início de uma nova revolução, A verdadeira IA. Agora, após um breve insight, vamos chegar a uma definição mais formal de aprendizado de máquina.
  • Arthur Samuel (1959): “Aprendizado de máquina é um campo de estudo que dá aos computadores a capacidade de aprender sem ser explicitamente programado.” Samuel escreveu um programa de jogo Checker que poderia aprender com o tempo. No início, poderia ser facilmente vencido. Mas, com o tempo, aprendeu toda a posição do tabuleiro que o levaria à vitória ou derrota e, portanto, tornou-se um jogador de xadrez melhor que o próprio Samuel. Esta foi uma das primeiras tentativas de definir o Aprendizado de Máquina e é um pouco menos formal.
  • Tom Michel (1999): “Diz-se que um programa de computador aprende com a experiência E com relação a alguma classe de tarefas T e medida de desempenho P, se o seu desempenho nas tarefas em T, conforme medido por P, melhora com a experiência E.” Esta é uma definição mais formal e matemática. Para o programa de xadrez anterior.

No próximo tutorial, classificaremos os tipos de problemas de aprendizado de máquina e também discutiremos sobre pacotes úteis e ambiente de configuração para aprendizado de máquina e como podemos usá-lo para criar novos projetos.

Artigo escrito por Abhishek Sharma e traduzido por Acervo Lima de Machine Learning – Applications.

Desmistificando o Machine Learning

Aprendizado de máquina. Essa é uma palavra que tem um impacto! O aprendizado de máquina está na moda atualmente! E por que não séria assim? Quase todo novo desenvolvimento “atraente” no campo da Ciência da Computação e Desenvolvimento de Software em geral tem algo relacionado ao aprendizado de máquina por trás dos véus. Cortana da Microsoft - Aprendizado de Máquina. Reconhecimento de objetos e faces - Aprendizado de máquina e visão computacional. Programas avançados de melhoria de UX - Aprendizado de máquina (sim! A recomendação de produto da Amazon que você acabou de receber foi o esforço de processamento de números de algum algoritmo de aprendizado de máquina).

E nem é só isso. O aprendizado de máquina e a ciência de dados em geral estão EM TODA PARTE. É tão onipotente quanto o próprio Deus, se ele tivesse gostado de computadores! Por quê? Porque os dados estão em toda parte!

Portanto, é natural que qualquer pessoa que tenha cérebros acima da média e possa diferenciar os Paradigmas de Programação dando uma espiada no Código fique intrigada com o Aprendizado de Máquina.

Mas o que é aprendizado de máquina? E quão grande é o aprendizado de máquina? Vamos desmistificar o aprendizado de máquina de uma vez por todas. E para fazer isso, em vez de apresentar especificações técnicas, seguiremos uma abordagem “Entenda pelo Exemplo”.

Aprendizado de máquina: o que é realmente?

Bem, o Aprendizado de Máquina é um subcampo da Inteligência Artificial que evoluiu a partir da teoria do Reconhecimento de Padrões e Aprendizagem Computacional. Arthur Lee Samuel define Aprendizado de Máquina como: "Campo de estudo que dá aos computadores a capacidade de aprender sem serem programados explicitamente".

Então, basicamente, a área de Ciência da Computação e Inteligência Artificial “aprende” com dados sem intervenção humana.

Mas essa visão tem uma falha. Como resultado dessa percepção, sempre que a palavra Aprendizado de Máquina é usada, as pessoas geralmente pensam em "IA", "Redes Neurais que podem imitar cérebros humanos (a partir de agora, isso não é possível)", Carros que dirigem sozinho e mais. Mas o aprendizado de máquina está muito além disso. Abaixo, descobrimos algumas facetas esperadas e algumas facetas geralmente não esperadas da computação moderna, onde o aprendizado de máquina está em ação.

Aprendizado de máquina: O esperado

Começaremos com alguns lugares onde você pode esperar que o aprendizado de máquina desempenhe um papel.

  • Reconhecimento de fala (processamento de linguagem natural em termos mais técnicos): você conversa com Cortana em dispositivos Windows. Mas como ele entende o que você diz? Em seguida, surge o campo do Processamento de Linguagem Natural, ou PNL, que trata do estudo das interações entre Máquinas e Humanos, por meio da Lingüística. Adivinhe o que está no coração da PNL: Algoritmos e Sistemas de Aprendizado de Máquina (Modelos Ocultos de Markov sendo um).
  • Visão computacional: Visão computacional é um subcampo da IA ​​que lida com a interpretação (provável) de uma máquina do mundo real. Em outras palavras, todo reconhecimento facial, reconhecimento de padrões e técnicas de reconhecimento de caracteres pertencem à visão computacional. E o Aprendizado de Máquina, mais uma vez, com sua ampla variedade de Algoritmos, está no coração da Visão Computacional.
  • Carro autônomo do Google: bem. Você pode imaginar o que realmente o impulsiona. Mais vantagens do Machine Learning.

Mas essas eram aplicações esperadas. Até mesmo um pessimista teria um bom insight sobre esses feitos da tecnologia sendo trazidos à vida por alguma “magia de computador mística (e extremamente difícil) esmagadora de mente”.

Aprendizado de máquina: O inesperado

Vamos visitar alguns lugares que as pessoas normais não associam facilmente com o aprendizado de máquina:

  • Recomendações de produtos da Amazon: Você já se perguntou como a Amazon sempre tem uma recomendação que tenta aliviar sua carteira. Bem, esse é um algoritmo(s) de aprendizado de máquina chamado “Sistemas de recomendação” trabalhando em segundo plano. Ele aprende as preferências pessoais de cada usuário e faz recomendações de acordo com isso.
  • Youtube / Netflix: Eles funcionam exatamente como acima!
  • Data Mining / Big Data: Isso pode não ser um choque para muitos. Mas Data Mining e Big Data são apenas manifestações de estudo e aprendizagem de dados em uma escala maior. E onde quer que haja o objetivo de extrair informações dos dados, você encontrará o aprendizado de máquina à espreita.
  • Mercado de Capitais / Financiamento Habitacional / Imobiliário: Todos estes campos, incorporam muitos sistemas de Aprendizagem de Máquina para melhor avaliar o mercado, nomeadamente “Técnicas de Regressão”, para coisas tão medíocres como prever o preço de uma Casa, prever e analisando as tendências do mercado de ações.

Então, como você deve ter visto agora. O aprendizado de máquina realmente está em toda parte. De Pesquisa e Desenvolvimento à melhoria de negócios de Pequenas Empresas. Está em todo lugar. E, portanto, é uma opção de carreira e tanto, já que a indústria está em ascensão e o benefício não vai parar tão cedo.

Então, é isso por enquanto. Isso conclui nosso aprendizado de máquina 101. Esperamos nos encontrar novamente e, quando o fizermos, nos aprofundaremos em alguns detalhes técnicos do aprendizado de máquina, quais ferramentas são usadas no setor e como iniciar sua jornada para a proeza do aprendizado de máquina.

Artigo escrito por Sarthak Yadav e traduzido por Acervo Lima de Demystifying Machine Learning.

Introdução ao aprendizado de máquina

Este artigo discute as categorias de problemas de aprendizado de máquina e terminologias usadas no campo do aprendizado de máquina.

Tipos de problemas de aprendizado de máquina

Existem várias maneiras de classificar os problemas de aprendizado de máquina. Aqui, discutimos os mais óbvios.

1. Com base na natureza do "sinal" ou "feedback" de aprendizagem disponível para um sistema de aprendizagem.

  • Aprendizagem supervisionada: O computador é apresentado com exemplos de entradas e suas saídas desejadas, fornecidas por um “professor”, e o objetivo é aprender uma regra geral que mapeia entradas em saídas. O processo de treinamento continua até que o modelo atinja o nível desejado de precisão nos dados de treinamento. Alguns exemplos da vida real são:
    • Classificação de imagens: Você treina com imagens / rótulos. Então, no futuro, você fornece uma nova imagem esperando que o computador reconheça o novo objeto.
    • Previsão / regressão do mercado: você treina o computador com dados históricos do mercado e pede que ele preveja o novo preço no futuro.
  • Aprendizagem não supervisionada: nenhum rótulo é dado ao algoritmo de aprendizagem, deixando-o sozinho para encontrar a estrutura em sua entrada. É usado para agrupar a população em grupos diferentes. A aprendizagem não supervisionada pode ser um objetivo em si (descobrir padrões ocultos nos dados).
    • Clustering: você pede ao computador para separar dados semelhantes em clusters, isso é essencial na pesquisa e na ciência.
    • Visualização de alta dimensão: Use o computador para nos ajudar a visualizar dados de alta dimensão.
    • Modelos gerativos: depois que um modelo captura a distribuição de probabilidade de seus dados de entrada, ele será capaz de gerar mais dados. Isso pode ser muito útil para tornar seu classificador mais robusto.

Um diagrama simples que esclarece o conceito de aprendizagem supervisionada e não supervisionada é mostrado abaixo:

Como você pode ver claramente, os dados da aprendizagem supervisionada são rotulados, enquanto os dados da aprendizagem não supervisionada não são rotulados.

  • Aprendizagem semissupervisionada: os problemas em que você tem uma grande quantidade de dados de entrada e apenas alguns dos dados são rotulados são chamados de problemas de aprendizagem semissupervisionada. Esses problemas ficam entre o aprendizado supervisionado e o não supervisionado. Por exemplo, um arquivo de fotos onde apenas algumas das imagens estão etiquetadas (por exemplo, cachorro, gato, pessoa) e a maioria não está etiquetada.
  • Aprendizagem por reforço: um programa de computador interage com um ambiente dinâmico no qual deve realizar um determinado objetivo (como dirigir um veículo ou jogar um jogo contra um oponente). O programa recebe feedback em termos de recompensas e punições à medida que navega no espaço do problema.

2. Com base na "saída" desejada de um sistema aprendido por máquina

  • Classificação: as entradas são divididas em duas ou mais classes, e o aluno deve produzir um modelo que atribua entradas não vistas a uma ou mais (classificação multi-rótulo) dessas classes. Normalmente, isso é resolvido de forma supervisionada. A filtragem de spam é um exemplo de classificação, onde as entradas são mensagens de e-mail (ou outras) e as classes são “spam” e “não spam”.
  • Regressão: também é um problema de aprendizado supervisionado, mas as saídas são contínuas ao invés de discretas. Por exemplo, prever os preços das ações usando dados históricos.

Um exemplo de classificação e regressão em dois conjuntos de dados diferentes é mostrado abaixo:

  • Clustering: aqui, um conjunto de entradas deve ser dividido em grupos. Ao contrário da classificação, os grupos não são conhecidos de antemão, o que torna essa tarefa normalmente não supervisionada.
    Como você pode ver no exemplo abaixo, os pontos do conjunto de dados fornecidos foram divididos em grupos identificáveis ​​pelas cores vermelho, verde e azul.
  • Estimativa de densidade: A tarefa é encontrar a distribuição de entradas em algum espaço.
  • Redução de dimensionalidade: simplifica as entradas mapeando-as em um espaço de dimensão inferior. A modelagem de tópicos é um problema relacionado, em que um programa recebe uma lista de documentos em linguagem humana e tem a tarefa de descobrir quais documentos cobrem tópicos semelhantes.

Com base nessas tarefas / problemas de aprendizado de máquina, temos uma série de algoritmos que são usados ​​para realizar essas tarefas. Alguns algoritmos de aprendizado de máquina comumente usados ​​são Regressão Linear, Regressão Logística, Árvore de Decisão, SVM (máquinas de vetor de suporte), Naive Bayes, KNN (K vizinhos mais próximos), K-Means, Floresta Aleatória, etc.

Observação: todos esses algoritmos serão abordados em artigos futuros.

Terminologias de aprendizado de máquina

  • Modelo
    Um modelo é uma representação específica aprendida de dados aplicando algum algoritmo de aprendizado de máquina. Um modelo também é chamado de hipótese .
  • Recurso
    Um recurso é uma propriedade individual mensurável de nossos dados. Um conjunto de recursos numéricos pode ser convenientemente descrito por um vetor de recursos . Os vetores de recursos são alimentados como entrada para o modelo. Por exemplo, para prever uma fruta, pode haver características como cor, cheiro, sabor, etc.
    Nota: A escolha de características informativas, discriminativas e independentes é uma etapa crucial para algoritmos eficazes. Geralmente empregamos um extrator de recursos para extrair os recursos relevantes dos dados brutos.
  • Alvo (rótulo)
    Uma variável ou rótulo alvo é o valor a ser previsto por nosso modelo. Para o exemplo de fruta discutido na seção de recursos, o rótulo com cada conjunto de entrada seria o nome da fruta como maçã, laranja, banana, etc.
  • Treinamento
    A ideia é dar um conjunto de entradas (recursos) e suas saídas esperadas (rótulos), portanto, após o treinamento, teremos um modelo (hipótese) que mapeará os novos dados para uma das categorias treinadas.
  • Predição Assim
    que nosso modelo estiver pronto, ele pode ser alimentado com um conjunto de entradas para as quais fornecerá uma saída prevista (rótulo).

A figura mostrada abaixo esclarece os conceitos acima:

Artigos relacionados:

Referências:

Artigo escrito por Nikhil Kumar e traduzido por Acervo Lima de Getting started with Machine Learning.

Introdução aos dados no Machine Learning

DADOS: Pode ser qualquer fato, valor, texto, som ou imagem não processado que não esteja sendo interpretado e analisado. Os dados são a parte mais importante de todas as análises de dados, aprendizado de máquina e inteligência artificial. Sem dados, não podemos treinar nenhum modelo e toda a pesquisa e automação modernas serão em vão. As grandes empresas estão gastando muito dinheiro apenas para reunir o máximo de dados possível.

Exemplo: Por que o Facebook adquiriu o WhatsApp pagando um preço enorme de USS 19 bilhões?

A resposta é muito simples e lógica - é ter acesso às informações dos usuários que o Facebook pode não ter, mas o WhatsApp terá. Esta informação de seus usuários é de suma importância para o Facebook, pois facilitará a tarefa de melhoria em seus serviços.

INFORMAÇÃO: Dados que foram interpretados e manipulados e agora têm alguma inferência significativa para os usuários.

CONHECIMENTO: Combinação de informações inferidas, experiências, aprendizado e percepções. Resulta em conscientização ou construção de conceito para um indivíduo ou organização.

Como dividimos os dados no aprendizado de máquina?

  • Dados de treinamento: a parte dos dados que usamos para treinar nosso modelo. Esses são os dados que seu modelo realmente vê (entrada e saída) e com os quais aprende.
  • Dados de validação: A parte dos dados que é usada para fazer uma avaliação frequente do modelo, se ajusta ao conjunto de dados de treinamento junto com a melhoria dos hiperparâmetros envolvidos (inicialmente defina os parâmetros antes que o modelo comece a aprender). Esses dados desempenham sua parte quando o modelo está realmente em treinamento.
  • Dados de teste: uma vez que nosso modelo esteja completamente treinado, os dados de teste fornecem uma avaliação imparcial. Quando alimentamos as entradas de dados de teste, nosso modelo prevê alguns valores (sem ver a saída real). Após a previsão, avaliamos nosso modelo comparando-o com a saída real presente nos dados de teste. É assim que avaliamos e vemos o quanto nosso modelo aprendeu com as experiências alimentadas como dados de treinamento, definidas no momento do treinamento.

Considere um exemplo: há um proprietário de um Shopping Mart que conduziu uma pesquisa para a qual ele tem uma longa lista de perguntas e respostas que ele fez aos clientes, esta lista de perguntas e respostas é DATA. Agora, toda vez que ele quer inferir alguma coisa e não pode simplesmente passar por todas as perguntas de milhares de clientes para encontrar algo relevante, pois isso consumiria tempo e não seria útil. Para reduzir esta sobrecarga e desperdício de tempo e para facilitar o trabalho, os dados são manipulados através de software, cálculos, gráficos etc. conforme a própria conveniência, esta inferência dos dados manipulados é Informação. Portanto, os dados são essenciais para a informação. Agora Conhecimento tem o seu papel de diferenciar dois indivíduos com as mesmas informações. Na verdade, o conhecimento não é um conteúdo técnico, mas está vinculado ao processo de pensamento humano.

Propriedades dos dados:

  1. Volume: Escala de dados. Com o crescimento da população mundial e da tecnologia exposta, enormes dados são gerados a cada milissegundo.
  2. Variedade: diferentes formas de dados - saúde, imagens, vídeos, recortes de áudio.
  3. Velocidade: Taxa de streaming e geração de dados.
  4. Valor: Significância dos dados em termos de informações que os pesquisadores podem inferir deles.
  5. Veracidade: Certeza e correção nos dados que estamos trabalhando.

Alguns fatos sobre os dados:

  • Em comparação com 2005, 300 vezes, ou seja, 40 zetabytes (1ZB = 10 ^ 21 bytes) de dados serão gerados até 2020.
  • Em 2011, o setor de saúde tinha dados de 161 bilhões de Gigabytes
  • 400 milhões de tweets são enviados por cerca de 200 milhões de usuários ativos por dia
  • A cada mês, mais de 4 bilhões de horas de streaming de vídeo são feitas pelos usuários.
  • 30 bilhões de tipos diferentes de conteúdos são compartilhados todos os meses pelo usuário.
  • É relatado que cerca de 27% dos dados são imprecisos e, portanto, 1 em cada 3 idealistas ou líderes de negócios não confia nas informações sobre as quais estão tomando decisões.

Os fatos mencionados acima são apenas um vislumbre das enormes estatísticas de dados realmente existentes. Quando falamos em termos de cenário do mundo real, o tamanho dos dados atualmente presentes e gerados a cada momento está além de nossos horizontes mentais.

Artigo escrito por Mohit Gupta_OMG :) e traduzido por Acervo Lima de ML | Introduction to Data in Machine Learning.