Kaggle: Treine o Cientista de Dados que existe em você ou fique rico tentando!

Você está começando a estudar ou já tem alguma experiência na área Data Mining (Mineração de Dados), Text Mining (Mineração de Texto) e Machine Learning (Aprendizagem de Máquina), mas nunca obteve uma base de dados boa e grande para utililzar?
Ou já é especialista, mas não exerce isso como profissão ou ganha dinheiro com isso?

Seu problemas acabaram, conheça o Kaggle!

 

O que é o Kaggle?

De acordo com a descrição em seu site,

“Kaggle é uma plataforma para conectar pessoas com dados e problemas a pessoas que sabem como encontrar as respostas.”

As empresas disponibilizam no Kaggle uma base de dados e uma descrição do problema que precisa de solução. Qualquer pessoa, pesquisador, órgão governamental ou empresa cadastrada no site de qualquer lugar do mundo pode baixar a base e tratá-la como bem entender de forma a atingir os melhores resultados.

Segundo dados do Kaggle, uma competição para prever a probabilidade de acidentes em diferentes modelos de veículos para uma grande empresa de seguros superou em 340% os melhores resultados alcançados por empresas especializadas.

E o que eu, mero mortal, ganho com isso?

Considerando a dificuldade de encontrar ou montar uma boa base de dados (você vai levar meses, fora o tempo para estudá-la e prepará-la antes de sair “minerando tudo”), o mínimo que se ganha é experiência e aprendizado.

Um exemplo bem interessante e curioso é uma competição chamada Psychopathy Prediction Based on Twitter Usage que rolou em 2012 com o intuito de determinar se era possível prever pessoas com alto grau de psicopatia através do Twitter. Essa competição surgiu de um estudo realizado em resposta ao paper Hungry like the wolf: A word-pattern analysis of the language of psychopaths“, os melhores resultados do Kaggle foram formalmente incluídos na pesquisa e apresentados na DefCon daquele ano.

Fora isso o aprendizado e experiência, existem dois outros tipos de prêmios:

  • Dinheiro, claro: o maior prêmio deste tipo já concedido foi coincidentemente para a competição mais longa do site, o “Heritage Healthcare Prize”, com o valor de três milhões de dólares;
  • Emprego: diversas grandes empresas, como o Facebook, lançam desafios no site para garimpar Data Scientists.

Tenho muito interesse, mas não manjo quase nada…

Abraça a oportunidade para aprender, meu caro!

O próprio presidente do Kaggle afirmou que o conhecimento especializado é inútil quando se trata de uma competição de data prediction (predição de dados). Se não quiser competir, tudo bem, você não precisa submeter seus resultados.

E digo mais: você também pode utilizar os dados de competições já encerradas e ninguém vai ficar sabendo! Aliás, os desafios mais interessantes estão encerrados.

Como eu participo?

O cadastro é bem simples e rápido já que você pode utilizar seu perfil de outras redes sociais. Em seguida, basta preencher seus dados no perfil descrevendo seus skills, experiência, técnicas de predictive modelling utilizadas, ferramentas, etc.

Eu já me inscrevi.
Você pode encontrar abaixo uma série de vídeos em inglês com tutoriais e técnicas para te ajudar, além dicas de competição:


Te espero lá no Kaggle e que vença o melhor! 😛