Dataset - SINE Aberto

O SINE Aberto é uma plataforma que visa aumentar a efetividade na colocação do trabalhador no mercado de trabalho, por meio do compartilhamento dos dados dos trabalhadores cadastrados no Sistema Nacional de Emprego (SINE).

Para isso, o governo federal propõe realizar parcerias com empresas, ampliando os atores que fazem intermediação de mão de obra e potencializando a geração de empregos.

Conjunto de dados

O conjunto de dados selecionado pela equipe para o desenvolvimento do projeto foi do Estado de Santa Catarina, que pode ser baixado, por este link.

Segue abaixo uma amostra da base de dados.

As variáveis apresentada no conjunto de dados são:

  • Nacionalidade: Brasileiro, ignorado, Estrangeiro, Naturalizado Brasileiro, ou Brasileiro Nascido no Esterior.
  • Deficiencias: Se o candidado possui algum tipo de deficiência, qual seria.
  • Bairro: Em que bairro o cadidato mora, dentro do Estado de Santa Catarina.
  • CEP: Local de sua residencia.
  • CODIGO_MUNICIPIO_IBGE:Dado fornecido pelo IBGE.
  • NOME_MUNICIPIO: Nome do Município em que reside, dentro do estado de Santa Catarina.
  • UF: Para este projeto foi escolhido apenas a UF: SC.

  • NACIONALIDADE DEFICIENCIAS BAIRRO CEP CODIGO_MUNICIPIO_IBGE NOME_MUNICIPIO UF
    0 BRASILEIRA NaN AVENTUREIRO 89225560.0 420910 JOINVILLE SC
    1 BRASILEIRA NaN CENTRO 89370000.0 421220 PAPANDUVA SC

  • ESTUDANTE: Se é ou não estudante.
  • CURSOS_PROFISSIONALIZANTES: Se o candidato possue curso(s) profissionalizante(s) e qual o segmento.
  • GRADUACOES: Se o candidato possue graduação e sua área.
  • POS_GRADUACOES:Se o candidato possue pós-graduação e sua área.
  • IDIOMA: Se o candidato possue outro idioma e seu nível.

  • ESCOLARIDADE ESTUDANTE CURSOS_PROFISSIONALIZANTES GRADUACOES POS_GRADUACOES IDIOMAS
    0 Médio Completo N NaN NaN NaN NaN
    1 Fundamental Completo N NaN NaN NaN NaN

  • HABILITACAO: Se o candidato possue carteira de habilitação e sua categoria.
  • VEICULOS:Se Candidado possue ou não veículo próprio.
  • DISP_VIAJAR: Se o candidato tem disponibilidade para realizar viagem.
  • DISP_DORMIR_EMP: Se o candidato possue disponibilidade de dormir no local de trabalho.
  • DISP_AUSENTAR_DOMIC:Disponibilidade de se ausentar do domicílio.

  • HABILITACAO VEICULOS DISP_VIAJAR DISP_DORMIR_EMP DISP_AUSENTAR_DOMIC
    0 Nenhum N N N N
    1 Nenhum N N N N

  • PRETENSOES: Quais a pretensões de emprego por candidato.
  • MUNICIPIOS_INTERESSE: Quais municípios que o candidato tem interesse em trabalhar.


  • PRETENSOES MUNICIPIOS_INTERESSE
    0 724405-CALDEIREIRO (CHAPAS DE COBRE)(N,6,0,Indiferente)|724435-Funileiro industrial(N,99,0,Indiferente)|731105-MONTADOR DE EQUIPAMENTOS ELETRONICOS (APARELHOS MEDICOS)(N,3,0,Comercial)|784205-Auxiliar de linha de produção(N,0,0,Indiferente) NaN
    1 142305-Gerente comercial(N,166,0,Indiferente)|521110-Vendedor - no comercio de mercadorias(N,0,0,Comercial) NaN


    Para o utilização de enriquecimento de dados, foi utilizado o site: salário.

    CBO Cargo Carga Horária Piso Salarial Média Salarial Salário Mediana Teto Salarial Salário Hora
    0 612510 Abacaxicultor 41 1.313,38 1.439,02 1.134,65 2.174,69 7,09
    1 263105 Abade 40 2.983,98 3.269,43 2.197,00 4.940,87 16,54

    O Próximo data utilizado para o enriquecimento de base em nosso conjunto de dados foi o Wikipedia.

    Município PIB em 2018
    0 Joinville 30 785 682
    1 Itajaí 25 413 431
    2 Florianópolis 21 059 561
    3 Blumenau 16 958 783
    4 São José 10 607 482

    Pré - Processamento dos Dados

    Etapa de pré-processamento dos dados, como manipulação de valores missing, extração de outliers (valores extremos), engenharia de atributos e enriquecimento de base.

    GitHub