Edital para Seleção de bolsistas de Treinamento Técnico
Seleção de bolsistas de Treinamento Técnico
Centro de Estudos da Metrópole (CEM / USP / Fapesp-Cepid)
 
Candidatos selecionados:
 
Herez Moise Kattan; Clóvis Kioyohide Hanashiro; André Ricardo Frederico; Breno Vicente Mazieiro; Mariela Atausinchi Fernandez.
 
 
 
 
 
 
Para a segunda fase, as entrevistas serão realizadas em 3/11/2016, abaixo a lista dos candidatos e os horários das entrevistas:
 
 
  
 
 
 
 
São Paulo, 15 de setembro de 2016
 
 
 
DO OBJETO
O Centro de Estudos da Metrópole seleciona até 6 (seis) bolsistas de treinamento técnico nas áreas de análise de dados e tecnologia da informação para auxiliar na implementação de projetos para a ampla divulgação de dados socioeconômicos e políticos para a comunidade acadêmica e o público em geral. 
Pretende-se produzir plataformas e aplicativos para extrair informações de grandes bancos de dados e apresenta-las em formatos de fácil utilização e/ou gráficos. 
Os bolsistas serão alocados em um dos seguintes projetos: 
•Plataforma para extração e consulta de dados censitários e pesquisas domiciliares
•Aplicativo web-based sobre a performance das Escolas do Ensino Básico de São Paulo
A descrição completa desses projetos e das atividades a serem desempenhadas encontram-se no Anexo I e Anexo II deste edital.
 
 
SOBRE A INSTITUIÇÃO
O Centro de Estudos da Metrópole (CEM) é um Centro de Pesquisa, Inovação e Difusão (CEPID) apoiado pela FAPESP e com sedes na Universidade de São Paulo (USP) e no Centro Brasileiro de Análise e Planejamento (Cebrap). É uma instituição de pesquisa avançada em ciências sociais, que investiga temáticas relacionadas a desigualdades e à formulação de políticas públicas nas metrópoles contemporâneas. É constituído por um grupo multidisciplinar, que inclui demógrafos, cientistas políticos, sociólogos, geógrafos e antropólogos, cuja agenda de pesquisa está voltada basicamente ao estudo de dimensões relacionadas ao acesso dos cidadãos ao bem-estar. Os pesquisadores do Centro atuam em diversos campos do conhecimento e aplicam distintas metodologias em suas investigações. 
 
REQUISITOS E CONDIÇÕES DA BOLSA
A oportunidade está aberta a candidatos brasileiros e estrangeiros. É recomendável que o candidato possua graduação em áreas relacionadas à tecnologia da informação (Ex.: Ciência da Computação, Matemática, Engenharia de Computação, Estatística etc.). Mas abrimos a oportunidade para candidatos com diplomas de graduação em outras áreas, desde que tenham formação e experiência comprovadas. O candidato deve ter sólido conhecimento de programação, experiência na manipulação e gerência de bases de dados, além de dominar pelo menos uma das seguintes linguagens de programação: C++, Python, Java e Java Script. 
 
Serão selecionados até o máximo de 6 (seis) bolsistas, sendo 2 (dois) para cada uma das categorias de bolsa listadas a seguir:
 
CategoriaValor Mensal
Treinamento Técnico IV (TT-IV)R$ 2.871,90
Treinamento Técnico IVA (TT-IV-A)R$ 4.705,20
Treinamento Técnico V (TT-V)R$ 6.819,30
 
Cada uma das categorias de bolsa tem requisitos próprios, que serão listados a seguir. Mas em todos os casos, é necessário que o bolsista não receba bolsas de outras fontes, nem possua vínculo empregatício com qualquer instituição.
 
•Bolsa TT-IV, para graduado, especialista em Tecnologia de Informação (TI), com dois anos de experiência após a graduação ou título de mestrado na área de TI. 
•Bolsa TT-IV-A, para graduado, especialista em TI com pelo menos quatro anos de experiência após a graduação.
•Bolsa TT-V, para graduado, especialista em TI com pelo menos cinco anos de experiência após a graduação ou título de doutorado
 
CONDIÇÕES DE TRABALHO
 
Espera-se dedicação de 16 a 40 horas semanais. O candidato informará, no momento da entrevista de seleção, o número de horas semanais que pretende desempenhar. Os valores descritos no item anterior referem-se a uma dedicação de 40 horas, a bolsa será paga proporcionalmente ao número de horas semanais. 
 
O bolsista deverá trabalhar presencialmente no Centro de Estudos da Metrópole – localizado na Faculdade de Filosofia, Letras e Ciências Humanas da USP (FFLCH), Avenida Professor Luciano Gualberto, 315, Cidade Universitária, São Paulo-SP.
 
DURAÇÃO, AVALIAÇÃO DE ATIVIDADES E RENOVAÇÃO
 
As bolsas têm duração de 12 (doze) meses, com possibilidade de renovação, caso o bolsista apresente desempenho satisfatório. Suas atividades serão avaliadas pela Fapesp com base em dois relatórios – um parcial e outro final – e pelo CEM com base em suas entregas e desempenho rotineiro. 
 
DOCUMENTAÇÃO PARA INSCRIÇÃO 
 
1.Currículo em formato Lattes (www.lattes.cnpq.br) ou semelhante;
2.Breve descrição sobre a motivação para essa oportunidade (menos de 200 palavras)
3.Histórico escolar completo da graduação
4.Indicar, no e-mail de inscrição, em qual categoria de bolsas está interessado (TT-IV, TT-IV-A ou TT-V)
 
 
CONTATO E PRAZO DAS INSCRIÇÕES
O candidato deverá enviar a documentação via e-mail para: centrodametropole@usp.br com o título: “Bolsa – Treinamento Técnico CEPID-CEM”. 
 
O prazo para envio das inscrições se encerra em 19/10/2016.
 
Para dúvidas e informações adicionais sobre o Programa de Pesquisa, entre em contato através do e-mail centrodametropole@usp.br com o título: “Dúvida Bolsa TT”.
 
 
PROCESSO SELETIVO
A seleção dos candidatos será realizada em duas etapas. Na primeira, serão avaliados o currículo, o histórico escolar e a trajetória do candidato. A segunda consistirá em entrevista com a comissão de seleção.
 
Os candidatos selecionados para a segunda fase serão contatados via e-mail até 26/10/2016.
 
As entrevistas serão realizadas pessoalmente ou via Skype em 03/11/2016. 
 
 
DIVULGAÇÃO DOS RESULTADOS
O resultado final será divulgado no site do CEM no dia 07/11/2016.
Mais informações em: http://www.fapesp.br/oportunidades
 
 
Anexo I
Projeto: Plataforma para consulta e extração dos dados censitários
 
 
JUSTIFICATIVA 
A partir de 2014, o Centro de Estudos da Metrópole passou a disponibilizar ao público, através da internet, os arquivos dos bancos de dados das amostras Censos Demográficos Brasileiros, de 1960 a 2010. Tais informações (de extrema importância para estudos especialmente nas áreas de Sociologia, Ciência Política, Economia e Demografia) não se encontravam reunidas deste modo em outro lugar.
Uma equipe de pesquisadores do CEM trabalhou para transformar os arquivos originais (raw data – texto simples, sem separação de colunas) para um formato mais comumente utilizado nas Ciências Sociais (SPSS) e que permitisse fácil manipulação por usuários sem muito conhecimento técnico. Cada um desses bancos de dados se configura como uma grande matriz retangular, que contém cerca de 20 a 30 milhões de registros e aproximadamente 100 a 200 colunas – ocupando de 5 a 10 gigabytes em disco. O software SPSS (e seu concorrente open source PSPP) possibilitam a abertura dessas informações out-of-memory, i.e., diretamente do disco, sem que sejam preciso levar todo o banco ao mesmo tempo para a memória RAM. Com isso, torna-se possível a análise a partir de computadores pessoais com capacidade apenas um pouco acima da mediana – ao invés do uso de clusters e workstations. 
A equipe procedeu ainda um largo estudo dos instrumentos e procedimentos de coleta aplicados pelo IBGE em cada um dos censos – bem como da extensa literatura especializada que já tratou deste assunto. Assim pode propor uma série de recodificações e padronizações para construir variáveis com conteúdos comparáveis entre os censos. Uma série de relatórios técnicos foi produzida e disponibilizada on-line. O resultado dessa atividade serviu como subsídio para as análises presentes no livro Trajetórias da Desigualdade: como o Brasil mudou nos últimos 50 anos, organizado por Marta Arretche e publicado em 2015 pela Editora Unesp. Todos os scripts e linhas código utilizados pela equipe foram também divulgados como anexos digitais do livro e se encontram disponíveis para download gratuito. Qualquer usuário com conhecimento de estatística está plenamente capacitado para fazer uso dos dados e lançar mão dos códigos para padronizar as informações e replicar nossas análises. 
Pretendemos agora expandir o uso desses dados para um público ainda mais amplo – reduzindo os custos de capacitação técnica para a utilização. A proposta é criar uma plataforma online para consulta e cruzamento dos dados, por meio de uma interface gráfica intuitiva e amigável. Com isso, atingiríamos estudantes de graduação, profissionais de outras áreas (em especial, jornalismo) interessados em produzir seus próprios dados a partir das fontes primárias originais. Esse é o trabalho que prevemos para os bolsistas TT.
 
 
DESCRIÇÃO DAS ATIVIDADES PREVISTAS
Como dito anteriormente, os microdados das amostras dos Censos Demográficos são originalmente divulgados na forma de arquivos de texto sem formatação e sem separação de colunas. Há arquivos separados para os registros de indivíduos e domicílios (e por vezes também outros tipos de informação, como migração e mortalidade) – e, além disso, tudo é separado por unidade da federação. O primeiro passo para o uso dos dados é a transformação e compilação de dessa informação bruta. 
O bolsista deverá primeiramente construir uma estrutura de Extração, Transformação e Armazenamento de dados (ETL), para recuperar e processar tais arquivos de texto para, em seguida, carregá-los num servidor de banco de dados de alto desempenho; visto o tamanho dos arquivos a serem trabalhados. Em seguida, deve-se aplicar as recodificações e padronizações propostas pela equipe de análise de dados que participou do projeto que originou o livro Trajetórias. O próximo objetivo é construir ferramentas para acesso remoto a esses dados, de forma rápida e eficiente.
A ferramenta visa o acesso do público em geral (não especializado), conforme descrito acima. Para isso, compreendemos as informações devem ser pré-processadas, traduzidas para um formado estruturado (por exemplo, XML) e organizados numa estrutura lógica do tipo cubo OLAP (Online Analytical Processing) – que é uma estrutura lógica para relacionar tabelas de bancos de dados relacionais, particularmente interessante para o caso de grandes volumes de informação. Esse tipo de estratégia é largamente utilizada por órgãos oficiais que produzem grandes bancos – como é o caso do Ministério do Trabalho, para organizar os dados do Relatório Anual de Informações Sociais (RAIS). Pretendemos também que seja possível aos pesquisadores do Centro de Estudos da Metrópole, o acesso remoto (via ODBC) aos dados.
Os dados do cubo devem ser acessíveis gratuitamente através de consultas online em um aplicativo web-based com interface gráfica intuitiva. Para isso, os servidores de bancos de dados e demais aplicativos devem ser instalados e alocados numa estrutura pública. Prevemos o uso da infraestrutura da Nuvem USP (http://nuvem.uspdigital.usp.br), uma plataforma da Universidade de São Paulo que disponibiliza servidores virtuais com diversos tamanhos e capacidades de processamento para pesquisadores da universidade. O próprio uso e manutenção dessa tecnologia é uma atividade que exige conhecimentos específicos e elevados de computação. 
Os bolsistas trabalharão diretamente com pesquisadores do Centro de Estudos da Metrópole, em especial aqueles envolvidos nas áreas de análise de dados, estatística e geografia e geoprocessamento. Espera-se que no dia-a-dia haja trocas de experiências e uma dinâmica de progressiva de aprendizado e transferência de tecnologia. Mas pretendemos também formalizar a relação de capacitação. Prevemos, deste modo, que também sejam produtos desta atividade alguns materiais didáticos e ao menos um curso (interno ou eventualmente aberto) de capacitação sobre bancos de dados relacionais, SQL e Cubo OLAP. 
 
Anexo II
Projeto: Aplicativos web-based sobre Escolas do Ensino Básico
 
 
JUSTIFICATIVA 
 
Em 2015, desenvolvemos um aplicativo, intitulado "Escola também tem nota", que pode ser acessado por qualquer dispositivo com acesso à internet, possuindo inclusive interfaces especiais para tablets e smartphones. A idéia era levar até o cidadão comum uma série de informações sobre o desempenho e as condições de operação de qualquer escola – pública ou privada – da Região Metropolitana de São Paulo (RMSP). 
Os dados oficiais sobre a avaliação da educação básica, produzidos pelo Instituto de Pesquisas Educacionais Anísio Teixeira (Inep – Ministério da Educação) foram utilizados. Em especial, exploramos as informações dos Censos Escolares, da Prova Brasil (ANEB/SAEB) e do Exame Nacional do Ensino Médio (Enem). 
As atividades procederam em diversas etapas. Primeiramente, organizamos e padronizados as informações de cada escola, criando bancos de dados com séries temporais. Em seguida, georreferenciamos todos os endereços. Iniciamos por aqueles disponíveis nos dados oficiais do MEC, mas logo esses se mostraram lacunares e insuficientes. Procedemos então uma busca ativa e individualizada das escolas sem informação geográfica – acreditamos que, como resultado, tenhamos produzido a mais completa compilação de dados georreferenciados sobre educação sobre a RMSP. Numa terceira etapa, para cada escola, produzimos uma série de comparações: a) com outras instituições que atendem alunos do mesmo nível socioeconômico e b) com outras escolas da vizinhança (i.e., localizadas dentro de certo raio). Todas essas etapas foram realizadas pelos próprios pesquisadores do CEM, com ampla experiência em estatística e geoprocessamento.
O aplicativo apresenta de modo gráfico, amigável e simples todas essas informações (http://www.centrodametropole.org.br/escolas). O usuário pode buscar a instituição de seu interesse (através da navegação pelo mapa ou por busca de texto), compará-la com outras e também saber mais sobre as avaliações governamentais sobre a Educação Básica. Produzimos também uma série de vídeos explicativos sobre o projeto e sobre os conteúdos.
Pretendemos agora expandir as funcionalidades deste aplicativo e estender seu escopo para todas as regiões metropolitanas – para as quais o CEM já tem muitos dados e estudos prévios. 
 
 
DESCRIÇÃO DAS ATIVIDADES PREVISTAS
 
Primeiramente será preciso coletar informações das milhares de escolas concernidas na população-alvo. O primeiro passo é compilar, a partir das bases de dados públicas existentes, as informações sobre condições de operação e desempenho nas avaliações governamentais padronizadas. Essa etapa é bastante simples e contará com o apoio da equipe do CEM. Na segunda etapa, como descrito acima, consiste no georreferenciamento das unidades. Para as escolas com endereço completo, é procedimento bastante simples. No entanto, para aquelas de informação lacunar, será necessário proceder buscas e consultas a outras fontes de informação. 
 
Pretendemos que um dos bolsistas (TT-IV ou TT-IV-A) desenvolva scripts e aplicativos para busca e coleta automatizada (web scraping) das informações sobre localização do maior número possível dessas escolas, minimizando as ações de consulta manual – o que até agora vinha sendo executado por bolsistas de iniciação científica, como parte de seu programa de atividades. Esse bolsista TT trabalhará diretamente com a equipe de geografia e geoprocessamento. É importante mencionar aqui que atividades de raspagem de dados e web scraping têm se tornado cada vez mais importantes para a pesquisa social, possibilitando a extração e compilação de bancos de dados de fonte públicas a partir de informações não-estruturadas. Um amplo conjunto de temas passa a contar com dados e informações sistemáticas de modo que anteriormente não seria possível (com isso a pesquisa acadêmica efetivamente lança mão do que popularmente tem sido denominado big data analytics ou data science). Do ponto de vista da transferência de conhecimentos e tecnologia, a aplicação específica à busca e georreferenciamento das escolas servirá como importante experiência. Antevemos também um curso sobre o assunto dirigido ao corpo de pesquisadores e eventuais interessados externos. 
 
Os bolsistas TT-V deverá trabalhar no desenvolvimento da plataforma web para apresentação do aplicativo que deverá levar em conta o grande volume de dados a ser manipulado – o que é exigente tanto do ponto de vista da exibição gráfica dos resultados (elevado número de pontos que devem ser plotados e apresentados num mapa dinâmico), como do número de consultas ao servidor de bancos de dados. Atualmente o aplicativo funciona em conexão com o Google Maps. Mas outras alternativas deveriam ser consideradas; em especial: a) Serviços de Web Mapping em nuvem (como MapBox, CartoDB, ArcGIS Online, Tableau etc) ou b) Sevidores de mapas hospedados por nós mesmos (utilizando, por exemplo, Mapnik, MapServer, ou customizados com base em Java/Python funcionando conjuntamente com servidores de bancos de dados). A primeira opção é de mais fácil implementação e não requer conhecimentos avançados de programação – e nem mesmo servidores próprios para os mapas. Mas eventualmente pode não ser otimizada para os propósitos que prevemos e até mesmo incorrer em custos mensais de manutenção. A segunda opção garante controle total sobre os dados e sobre os processos. No entanto, é bem mais demandante em termos de programação e pode ter desenvolvimento mais lento. O bolsista terá liberdade para propor a solução tecnológica adequada, seja por meio de alguma das duas opções elencadas – ou de outras que se mostrarem mais eficientes. Ele trabalhará em contato com a equipe de estatística e análise de dados, também num processo de aprendizado e treinamento contínuo.
 
 
Salvar