Stage 1: Ingestão de Landing para Bronze¶
O primeiro estágio de processamento no nosso pipeline ETL é a movimentação dos dados brutos da Camada Landing (data/raw/
) para a Camada Bronze (data/bronze/
). Este processo é orquestrado e executado através do notebook Jupyter notebooks/notebook_landing_bronze.ipynb
.
Objetivo:
- Ingestão Segura: Garantir que todos os arquivos CSV brutos da camada Landing sejam lidos com sucesso.
- Validação de Leitura: Confirmar que os dados podem ser carregados corretamente em DataFrames do Pandas, identificando problemas básicos de formato de arquivo, se existirem.
- Persistência Consistente: Salvar os dados lidos em novos arquivos CSV na camada Bronze, estabelecendo um ponto de partida limpo e validado para as transformações futuras.
Ferramentas Utilizadas:
- Jupyter Notebook:
notebooks/notebook_landing_bronze.ipynb
- Python: Linguagem de programação para o script.
- Pandas: Biblioteca para manipulação e carregamento de DataFrames.
Entrada:
- Arquivos CSV localizados na pasta
data/raw/
(provenientes da geração de dados brutos).
Saída:
- Arquivos CSV idênticos aos de entrada, porém agora salvos na pasta
data/bronze/
.
Processo Detalhado e Transformações Aplicadas:
O notebook_landing_bronze.ipynb
realiza as seguintes operações para cada arquivo CSV presente na camada Landing:
- Iteração sobre Arquivos Raw: O notebook itera sobre todos os arquivos
.csv
encontrados dentro da pastadata/raw/
. - Leitura do CSV: Para cada arquivo, o Pandas é utilizado para ler o conteúdo do CSV em um DataFrame.
- Criação da Pasta Bronze (se necessário): Verifica se a pasta
data/bronze/
existe. Se não, ela é criada para armazenar os arquivos processados. - Persistência na Camada Bronze: O DataFrame lido é então salvo como um novo arquivo CSV no caminho correspondente dentro da pasta
data/bronze/
. Isso assegura que a camada Bronze contenha uma cópia "limpa" dos dados brutos, pronta para a próxima etapa. - Verificação Básica (Implícita): Embora não haja transformações complexas ou validações de dados nesta etapa, a simples operação de leitura e escrita do Pandas serve como uma validação implícita de que os arquivos não estão corrompidos e são legíveis. Qualquer erro na leitura ou escrita seria sinalizado neste ponto.
Esta etapa é crucial para estabelecer a camada Bronze como um ponto de controle e garantir a integridade básica dos dados antes de qualquer transformação complexa ser aplicada.