AUTOMATISER DES TÂCHES MANUELLES AVEC TERRAFORM
Développer un nouveau projet peut être fastidieux, surtout quand il s’agit de configuration de l’environnement nécessaire. Bien que Docker facilite la tâche, il ne peut pas aider lorsqu’il s’agit de développer un projet de données avec des outils en nuage comme Amazon S3, Lambda, Glue, EMR, etc. Ces éléments doivent être instanciés sur l’infrastructure des fournisseurs et ceci se fait manuellement sur l’interface utilisateur ou automatiquement via les API de services. Ce processus est coûteux, confus et prend beaucoup de temps, et est souvent sujet à des erreurs humaines. C’est là qu’intervient Terraform, un outil IaC (Infrastructure as Code) qui gère l’infrastructure d’un fournisseur de services de manière automatique et programmable.
Terraform permet de décrire l’infrastructure souhaitée à travers un langage déclaratif appelé HCL (HashiCorp Configuration Language) et est capable de modifier et de mettre à jour l’infrastructure, ajoutant ou supprimant uniquement les ressources nécessaires pour passer de l’état actuel à l’état souhaité. L’outil propose également une version d’infrastructure et supporte la manipulation de variables et un certain degré de contrôle de flux.
Dans cet article, l’auteur explique comment il a automatisé la création d’une infrastructure pour un projet de pipeline de données utilisant des fichiers PDF pour extraire des questions du test national d’école secondaire brésilien ENEM. Ce pipeline implique la création et la configuration de nombreux composants AWS tels que S3, Lambda, Glue, etc. Pour ce faire, il faut créer un utilisateur Terraform IAM sur AWS, installer Docker, et écrire le fichier principal Terraform (main.tf) pour configurer le cloud provider AWS. Avec Terraform, il est possible de créer une ressource S3 en seulement quelques commandes.
En conclusion, Terraform aide à gérer l’infrastructure de manière plus agile et sécurisée, en rendant caduque le travail manuel et fastidieux de configuration de chaque ressource individuelle.