Ce que j'ai appris durant ma première année en tant que directeur de la science des données | par CJ Sullivan

Gérer une équipe de scientifiques des données en dehors du secteur technologique

Depuis six mois, je remarque qu’il y a peu d’articles sur la gestion d’une équipe de scientifiques des données (par opposition aux projets de scientifiques des données, un sujet qui a considérablement plus de contenu). Pour combler cette lacune, j’ai écrit mon premier article : “Ce que j’ai appris au cours de mes six premiers mois en tant que directeur de la science des données” qui a été bien accueilli. Maintenant que j’ai été directeur de la science des données pendant un an, je vais mettre à jour mon article original sur la base de mes six prochains mois d’expérience.

Je suis ravi d’annoncer que les scientifiques des données ont encore une certaine sécurité d’emploi dans le monde de la technologie, y compris avec les entreprises FAANG. Malgré les licenciements dans le secteur technologique, les scientifiques des données continuent d’être embauchés. Pourtant, j’ai acquis six mois d’expérience et j’ai appris certains éléments lors de l’embauche de scientifiques des données.

Le design d’entrevue : coder ou ne pas coder ?

La question de savoir si vous devez voir le code des candidats lors des entrevues d’embauche a été longuement débattue dans l’industrie des logiciels. Doit-on effectuer une simulation de projets et de tâches similaires à ce que nos employés effectuent au quotidien ? Voir les candidats écrire du code en direct ? Nous attachons beaucoup d’importance à voir comment les candidats codent. Nous examinons l’organisation du code, la qualité des classes, les fonctions, les docstrings, les types de données et autres éléments utiles pour le débogage. Nous examinons également les tests établis et la documentation globale. Bien entendu, cela peut être évalué grâce à un défi de codage à domicile ou en temps réel ; cependant, ces deux méthodes peuvent avoir des avantages et des inconvénients.

Les défis de codage à domicile ou les devoirs supposent que le candidat a le temps nécessaire pour les réaliser. Nous ne pouvons pas présumer que les candidats n’ont pas de tâches de travail et de famille à accomplir durant cette période. Si les candidats doivent faire face à un défi à domicile, cela risque de nuire aux parents qui travaillent, qui ont des obligations familiales à remplir en dehors de leur travail.

Les simulations de codage en direct ou les exercices de tableau blanc nécessitent également du temps libre des candidats, généralement lors des entretiens individuels d’une heure. Mais que se passe-t-il si une personne est surveillée par son entreprise et n’a pas d’ordinateur supplémentaire ? Beaucoup de gens ne peuvent pas se concentrer sous pression, et cela ne représente pas l’environnement réel de travail. (si c’est le cas pour votre équipe, la culture de votre entreprise devrait être reconsidérée).

Dans tous les cas, nous ne pratiquons ni l’un ni l’autre. Nous utilisons plutôt des entretiens techniques sous forme de discussions plutôt que d’exercices de codage.

L’importance d’un portfolio

Il est important que les candidats fournissent des exemples de code ou d’analyse qu’ils ont produit. C’est pourquoi il est préférable que les candidats aient un compte Github avec quelques projets bien pensés. Leurs projets Github doivent être joints à leur curriculum vitae et ne doivent pas être des copies de projets existants. Même s’il est difficile d’obtenir cet élément si vous êtes parent et avez peu de temps libre ou si vous n’avez pas accès à un ordinateur en dehors du travail, cela représente un atout attractif pour les employeurs.

Lire la description d’emploi est important !

Il est essentiel de préciser les responsabilités de chaque emploi. Dans mon équipe, nous avons deux types de personnes: les scientifiques des données et les ingénieurs d’apprentissage en machine. Ces titres ont été créés avant mon arrivée dans l’entreprise. Pour distinguer les deux emplois, j’ai été très clair dans les annonces sur les responsabilités de chacun. Ce que les scientifiques des données font est l’expérimentation et la création de modèles en bloc-notes et peut-être des scripts Python de base. Les ingénieurs d’apprentissage en machine prennent ces modèles et les adaptent pour les pipelines de production. Dans certaines entreprises, ces emplois peuvent être appelés “ingénieurs de données” ou “MLOps”. J’ai appris au fil des mois que la distinction entre les deux fonctions doit être clairement désignée dans l’annonce d’emploi. Malgré cela, beaucoup de scientifiques de données postulent pour les emplois d’ingénieurs d’apprentissage en machine sans lire les annonces d’emploi.

En fin de compte, je recommande de ne pas être trop rigoureux sur le choix du candidat. Nous avons également mis en place un système de parrainage pour s’assurer que les candidats proviennent de divers horizons. Nous respectons les valeurs de l’entreprise et vérifions les compétences techniques de chaque envisagé pour être un parfait match.

Au cours de cette année, nous avons vu que l’embauche de scientifiques des données doit être faite avec soin et sans ambiguïté. Les annonces d’emploi doivent être précises pour une correspondance idéale. Les candidats doivent être en mesure de montrer des exemples de code et d’analyse, par conséquent, un compte Github est souhaitable. Des entrevues techniques non codées peuvent offrir un environnement moins stressant pour les candidats. Les équipes doivent examiner le cadre des avantages et des inconvénients dans chaque situation où elles examinent les compétences techniques des candidats.