Pour limiter les faux positifs, j’ai créé quelques classes “poubelle”…
Une pour le verso des panneaux…

Une pour les logos…
Désormais, les images annotées couvrent 189 classes, y compris pour des panneaux non officiels… le fameux “interdit aux camping-car”, mais aussi “interdit aux chiens” ou “tenir les chiens en laisse” ou “danger hélicoptère”… mais aussi le C2 (Hôpital) qui n’existe plus officiellement depuis plus de 20 ans !
J’ai progressé en utilisant le premier modèle entraîné pour faire une pré-annotation ce qui permet de se concentrer sur les erreurs et les remettre dans la bonne classe pour l’entraînement suivant ce qui aide le modèle à se concentrer un peu plus sur les cas complexes.
A chaque cycle, environ 30000 images sont pré-annotées en utilisant le modèle précédent, puis passées en revue manuellement pour chaque classe, exemple :
Les panneaux avec un taux de confiance de 100% sont mis à part, les autres sont triés par taux de confiance pour faciliter le tri manuel. Au fur et à mesure des cycles entraînement/annotation, le taux de confiance monte et il y a de moins en moins de tri à faire.
J’ai aussi ajouté les nouvelles classes au fur et à mesure que les panneaux correspondants s’accumulaient en faux positifs.
J’ai maintenant environ 50000 images annotées, une sélection est faite pour chaque classe d’au maximum 250 images pour l’entraînement et de 50 images pour validation en priorisant celles avec un faible taux de confiance obtenu sur les étapes précédentes. Certaines classes ont très peu d’images annotées car ce sont des panneaux peu fréquents.
Cela fait en tout environ 25000 images sélectionnées pour l’entraînement (j’en suis au huitième).
Le modèle arrive désormais à correctement séparer les A15a1 des A15a2 ou les A9a des A9b… ce qui a pris du temps, mais est très bon signe !
Petite antisèche :
Quelques panonceaux ont aussi leur classe, le M9v pour les DSC, les M12 et c’est un autre challenge, voire peut être un entraînement spécifique à faire.