Miel pur ou frelaté ? Détection par spectroscopie infrarouge et intelligence artificielle — le cas du miel de caroubier marocain

Lahcen Hssaini (1) & Said En-nahli (2)

(1) INRA CRRA Meknès – (2) ENA Meknès.

Dr Lahcen Hssaïni, chercheur
Agroalimentaire – Biochimie
INRA CRRA Meknès

Le miel figure parmi les produits alimentaires les plus falsifiés mondialement, généralement dilué avec des sirops bon marché (glucose, riz) compromettant sa qualité nutritionnelle. Le miel de caroubier marocain (Ceratonia siliqua L.), variété monoflorale d’importance culturelle et économique majeure, est particulièrement vulnérable à cette fraude. Les méthodes analytiques conventionnelles présentent des limitations majeures : coûts élevés, analyses chronophages, et équipements sophistiqués. Face à l’ampleur croissante de la fraude, la spectroscopie infrarouge à transformée de Fourier en mode réflexion totale atténuée (ATR-FTIR), couplée à l’apprentissage automatique, constitue une approche rapide, précise et accessible.

L’ATR-FTIR génère une « empreinte moléculaire » unique reflétant la composition chimique de chaque échantillon. Notre hypothèse repose sur le principe que l’ajout d’adultérants modifie suffisamment cette signature spectrale pour être détectable par intelligence artificielle. Nous postulons que les spectres du miel pur se distinguent significativement de ceux des miels adultérés, que chaque type d’adulterant génère des signatures différenciables, et que la concentration présente une relation quantifiable avec les variations spectrales.

Le présent travail vise deux objectifs : identifier le type d’adultération (miel pur, glucose ou riz) et quantifier le pourcentage d’adulterant (5-40% m/m), tout en évaluant l’impact des techniques de prétraitement spectral sur la performance prédictive. Notre méthodologie comprend quatre étapes principales. Premièrement, les échantillons ont été préparés par mélange gravimétrique contrôlé de miel pur de caroube (avec des sirops de glucose et de riz à six niveaux de concentration (5, 10, 15, 20, 30 et 40% m/m). Deuxièmement, les spectres (325 spectres) ont été acquis par spectromètre ATR-FTIR dans la région 1800-900 cm⁻¹, avec 64 balayages et une résolution de 4 cm⁻¹. Troisièmement, cinq protocoles de prétraitement spectral ont été appliqués systématiquement : données brutes, dérivées première et seconde Savitzky-Golay, lissage et correction de ligne de base. Enfin, six algorithmes d’apprentissage automatique ont été testés (Régression Logistique [LogR], Forêt Aléatoire [RFC], Machine à Vecteurs de Support [SVC] pour la classification ; Régression Linéaire [LR], Forêt Aléatoire [RFR], Machine à Vecteurs de Support [SVR] pour la quantification). La validation a été réalisée par validation croisée stratifiée en 10 itérations avec partitionnement rigoureux (60% entraînement, 20% validation, 20% test aveugle indépendant), garantissant l’évaluation objective des performances sur données non vues. Ce pipeline a été spécifiquement conçu pour éliminer les risques de fuite de données (data leakage) et de surajustement (overfitting) — biais fréquents dans les études d’apprentissage automatique appliqué à la détection de fraudes alimentaires (Hssaini & En-nahli, 2025)[1].

Figure 1. Pipeline méthodologique de l’étude. Le workflow intègre quatre étapes successives : (1) préparation d’échantillons de miel de caroube pur et adultérés (glucose, riz) à différentes concentrations ; (2) acquisition des spectres infrarouges par ATR-FTIR dans la région 1800-900 cm⁻¹ ; (3) application de cinq protocoles de prétraitement spectral pour optimiser le signal ; (4) modélisation par six algorithmes d’apprentissage automatique avec validation croisée 10-itérations, permettant l’identification (classification) et la quantification (régression) de l’adultération.

Résultats et Discussion

Performances de modélisation

Les algorithmes d’apprentissage automatique démontrent des capacités exceptionnelles pour détecter et quantifier l’adultération du miel de caroube. Pour la classification (identification du type d’adulterant), la Forêt Aléatoire (RFC) atteint une précision de test aveugle de 100% avec les prétraitements par dérivée première ou correction de ligne de base, et des valeurs d’AUC-ROC (Aire Sous la Courbe ROC) de 1.00 indiquant une discrimination parfaite entre miel pur, miel adultéré au glucose et au sirop de riz (Tableau 1). La Régression Logistique et les Machines à Vecteurs de Support (SVC) offrent également d’excellentes performances (≥99.7%). Les rares erreurs (≈1-3%) concernent exclusivement les faibles concentrations (5-10%) où les différences spectrales sont plus subtiles. L’analyse détaillée révèle que 87% des 52 erreurs de classification totales se concentrent aux niveaux d’adultération de 5% et 10%, confirmant que le défi principal réside dans la détection des faibles concentrations d’adulterants (figure 2). Ces résultats, bien que remarquables, ont été obtenus en conditions contrôlées de laboratoire ; leur interprétation doit rester mesurée avant toute extrapolation à des contextes réels plus complexes. Pour la quantification (détermination de la concentration d’adulterant), la Forêt Aléatoire pour Régression (RFR: Random Forest Regression) surpasse significativement tous les autres modèles. Avec la dérivée première de Savitzky-Golay, RFR atteint un RPD de 8.34 ± 2.50 (R² = 0.981, RMSE = 1.60 ± 0.40%). La correction de ligne de base offre des performances équivalentes (RPD = 8.01± 4.87). La Régression Linéaire présente des performances modérées (RPD = 4.2-6.0), tandis que les Machines à Vecteurs de Support pour Régression (SVR) avec paramètres par défaut s’avèrent inadéquates (RPD < 2.5) (Figure 3).

Tableau 1. Performances comparatives des modèles de classification et régression sur les ensembles de test aveugle. Les valeurs représentent les moyennes ± écarts-types calculés sur 10 itérations de validation croisée stratifiée.

Protocoles optimaux et implications

Deux workflows opérationnels émergent :

(1) Identification : RFC + Dérivée 1ère → Précision 100% ;

(2) Quantification : RFR + Dérivée 1ère → RPD > 8. Cette approche ATR-FTIR couplée à l’IA offre une analyse complète en < 5 minutes (vs plusieurs heures pour méthodes conventionnelles), sans destruction d’échantillon, avec un coût minimal et une simplicité adaptée aux laboratoires de routine. Plusieurs limites méritent cependant d’être soulignées. La gamme testée (5-40%) devra être élargie vers les seuils ultra-bas (< 1%) et les mélanges multiples d’adulterants. Les modèles de type Forêt Aléatoire opèrent comme des “boîtes noires”, limitant leur interprétabilité mécanistique. Par ailleurs, la variabilité saisonnière de la composition du miel peut altérer les performances prédictives : une recalibration périodique reste recommandée pour garantir la transférabilité annuelle des modèles.

Figure 2. Performances comparatives des modèles de régression pour la quantification de l’adultération. Comparaison des perfromances des algoritmes d’apprentissage automatique (RFR, LR, SVR) avec différents prétraitements spectraux.

Figure 3. Courbes ROC (Receiver Operating Characteristic) et aires sous la courbe (AUC) pour les modèles de classification. Comparaison des performances des algorithmes d’apprentissage automatique (RFC, LogR, SVC) avec différents prétraitements spectraux.

Figure 4. Diagrammes radar comparant simultanément les performances de classification (panneau gauche, F1-Score) et de régression (panneau droit, RPD) pour tous les modèles d’apprentissage automatique testés à travers les cinq prétraitements spectraux.

Conclusion

Cette étude démontre que la combinaison ATR-FTIR/intelligence artificielle constitue une approche analytique robuste pour la détection de fraude du miel, atteignant une grande précision de classification et une quantification exceptionnelle (RPD > 8). Le workflow optimal identifié — Random Forest couplé à la dérivée première de Savitzky-Golay — fournit un protocole efficient pour le contrôle qualité industriel. Au-delà du miel, cette méthodologie est applicable à d’autres matrices alimentaires à haute valeur ajoutée. Toutefois, ces résultats restent à nuancer : le caractère “boîte noire” des modèles limite leur explicabilité, et la variabilité saisonnière de la composition du miel impose une revalidation périodique pour assurer la transférabilité annuelle. La validation élargie dans le temps (multi-saisons) et l’espace (origines géographiques diversifiées) reste nécessaire pour garantir la généralisation aux conditions réelles de production et commercialisation.

[1] Hssaini, L., & En-nahli, S. (2025). Preprocessing-Dependent Machine Learning Models Enhance Mid-FTIR Detection of Honey Adulteration. Journal of Food Composition and Analysis, 108666.

Miel pur ou frelaté ? Détection par spectroscopie infrarouge et intelligence artificielle — le cas du miel de caroubier marocain

Lahcen Hssaini (1) & Said En-nahli (2)

Résultats et Discussion

Performances de modélisation

Protocoles optimaux et implications

Conclusion

A Propos de « INRA Meknès Magazine »

Comité de rédaction

Articles récents

Archives

Liens Utiles

Contacts