Catégories principales de métriques d’évaluation pour les systèmes de recommandation – 1ère partie

La revue de la littérature, la plus exhaustive et la plus complète, sur les métriques d’évaluation pour les systèmes de recommandation est fournie par Herlocker et al. [1]. Cette étude montre que les métriques d’évaluation se divisent généralement en 3 catégories principales. En premier lieu, il y a les fonctions d’erreurs qui évaluent la prédiction faite par le système en la comparant à l’évaluation réelle. Ensuite, il existe les métriques d’aide à la décision qui jugent de l’efficacité du choix des documents pertinents. Enfin, d’autres métriques ont été proposées pour évaluer des critères qui ne sont pas liés aux prédictions [1-4].

Fonctions d’erreurs. Ces dernières sont les mesures les plus utilisées dans la littérature. Elles évaluent la qualité des prédictions générées par le système de recommandation [1]. Il existe plusieurs types de fonctions d’erreur qui consistent à mesurer la « distance » moyenne entre les prévisions et les observations correspondantes. Ainsi, une valeur proche de 0 indique des prédictions parfaites et une valeur avoisinante de 1 désigne de mauvaises prédictions [1, 2, 5-7]. Pour mieux illustrer les mesures qui vont suivre, on suppose que wi représente la valeur observée et ri représente la valeur prédite pour un ensemble de Bi prévisions. Ainsi, on peut calculer :

  • L’erreur absolue moyenne (MAE : « Mean Absolute Error ») : cette mesure est la fonction d’erreur la plus populaire. Elle évalue la qualité des prédictions fournies par le système de recommandation. À cet effet, le MAE mesure la déviation absolue moyenne entre une estimation prévue et l’estimation vraie de l’utilisateur [8-13].

Métriques d’évaluation - Fonctions d’erreurs - MAE

  • L’erreur moyenne quadratique (MSE : « Mean Squared Error ») : cette fonction d’erreur est appréciée pour sa grande sensibilité à l’erreur en comparaison au MAE. En effet, on peut voir que la distance, entre la prévision et l’observation, est élevée au carré  [6].

Métriques d’évaluation - Fonctions d’erreurs - MSE

  • La racine de l’erreur moyenne quadratique (RMSE : « Root Mean Squared Error ») : dans la littérature, le RMSE est largement utilisé, à la place du MSE, pour évaluer les systèmes de recommandation. Il est utilisé par le fameux concours Netflix Prize (http://www.netflixprize.com/) pour identifier les meilleurs algorithmes de filtrage [14-19].

Métriques d’évaluation - Fonctions d’erreurs - RMSE

  • L’erreur absolue moyenne normalisée (NMAE : « Normalized Mean Absolute Error») : cette mesure est définie comme le MAE divisé par la gamme des valeurs possibles des évaluations observées. Certains chercheurs préfèrent utiliser le NMAE plutôt que le MAE [20, 21]. Son utilisation se justifie quand on doit procéder à des expérimentations utilisant différents corpus d’évaluation. En effet, cette mesure fournit une valeur normalisée du MAE facilitant la comparaison pour des échelles de notation différentes [22].

Métriques d’évaluation - Fonctions d’erreurs - NMAE

  • L’erreur absolue utilisateur moyenne (MAUE : « Mean Absolute User Error ») : cette mesure, introduite par Massa et Avesani [23], calcule d’abord l’erreur absolue moyenne pour chaque utilisateur ; ensuite, elle calcule la moyenne de ces erreurs utilisateurs sur l’ensemble de tous les utilisateurs. Ainsi, chaque utilisateur aura le même poids dans le calcul de l’erreur absolue utilisateur moyenne [23, 24].

Références

[1]        L. J. Herlocker, A. J. Konstan, G. L. Terveen, and T. J. Riedl, « Evaluating collaborative filtering recommender systems, » ACM Trans. Inf. Syst., vol. 22, pp. 5-53, 2004.

[2]        C.-N. Ziegler, « Towards Decentralized Recommender Systems, » Albert-Ludwigs-Universitat Freiburg – Fakultat fur Angewandte Wissenschaften, Institut fur Informatik, 2005.

[3]        A. Zenebe and A. F. Norcio, « Evaluation Framework for Fuzzy Theoretic-Based Recommender System  » in HCI International 2005: The 11th International Conference on Human-Computer Interaction Las Vegas, Nevada, USA, 2005.

[4]        S. M. McNee, J. Riedl, and J. A. Konstan, « Being accurate is not enough: how accuracy metrics have hurt recommender systems, » CHI ’06: CHI ’06 extended abstracts on Human factors in computing systems, pp. 1097-1101, 2006.

[5]        J. L. Herlocker, « Understanding and improving automated collaborative filtering systems, » University of Minnesota, 2000, p. 144.

[6]        C.-N. Ziegler, S. M. McNee, J. A. Konstan, and G. Lausen, « Improving recommendation lists through topic diversification, » in Proceedings of the 14th international conference on World Wide Web Chiba, Japan: ACM, 2005.

[7]        G. Adomavicius and A. Tuzhilin, « Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions, » Transactions on Knowledge and Data Engineering, vol. 17, pp. 734-749, 2005.

[8]        B. Sarwar, G. Karypis, J. Konstan, and T. J. Riedl, « Analysis of recommendation algorithms for e-commerce, » in Proceedings of the 2nd ACM conference on Electronic commerce Minneapolis, Minnesota, United States: ACM, 2000.

[9]        J. Canny, « Collaborative Filtering with Privacy, » in Proceedings of the 2002 IEEE Symposium on Security and Privacy: IEEE Computer Society, 2002.

[10]      B. N. Miller, J. A. Konstan, and J. T. Riedl, « PocketLens: Toward a personal recommender system, » ACM Trans. Inf. Syst., vol. 22, pp. 437-476, 2004.

[11]      Z. Zaier, R. Godin, and L. Faucher, « Recommendation Quality Evolution Based on Neighborhood Size, » in Third International Conference on Automated Production of Cross Media Content for Multi-Channel Distribution. AXMEDIS ’07 Barcelona, Spain, 2007, pp. 33-36.

[12]      Z. Zaier, R. Godin, and L. Faucher, « Recommendation Quality Evolution Based on Neighbors Discrimination, » in MCETECH Conference on e-Technologies Montreal, 2008, pp. 148-153.

[13]      D. Lemire and A. Maclachlan, « Slope One Predictors for Online Rating-Based Collaborative Filtering, » in SIAM Data Mining (SDM’05) Newport Beach, California, USA, 2005, pp. 21-23.

[14]      R. Bell and Y. Koren, « Lessons from the Netflix prize challenge, » SIGKDD Explor. Newsl., vol. 9, pp. 75-79, 2007.

[15]      R. Bell and Y. Koren, « Improved Neighborhood-based Collaborative Filtering, » 2007.

[16]      R. Bell and Y. Koren, « Scalable Collaborative Filtering with Jointly Derived Neighborhood Interpolation Weights, » in Data Mining, 2007. ICDM 2007. Seventh IEEE International Conference on, 2007, pp. 43-52.

[17]      R. Bell, Y. Koren, and C. Volinsky, « Modeling relationships at multiple scales to improve accuracy of large recommender systems, » in Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining San Jose, California, USA: ACM, 2007.

[18]      R. Bell, Y. Koren, and C. Volinsky, « The BellKor solution to the Netflix Prize, » 2007.

[19]      R. Bell, Y. Koren, and C. Volinsky, « Chasing $1,000,000: How We Won The Netflix Progress Prize   » Statistical Computing and Statistical Graphics Newsletter, vol. 18, pp. 4-12, 2007.

[20]      J. Canny, « Collaborative filtering with privacy via factor analysis, » in Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval Tampere, Finland: ACM, 2002.

[21]      D. Lemire, « Scale and Translation Invariant Collaborative Filtering Systems, » Information Retrieval, vol. 8, pp. 129–150, 2005.

[22]      K. Goldberg, T. Roeder, D. Gupta, and C. Perkins, « Eigentaste: A Constant Time Collaborative Filtering Algorithm, » Information Retrieval, vol. 4, pp. 133-151, 2001.

[23]      P. Massa and P. Avesani, « Trust-Aware Collaborative Filtering for Recommender Systems, » On the Move to Meaningful Internet Systems 2004: CoopIS, DOA, and ODBASE: OTM Confederated International Conferences, CoopIS, DOA, and ODBASE, vol. 3290, 2004.

[24]      P. Massa and P. Avesani, « Trust-aware recommender systems, » in Proceedings of the 2007 ACM conference on Recommender systems Minneapolis, MN, USA: ACM, 2007.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.