Corpus pour l’évaluation des systèmes de recommandation

Les chercheurs qui travaillent dans le domaine du filtrage collaboratif de l’information utilisent différents corpus de plusieurs domaines d’application pour évaluer la performance des algorithmes de recommandation [1]. On trouvera une revue de la littérature sur les corpus d’évaluation pour les systèmes de recommandation dans Zaier et al. [2].

Corpus MovieLens. Ces derniers sont les plus populaires dans l’évaluation des systèmes de recommandation. En effet, les corpus MovieLens ont déjà fait l’objet de plusieurs travaux de recherche [3-5]. Publiquement disponibles, ils contiennent des évaluations explicites au sujet de films, des informations démographiques sur les utilisateurs (âge, genre, métier, code postal) et une courte description des films (titre, année de production, genres). Ainsi, ces corpus, à très forte densité, sont constitués d’évaluations de films, sur une échelle de 1 à 5, faites par 943 utilisateurs anonymes sur 1682 films. De plus, cette collection est subdivisée en plusieurs corpus d’évaluation.

Corpus Jester. Ces corpus, proposés par Ken Goldberg du site Web de recommandation de blagues Jester, contiennent des évaluations, de 100 blagues, faites par 73.496 utilisateurs anonymes. Les notes sont des valeurs réelles qui varient entre -10.00 et +10.00 [6]. Ces corpus, comme pour les corpus MovieLens, ont une très forte densité. En effet, un grand nombre d’utilisateurs ont évalué, à peu près, toutes les blagues.

Cette collection est divisée en trois corpus différents :

  • Jester-data-1 : Contient les évaluations de 24.983 utilisateurs qui ont évalué 36 blagues ou plus.
  • Jester-data-2 : Contient les notes de 23.500 utilisateurs qui ont évalué 36 blagues ou plus.
  • Jester-data-3 : Contient les données de 24.938 utilisateurs qui ont évalué entre 15 et 35 blagues.

Corpus Netflix. Le corpus Netflix est actuellement l’objet d’un nombre considérable d’études. En 2006, le spécialiste de la location de films en ligne lance le Netflix Prize, avec un million de dollars pour qui augmentera de dix pour cent la qualité de leur système de recommandation Cinematch™. Ce dernier prédit si un spectateur va aimer ou non un film en fonction des films qu’il a appréciés (ou pas) par le passé. À cet effet, Netflix a proposé un gros corpus comprenant plus de 100 millions d’évaluations de 17.770 films, sur une échelle de 1 à 5, fournies par 480.189 utilisateurs anonymes. De plus, ce corpus comporte une courte description des films (titre et année de production) [7-12].

Corpus BookCrossing. Le corpus BookCrossing a été recueilli en 2004 par Cao-Nicolas Ziegler, à partir de la communauté Book-Crossing. Il est composé de 278.858 utilisateurs anonymes qui ont fourni 1.149.780 évaluations sur 271.379 livres, notées sur une échelle de 1 à 10. Ce corpus, comme pour le corpus de MovieLens, contient des informations démographiques sur les utilisateurs (âge et ville) et une courte description des livres (titre du livre, auteur du livre, année de publication, éditeur) [13, 14].

Une attention particulière doit être portée quant au choix des corpus. Une des préoccupations est de choisir des corpus facilement accessibles et disponibles, ayant déjà été utilisés dans le passé et étant susceptibles de l’être encore dans le futur. Un autre aspect assez important est la taille de ces corpus. Pour que les résultats soient significatifs,  les bases de travail devaient contenir un nombre suffisant d’utilisateurs, d’article à évaluer, et d’évaluations. Une récente étude, sur la distribution des corpus d’évaluation des systèmes de recommandation, montre que cette dernière pouvait influencer la performance des algorithmes [2]. Il est donc préférable de choisir un corpus qui suit une distribution réelle et ainsi, obtenir des performances qui reflètent la réalité [15-17].

Références

[1]        L. J. Herlocker, A. J. Konstan, G. L. Terveen, and T. J. Riedl, « Evaluating collaborative filtering recommender systems, » ACM Trans. Inf. Syst., vol. 22, pp. 5-53, 2004.

[2]        Z. Zaier, R. Godin, and L. Faucher, « Evaluating Recommender Systems, » in Fourth International Conference on Automated Production of Cross Media Content for Multi-Channel Distribution. AXMEDIS ’08 Florence, Italy, 2008, pp. 211-217.

[3]        Z. Zaier, R. Godin, and L. Faucher, « Recommendation Quality Evolution Based on Neighborhood Size, » in Third International Conference on Automated Production of Cross Media Content for Multi-Channel Distribution. AXMEDIS ’07 Barcelona, Spain, 2007, pp. 33-36.

[4]        Z. Zaier, R. Godin, and L. Faucher, « Recommendation Quality Evolution Based on Neighbors Discrimination, » in MCETECH Conference on e-Technologies Montreal, 2008, pp. 148-153.

[5]        B. N. Miller, J. A. Konstan, and J. T. Riedl, « PocketLens: Toward a personal recommender system, » ACM Trans. Inf. Syst., vol. 22, pp. 437-476, 2004.

[6]        J. Canny, « Collaborative filtering with privacy via factor analysis, » in Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval Tampere, Finland: ACM, 2002.

[7]        R. Bell and Y. Koren, « Lessons from the Netflix prize challenge, » SIGKDD Explor. Newsl., vol. 9, pp. 75-79, 2007.

[8]        R. Bell and Y. Koren, « Improved Neighborhood-based Collaborative Filtering, » 2007.

[9]        R. Bell and Y. Koren, « Scalable Collaborative Filtering with Jointly Derived Neighborhood Interpolation Weights, » in Data Mining, 2007. ICDM 2007. Seventh IEEE International Conference on, 2007, pp. 43-52.

[10]      R. Bell, Y. Koren, and C. Volinsky, « Modeling relationships at multiple scales to improve accuracy of large recommender systems, » in Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining San Jose, California, USA: ACM, 2007.

[11]      R. Bell, Y. Koren, and C. Volinsky, « The BellKor solution to the Netflix Prize, » 2007.

[12]      R. Bell, Y. Koren, and C. Volinsky, « Chasing $1,000,000: How We Won The Netflix Progress Prize   » Statistical Computing and Statistical Graphics Newsletter, vol. 18, pp. 4-12, 2007.

[13]      C.-N. Ziegler, S. M. McNee, J. A. Konstan, and G. Lausen, « Improving recommendation lists through topic diversification, » in Proceedings of the 14th international conference on World Wide Web Chiba, Japan: ACM, 2005.

[14]      C.-N. Ziegler, « Towards Decentralized Recommender Systems, » Albert-Ludwigs-Universitat Freiburg – Fakultat fur Angewandte Wissenschaften, Institut fur Informatik, 2005.

[15]      C. Anderson, The Long Tail: Why the Future of Business Is Selling Less of More: Hyperion, 2006.

[16]      C. Anderson, « The Long Tail, » Wired Magazine, vol. 12, 2004.

[17]      A. Elberse, « Should You Invest in the Long Tail?, » in Harvard Business Review, 2008.

Catégories principales de métriques d’évaluation pour les systèmes de recommandation – 3ème partie

Autres métriques. Bien que les fonctions d’erreurs et les métriques d’aide à la décision soient importantes dans l’évaluation de la performance des systèmes de recommandation, il existe des aspects qui ne sont pas pris en compte par ces dernières [1]. Ainsi, de nouvelles mesures d’évaluation ont été proposées [2-5]:

  • Couverture : la couverture mesure le pourcentage des articles pour lesquels le système a pu calculer des recommandations. Selon Miller et al. [6], il existe deux façons de calculer la métrique de couverture. La première calcule le pourcentage global des articles pour lesquels le système de recommandation a pu calculer des prédictions. La deuxième évalue le pourcentage des articles choisis par l’utilisateur pour lesquels le système de recommandation a pu calculer des prédictions [5, 7-12].
  • Taux d’apprentissage : les algorithmes d’apprentissage sont une composante importante des systèmes de recommandation. Leur performance varie en fonction de la quantité de données d’apprentissage disponibles. Si la quantité de données d’apprentissage augmente, la qualité des recommandations devrait augmenter. Donc, cette mesure évalue la qualité des recommandations par rapport à la quantité de données d’apprentissage disponibles [2].
  • Nouveauté et hasard (« Novelty and Serendipity ») : pour illustrer cette mesure, Ziegler [3] prend pour exemple l’achat de bananes dans une épicerie. Dû à la popularité élevée de ces dernières, la plupart des personnes les achètent intuitivement. Donc, ces personnes n’ont pas besoin d’une recommandation supplémentaire puisqu’elles savent déjà qu’elles vont acheter des bananes. Cette métrique mesure ainsi les recommandations non évidentes, tout en pénalisant celles évidentes [2, 13].
  • Satisfaction des utilisateurs : les travaux de Cosley et al. [14] montrent que la satisfaction de l’utilisateur diminue quand un nombre significatif d’erreurs est produit par le système de recommandation. Ainsi, il peut être possible d’établir, très facilement, le niveau de satisfaction des utilisateurs [6, 14].
  • Similarité moyenne : cette mesure, introduite par Miller [4], s’intéresse à la qualité du voisinage. Plus précisément, la similarité moyenne est une mesure qui évalue la similarité moyenne du groupe d’utilisateurs choisis pour le calcul de la recommandation finale [6].
  • Ressources utilisées : cette dernière s’intéresse à la complexité de l’algorithme de recommandation. En effet, cette mesure calcule les ressources consommées par l’algorithme. Plus précisément, les ressources considérées peuvent être le temps de réponse, la consommation de ressources systèmes, etc. [4, 6].

Références

[1]        S. M. McNee, J. Riedl, and J. A. Konstan, « Being accurate is not enough: how accuracy metrics have hurt recommender systems, » CHI ’06: CHI ’06 extended abstracts on Human factors in computing systems, pp. 1097-1101, 2006.

[2]        L. J. Herlocker, A. J. Konstan, G. L. Terveen, and T. J. Riedl, « Evaluating collaborative filtering recommender systems, » ACM Trans. Inf. Syst., vol. 22, pp. 5-53, 2004.

[3]        C.-N. Ziegler, « Towards Decentralized Recommender Systems, » Albert-Ludwigs-Universitat Freiburg – Fakultat fur Angewandte Wissenschaften, Institut fur Informatik, 2005.

[4]        N. B. Miller, « Toward a personal recommender system, » University of Minnesota, 2003, p. 185.

[5]        G. Adomavicius and A. Tuzhilin, « Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions, » Transactions on Knowledge and Data Engineering, vol. 17, pp. 734-749, 2005.

[6]        B. N. Miller, J. A. Konstan, and J. T. Riedl, « PocketLens: Toward a personal recommender system, » ACM Trans. Inf. Syst., vol. 22, pp. 437-476, 2004.

[7]        P. Massa and P. Avesani, « Trust-Aware Collaborative Filtering for Recommender Systems, » On the Move to Meaningful Internet Systems 2004: CoopIS, DOA, and ODBASE: OTM Confederated International Conferences, CoopIS, DOA, and ODBASE, vol. 3290, 2004.

[8]        J. L. Herlocker, « Understanding and improving automated collaborative filtering systems, » University of Minnesota, 2000, p. 144.

[9]        Z. Zaier, R. Godin, and L. Faucher, « Recommendation Quality Evolution Based on Neighborhood Size, » in Third International Conference on Automated Production of Cross Media Content for Multi-Channel Distribution. AXMEDIS ’07 Barcelona, Spain, 2007, pp. 33-36.

[10]      Z. Zaier, R. Godin, and L. Faucher, « Recommendation Quality Evolution Based on Neighbors Discrimination, » in MCETECH Conference on e-Technologies Montreal, 2008, pp. 148-153.

[11]      N. Good, B. J. Schafer, J. A. Konstan, A. Borchers, B. Sarwar, J. Herlocker, and J. Riedl, « Combining collaborative filtering with personal agents for better recommendations, » AAAI ’99/IAAI ’99: Proceedings of the sixteenth national conference on Artificial intelligence and the eleventh Innovative applications of artificial intelligence conference innovative applications of artificial intelligence, pp. 439-446, 1999.

[12]      S. E. Middleton, N. R. Shadbolt, and D. C. De Roure, « Ontological user profiling in recommender systems, » ACM Trans. Inf. Syst., vol. 22, pp. 54-88, 2004.

[13]      G. L. Terveen and W. Hill, « Beyond Recommender Systems: Helping People Help Each Other, » in Human-Computer Interaction in the New Millenium, J. M. Carroll, Ed. Reading, MA, USA., 2001.

[14]      D. Cosley, S. K. Lam, I. Albert, J. A. Konstan, and J. Riedl, « Is Seeing Believing? How Recommender Interfaces Affect Users’ Opinions, » in CHI Lett. vol. 5, A. Press, Ed., 2003, pp. 585-592.