Corpus pour l’évaluation des systèmes de recommandation

Les chercheurs qui travaillent dans le domaine du filtrage collaboratif de l’information utilisent différents corpus de plusieurs domaines d’application pour évaluer la performance des algorithmes de recommandation [1]. On trouvera une revue de la littérature sur les corpus d’évaluation pour les systèmes de recommandation dans Zaier et al. [2].

Corpus MovieLens. Ces derniers sont les plus populaires dans l’évaluation des systèmes de recommandation. En effet, les corpus MovieLens ont déjà fait l’objet de plusieurs travaux de recherche [3-5]. Publiquement disponibles, ils contiennent des évaluations explicites au sujet de films, des informations démographiques sur les utilisateurs (âge, genre, métier, code postal) et une courte description des films (titre, année de production, genres). Ainsi, ces corpus, à très forte densité, sont constitués d’évaluations de films, sur une échelle de 1 à 5, faites par 943 utilisateurs anonymes sur 1682 films. De plus, cette collection est subdivisée en plusieurs corpus d’évaluation.

Corpus Jester. Ces corpus, proposés par Ken Goldberg du site Web de recommandation de blagues Jester, contiennent des évaluations, de 100 blagues, faites par 73.496 utilisateurs anonymes. Les notes sont des valeurs réelles qui varient entre -10.00 et +10.00 [6]. Ces corpus, comme pour les corpus MovieLens, ont une très forte densité. En effet, un grand nombre d’utilisateurs ont évalué, à peu près, toutes les blagues.

Cette collection est divisée en trois corpus différents :

  • Jester-data-1 : Contient les évaluations de 24.983 utilisateurs qui ont évalué 36 blagues ou plus.
  • Jester-data-2 : Contient les notes de 23.500 utilisateurs qui ont évalué 36 blagues ou plus.
  • Jester-data-3 : Contient les données de 24.938 utilisateurs qui ont évalué entre 15 et 35 blagues.

Corpus Netflix. Le corpus Netflix est actuellement l’objet d’un nombre considérable d’études. En 2006, le spécialiste de la location de films en ligne lance le Netflix Prize, avec un million de dollars pour qui augmentera de dix pour cent la qualité de leur système de recommandation Cinematch™. Ce dernier prédit si un spectateur va aimer ou non un film en fonction des films qu’il a appréciés (ou pas) par le passé. À cet effet, Netflix a proposé un gros corpus comprenant plus de 100 millions d’évaluations de 17.770 films, sur une échelle de 1 à 5, fournies par 480.189 utilisateurs anonymes. De plus, ce corpus comporte une courte description des films (titre et année de production) [7-12].

Corpus BookCrossing. Le corpus BookCrossing a été recueilli en 2004 par Cao-Nicolas Ziegler, à partir de la communauté Book-Crossing. Il est composé de 278.858 utilisateurs anonymes qui ont fourni 1.149.780 évaluations sur 271.379 livres, notées sur une échelle de 1 à 10. Ce corpus, comme pour le corpus de MovieLens, contient des informations démographiques sur les utilisateurs (âge et ville) et une courte description des livres (titre du livre, auteur du livre, année de publication, éditeur) [13, 14].

Une attention particulière doit être portée quant au choix des corpus. Une des préoccupations est de choisir des corpus facilement accessibles et disponibles, ayant déjà été utilisés dans le passé et étant susceptibles de l’être encore dans le futur. Un autre aspect assez important est la taille de ces corpus. Pour que les résultats soient significatifs,  les bases de travail devaient contenir un nombre suffisant d’utilisateurs, d’article à évaluer, et d’évaluations. Une récente étude, sur la distribution des corpus d’évaluation des systèmes de recommandation, montre que cette dernière pouvait influencer la performance des algorithmes [2]. Il est donc préférable de choisir un corpus qui suit une distribution réelle et ainsi, obtenir des performances qui reflètent la réalité [15-17].

Références

[1]        L. J. Herlocker, A. J. Konstan, G. L. Terveen, and T. J. Riedl, « Evaluating collaborative filtering recommender systems, » ACM Trans. Inf. Syst., vol. 22, pp. 5-53, 2004.

[2]        Z. Zaier, R. Godin, and L. Faucher, « Evaluating Recommender Systems, » in Fourth International Conference on Automated Production of Cross Media Content for Multi-Channel Distribution. AXMEDIS ’08 Florence, Italy, 2008, pp. 211-217.

[3]        Z. Zaier, R. Godin, and L. Faucher, « Recommendation Quality Evolution Based on Neighborhood Size, » in Third International Conference on Automated Production of Cross Media Content for Multi-Channel Distribution. AXMEDIS ’07 Barcelona, Spain, 2007, pp. 33-36.

[4]        Z. Zaier, R. Godin, and L. Faucher, « Recommendation Quality Evolution Based on Neighbors Discrimination, » in MCETECH Conference on e-Technologies Montreal, 2008, pp. 148-153.

[5]        B. N. Miller, J. A. Konstan, and J. T. Riedl, « PocketLens: Toward a personal recommender system, » ACM Trans. Inf. Syst., vol. 22, pp. 437-476, 2004.

[6]        J. Canny, « Collaborative filtering with privacy via factor analysis, » in Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval Tampere, Finland: ACM, 2002.

[7]        R. Bell and Y. Koren, « Lessons from the Netflix prize challenge, » SIGKDD Explor. Newsl., vol. 9, pp. 75-79, 2007.

[8]        R. Bell and Y. Koren, « Improved Neighborhood-based Collaborative Filtering, » 2007.

[9]        R. Bell and Y. Koren, « Scalable Collaborative Filtering with Jointly Derived Neighborhood Interpolation Weights, » in Data Mining, 2007. ICDM 2007. Seventh IEEE International Conference on, 2007, pp. 43-52.

[10]      R. Bell, Y. Koren, and C. Volinsky, « Modeling relationships at multiple scales to improve accuracy of large recommender systems, » in Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining San Jose, California, USA: ACM, 2007.

[11]      R. Bell, Y. Koren, and C. Volinsky, « The BellKor solution to the Netflix Prize, » 2007.

[12]      R. Bell, Y. Koren, and C. Volinsky, « Chasing $1,000,000: How We Won The Netflix Progress Prize   » Statistical Computing and Statistical Graphics Newsletter, vol. 18, pp. 4-12, 2007.

[13]      C.-N. Ziegler, S. M. McNee, J. A. Konstan, and G. Lausen, « Improving recommendation lists through topic diversification, » in Proceedings of the 14th international conference on World Wide Web Chiba, Japan: ACM, 2005.

[14]      C.-N. Ziegler, « Towards Decentralized Recommender Systems, » Albert-Ludwigs-Universitat Freiburg – Fakultat fur Angewandte Wissenschaften, Institut fur Informatik, 2005.

[15]      C. Anderson, The Long Tail: Why the Future of Business Is Selling Less of More: Hyperion, 2006.

[16]      C. Anderson, « The Long Tail, » Wired Magazine, vol. 12, 2004.

[17]      A. Elberse, « Should You Invest in the Long Tail?, » in Harvard Business Review, 2008.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *