L'année écoulée a été marquée par une multiplication des batailles juridiques autour du droit d'auteur dans le domaine de l'intelligence artificielle. Le dernier plaignant en date est Gracenote, la société de métadonnées appartenant à Nielsen, qui a décidé d'attaquer OpenAI en justice.

Selon Axios, Gracenote reproche à OpenAI l'utilisation non autorisée et non rémunérée de ses métadonnées, ainsi que de son infrastructure de connexion de ces informations. Gracenote est spécialisée dans les métadonnées de divertissement, créant des descriptions et des identifiants pour le contenu que des clients tels que les fournisseurs de services de télévision utilisent pour aider leurs propres clients à la découverte de contenu. En d'autres termes, Gracenote fournit les informations qui permettent d'identifier facilement un film, une série, ou une chanson.

La plupart des poursuites engagées contre les entreprises d'IA se concentrent sur le contenu utilisé pour entraîner les grands modèles de langage (LLM). Cependant, l'affaire Gracenote apporte une dimension supplémentaire, avec l'allégation de violation de la structure ou de la séquence d'un ensemble de données, en plus des données elles-mêmes. Il ne s'agit donc pas seulement de l'utilisation des données brutes, mais également de la manière dont elles sont organisées et présentées.

Dans sa plainte, Gracenote souligne qu'OpenAI aurait pu choisir de licencier ses données, ce qui aurait permis une utilisation légale et rémunérée. L'alternative aurait été de s'en tenir à des informations du domaine public pour l'entraînement de ses modèles. Or, selon Gracenote, OpenAI n'a fait ni l'un ni l'autre, préférant copier et utiliser illégalement les données de l'entreprise.

Cette affaire est particulièrement intéressante car elle met en lumière la question de la protection des structures de données, au-delà du contenu lui-même. Si Gracenote parvient à prouver qu'OpenAI a violé ses droits d'auteur non seulement sur les données, mais aussi sur la manière dont elles sont organisées, cela pourrait avoir des implications importantes pour l'avenir de l'entraînement des modèles d'IA. Cela pourrait contraindre les entreprises d'IA à être beaucoup plus vigilantes quant à l'origine et à la manière dont elles utilisent les données pour entraîner leurs modèles, et potentiellement à privilégier les accords de licence avec les fournisseurs de données. L'issue de ce procès sera donc suivie de près par l'ensemble du secteur. Cette action en justice pourrait créer un précédent important dans le paysage juridique de l'IA, redéfinissant les limites de l'utilisation des données et des métadonnées pour l'entraînement des modèles d'IA.