RedPajama : un projet open-source pour des modèles de langage

Les modèles de langage basés sur l’IA, tels que GPT-4 d’OpenAI, se répandent rapidement grâce à leur efficacité. Cependant, la plupart de ces modèles, y compris GPT-4, sont des modèles commerciaux fermés ou partiellement open-source. Le projet RedPajama vise à développer un modèle de langage de grande envergure entièrement open-source. La première étape consiste à publier le jeu de données d’entraînement LLaMA, qui contient plus de 1,2 billion de jetons (ou “tokens”).

RedPajama est un projet open-source d'intelligence artificielle dont la première étape consiste à publier le jeu de données d'entraînement LLaMA, qui contient plus de 1,2 billion de jetons (ou "tokens").

RedPajama est un projet de recherche collaboratif entre Together, Ontocord.ai, l’ETH DS3Lab de l’Université technique de Zurich, le Stanford CRFM, Hazy Research et le MILA Québec AI Institute. Il vise à produire un modèle de langage entièrement open-source et reproductible. Le modèle LLaMA, sur lequel RedPajama est basé, est un modèle de langage de grande envergure entraîné sur un ensemble de données de 1,2 billion de jetons. Avec ses 7 milliards de paramètres, il est plus léger que GPT-4 ou Chincilla, tout en offrant des performances équivalentes.

Le modèle LLaMA, sur lequel RedPajama est basé, est un modèle de langage de grande envergure entraîné sur un ensemble de données de 1,2 billion de jetons. — Crédits image : Together.xyz

Bien que LLaMA soit partiellement open-source et disponible uniquement à des fins de recherche à but non lucratif, RedPajama vise à développer un modèle entièrement open-source pour les applications commerciales. Le projet prévoit trois étapes : le développement de données d’apprentissage de haute qualité et couvrant une large gamme de sujets, le développement d’un modèle de base entraîné sur ces données et l’amélioration de ce modèle pour le rendre plus convivial et plus sûr. La première étape a été franchie avec la publication du jeu de données d’entraînement RedPajama-Data-1T, qui est disponible sur le site Hugging Face.

RedPajama-Data-1T est composé de sept tranches de données : CommonCrawl, C4, GitHub, arXiv, Books, Wikipedia et StackExchange. Chaque tranche a été soigneusement prétraitée et filtrée. Le jeu de données reproduit celui utilisé pour entraîner LLaMA, et le nombre de jetons dans chaque tranche est assez proche de celui de LLaMA.

Le prochain objectif de RedPajama est de former un modèle de langage de grande envergure à l’aide de RedPajama-Data-1T. Au moment de la rédaction de cet article, le projet est en train de s’entraîner avec le soutien de l’Oak Ridge Leadership Computing Facility (OLCF). Le premier modèle devrait être disponible en mai 2023.