
Meta AI a récemment publié une recherche pré-imprimée montrant un nouveau cadre radical « Megabyte » pour la construction de systèmes de transformateurs pré-formés génératifs (GPT).
Qualifiée de « prometteuse » par Andrej Karpathy d’OpenAI, ancien directeur de l’intelligence artificielle chez Tesla, la nouvelle architecture est conçue pour traiter de gros volumes de données – telles que des images, des romans et des fichiers vidéo – sans l’utilisation d’un processus connu sous le nom de tokenisation.
Prometteur. Tout le monde devrait espérer que nous pourrons jeter la tokenisation dans les LLM. Cela crée naïvement des séquences (au niveau de l’octet) qui sont trop longues, donc le diable est dans les détails.
La tokenisation signifie que les LLM ne sont pas réellement de bout en bout. Il y a une toute autre étape avec… https://t.co/t240ZPxPm7
— Andrej Karpathy (@karpathy) 15 mai 2023
La tokenisation est un processus avec perte comparable à la compression de fichiers. Pour traiter de grandes quantités de données, les modèles GPT convertissent les octets en jetons. Les jetons sont ensuite traités par le transformateur et utilisés pour générer des jetons de sortie, qui sont ensuite décodés.
Le processus de tokenisation permet à un système d’IA de traiter de plus grandes chaînes de données sous forme de nombres. Les mots « ma couleur préférée est le rouge », s’ils sont traités par ChatGPT d’OpenAI, par exemple, seraient convertis en la chaîne de jetons « 3666, 4004, 3124, 318, 2266, 13 » pour le traitement.
Malheureusement, même grâce à la tokenisation, la quantité de données que les systèmes de pointe actuels peuvent traiter a toujours une limite stricte. Pour GPT-3.5, la limite est légèrement supérieure à 4 000 jetons ou environ 3 000 mots, tandis que GPT-4 atteint son maximum à environ 32 000 jetons ou environ 24 000 mots.
Le nouveau système Megabyte de Meta abandonne la tokenisation au profit d’une nouvelle architecture de prédiction multicouche capable de modéliser de bout en bout plus d’un million d’octets de données.
La plupart des systèmes de codage de langue anglaise standard utilisent un codage 8 bits standard. Dans ce paradigme, chaque caractère occupe un octet de données. Par conséquent, un système d’IA capable de traiter 1 million d’octets de données sans tokenisation pourrait fonctionner avec des documents texte contenant 750 000 mots, soit une augmentation de 3 025 % par rapport à GPT-4.
À titre de comparaison, GPT-4 peut actuellement gérer environ 10 articles de presse de long métrage en une seule invite, tandis que Megabyte serait capable d’analyser l’intégralité des articles de Léon Tolstoï. Guerre et Paix plus deux autres romans de longueur moyenne.
Le modèle Megabyte de Meta a également bien performé sur les tests et les benchmarks ImageNet liés au traitement des fichiers audio, égalant ou dépassant les modèles de transformateurs basés sur des octets existants tels que Perciever AR de DeepMind sur les deux :
« Megabyte correspond aux performances de pointe de PerceiverAR tout en n’utilisant que la moitié du calcul. »
Les implications de cette recherche pourraient être considérables. La tokenisation est considérée comme un obstacle sur le terrain en raison de ses limites strictes en matière de données et de la quantité d’énergie et de temps nécessaires pour former les systèmes.
Sans tokenisation, il devrait être possible de former des modèles d’IA avec un support fondamental plus fort pour les langues autres que l’anglais, en particulier celles qui ne peuvent pas être facilement encodées en caractères 8 bits standard.
Cela pourrait conduire à une plus grande démocratisation de ces technologies et permettre à tout, des robots de trading de crypto-monnaie aux technologies d’organisation autonome décentralisée, d’être construit dans des codes de langue maternelle à travers le monde.
En rapport: Worldcoin de Sam Altman obtient 115 millions de dollars pour une identification décentralisée
Cela augmenterait également la capacité de modèles comme ChatGPT à travailler avec des fichiers image, vidéo et audio en générant des clips multimédias utilisant à peu près le même temps et la même consommation d’énergie que le texte.