Kyutai: "l’OpenAI à la française" dévoile Moshi, son premier modèle d’IA vocal ultra-rapide
Des avancées impressionnantes. Huit mois après sa création, Kyutai, "l’OpenAI français", a dévoilé ses premiers travaux lors d’une conférence de presse ce mercredi 3 juillet.
Lancé en novembre dernier, ce laboratoire de recherche a été fondé par Xavier Niel, le patron de Free, Rodolphe Saadé, le PDG de CMA-CGM (propriétaire de BFMTV et BFM Business) et Eric Schmidt, ancien PDG de Google.
Une IA vocale impressionnante
La conférence de presse de Kyutai a été marquée par la présentation de son premier modèle d’intelligence artificielle (IA). Baptisée Moshi, il s’agit d’une IA vocale, similaire à ChatGPT-4o, le modèle d’IA d’OpenAI dévoilé en mai dernier.
Cette IA est capable de répondre aux questions des interlocuteurs, de leur prodiguer des conseils et de leur transmettre des informations, comme l’ont montré des démonstrations réalisées avec des membres de Kyutai. Moshi a par exemple conseillé l’un d’eux prétendant vouloir grimper le mont Everest de porter de bonnes chaussures ou encore de s’entraîner avant de grimper.
Moshi est surtout très rapide pour répondre aux requêtes des individus, offrant des interactions naturelles. Comme l’ont montré plusieurs des démonstrations, l’IA de Kyutai peut même parfois être trop rapide, coupant la parole aux interlocuteurs.
"Moshi peut écouter et générer de l’audio. Elle parle en même temps qu’elle pense", a déclaré Alexandre Défossez, scientifique et membre fondateur de Kyutai.
Autrement dit, le but n’était pas seulement d’avoir une IA capable d’écouter, puis de répondre aux questions de son interlocuteur, mais une IA capable de l’interrompre pour gagner en fluidité dans la conversation. Le chatbot d'OpenAI montrait justement des limites en matière de réactivité.
Une IA gérée en local
Kyutai est parvenu à concevoir Moshi en l’espace de six mois. Son modèle a été entraîné à partir d’enregistrements d’appels passés entre 1994 et 2002 aux Etats-Unis. Pour lui donner cette voix, le laboratoire a travaillé avec une artiste appelée Alice, qui a été enregistrée tout en jouant différents scénarios. Pour le moment, elle parle seulement en anglais.
Grâce à cet entraînement, Moshi peut reconnaître les émotions, mais aussi les imiter. Elle peut faire des blagues, chuchoter ou encore imiter des accents, de manière plus ou moins convaincante.
Tournant sur le cloud, Moshi peut aussi être installée localement sur un appareil non connecté à Internet, comme un ordinateur ou un smartphone. Disponible sous forme de démo, l’IA de Kyutai sera accessible sur le site du laboratoire en fin de journée, ce mercedi.