Amélioré, ChatGPT se dote de la vision et de la parole

Publié14. mai 2024, 15:31

IAAmélioré, ChatGPT se dote de la vision et de la parole

OpenAI a dévoilé GPT-4o, dernier modèle d’IA générative, qui donne de nouvelles capacités au fameux robot ChatGPT.

Un pas de plus vers des assistants d’IA ultraperfectionnés! OpenAI a présenté lundi une nouvelle version de ChatGPT qui peut désormais tenir des conversations orales et fluides avec ses utilisateurs. Grâce à un nouveau modèle, GPT-4o («o»» pour «omni»), ChatGPT va pouvoir comprendre aussi bien du texte, que du son et des images, et répondre à l’écrit, par la voix ou en générant des images.

Ces nouvelles capacités vont être progressivement ajoutées à ChatGPT, d’abord le texte et l’image pour les abonnés payants, ainsi que les utilisateurs gratuits, avec des limites en matière d’usage. La nouvelle version du «Voice Mode» (mode vocal) doit arriver dans les prochaines semaines pour les abonnés. Elle permet de reproduire de façon bluffante des discussions entre humains.

Dans une démonstration vidéo diffusée en direct, ChatGPT a ainsi lu les émotions des utilisateurs sur leurs visages via la caméra d’un smartphone, les a guidés dans des exercices de respiration, leur a raconté une histoire et les a aidés à résoudre un problème mathématique. Surtout, les utilisateurs peuvent facilement l’interrompre. «Tu as l’air joyeux. (...) Tu veux me dire quelle est la source de toute cette bonne humeur?», a ainsi demandé la machine à un ingénieur d’OpenAI, qui lui a répondu être en train de montrer au public à quel point elle est «utile et fabuleuse». «Oh arrête, tu me fais rougir», s’est-elle exclamée en retour.

Par ailleurs, OpenAI en a aussi profité pour lancer une app ChatGPT pour Mac, sa version pour Windows étant prévue pour plus tard.

«Prophétique»

Fin 2022, avec le lancement de ChatGPT, qui génère des contenus sur simple requête en langage courant, OpenAI a mis sur les rails l’IA générative, une révolution qui a pris de court tous les géants technologiques. Depuis, toute la Silicon Valley s’est lancée dans une course aux outils et assistants d’IA toujours plus performants. Google doit présenter ses dernières innovations mardi, tandis que Microsoft, principal investisseur d’OpenAI, a prévu un événement pour la presse et les développeurs la semaine prochaine. Quant à Anthropic, la firme a annoncé dans la nuit de lundi à mardi l’arrivée en Europe de Claude 3, sa nouvelle série de modèles d’IA générative, déjà déployés aux États-Unis depuis leur lancement en mars.

Vendredi, Sam Altman, le patron d’OpenAI, avait démenti les rumeurs au sujet des annonces que préparait son entreprise. «Pas GPT-5, pas un moteur de recherche», avait-il déclaré sur X. «Mais (…) nous avons travaillé sur des nouvelles choses et nous pensons que les gens vont adorer», avait-il ajouté. «Pour moi, c’est comme de la magie.» Dans le passé, il avait confié adorer le film de science-fiction «Her», où un homme tombe amoureux d’une IA, en conversant à l’oral avec elle.

«Anthropomorphisation»

«C’était incroyablement prophétique», avait-il déclaré en septembre dernier lors d’une conférence. «Et cela nous a inspirés à plus d’un titre, (...) notamment l’idée que nous ayons tous un agent personnalisé qui essaie de nous aider.» ChatGPT est encore loin des agents d’IA omniscients, proactifs et personnalisés que promettent les entreprises.

Mais cette mise à jour a impressionné, ou inquiété, les experts du secteur. «J’ai été frappé à quel point les démonstrations anthropomorphisent les modèles», a réagi Jeff Boudier, de Hugging Face, pour l’AFP. «Cela crée de la confusion et des fausses attentes».

«Une part très importante de notre mission consiste à mettre gratuitement à la disposition du public tous nos outils d’IA avancés (pour que) les gens comprennent de façon intuitive ce que la technologie peut faire», a souligné Mira Murati, directrice technologique de la start-up californienne, pendant la présentation de lundi. «C’est la première fois que nous faisons un grand pas en avant en matière de facilité d’utilisation», a-t-elle ajouté. «C’est extrêmement important, il s’agit de l’avenir de l’interaction entre nous et les machines».

(afp, man)

Amélioré, ChatGPT se dote de la vision et de la parole

IAAmélioré, ChatGPT se dote de la vision et de la parole

«Prophétique»

«Anthropomorphisation»

Nos équipes ainsi que nos partenaires externes, traitent des données selon les finalités suivantes :

Cookies strictement nécessaires

Cookies de fonctionnalité

Cookies de performance

Cookies pour une publicité ciblée

Cookies « réseaux sociaux »

Stocker et/ou accéder à des informations sur un appareil Il peut y avoir 563 fournisseurs qui utilisent cette finalité.

Utiliser des données limitées pour sélectionner le contenu Il peut y avoir 104 fournisseurs qui utilisent cette finalité.

Créer des profils pour la publicité personnalisée Il peut y avoir 419 fournisseurs qui utilisent cette finalité.

Utiliser des profils pour sélectionner des publicités personnalisées Il peut y avoir 415 fournisseurs qui utilisent cette finalité.

Créer des profils de contenus personnalisés Il peut y avoir 187 fournisseurs qui utilisent cette finalité.

Utiliser des profils pour sélectionner des contenus personnalisés Il peut y avoir 162 fournisseurs qui utilisent cette finalité.

Mesurer la performance des publicités Il peut y avoir 596 fournisseurs qui utilisent cette finalité.

Mesurer la performance des contenus Il peut y avoir 292 fournisseurs qui utilisent cette finalité.

Comprendre les publics par le biais de statistiques ou de combinaisons de données provenant de différentes sources Il peut y avoir 374 fournisseurs qui utilisent cette finalité.

Développer et améliorer les services Il peut y avoir 458 fournisseurs qui utilisent cette finalité.

Utiliser des données limitées pour sélectionner la publicité Il peut y avoir 512 fournisseurs qui utilisent cette finalité.

Fournir et présenter des publicités et du contenu 427 partenaires peuvent utiliser cette finalité particulière

Assurer la sécurité, prévenir et détecter la fraude et réparer les erreurs 433 partenaires peuvent utiliser cette finalité particulière

Enregistrer et communiquer les choix en matière de confidentialité 287 partenaires peuvent utiliser cette finalité particulière

Mettre en correspondance et combiner des données à partir d’autres sources de données 303 partenaires peuvent utiliser cette fonctionnalité

Relier différents appareils 276 partenaires peuvent utiliser cette fonctionnalité

Identifier les appareils en fonction des informations transmises automatiquement 403 partenaires peuvent utiliser cette fonctionnalité

Utiliser des données de géolocalisation précises 209 partenaires peuvent utiliser cette fonctionnalité particulière

Analyser activement les caractéristiques de l’appareil pour l’identification 97 partenaires peuvent utiliser cette fonctionnalité particulière