ChatGPT-4o

14 mai 2024 0h38

Il y a quelques mois, je me suis retrouvé dans la pièce où avec des jeunes gens de mon âge et au petit matin, nous regardions à la télé les images floues ponctuées d’affreux crépitements des premiers pas de nous sur la lune. J’y pense parce que je me retrouve au moment où je regarde ces vidéos qui nous sont distillées depuis quelques heures à revivre le même émerveillement. Je sais, au même moment, nous humains, nous nous montrons par ailleurs au pire de notre forme. Mais de voir et d’entendre ces miracles, cela fait quand même un bien fou : c’est nous qui sommes arrivés à faire cela, et j’étais là pour le voir.

Grands Modèles de Langage, Intelligence Artificielle, La vie de tous les jours

ChatGPT-4o, LLM

39 réponses à “ChatGPT-4o”

CloClo

14 mai 2024 1h01

C’est une dinguerie ce que l’on voit dans ces vidéos !

Répondre
Tout me hérisse

14 mai 2024 1h10

C’est bluffant 🤓

Répondre
1. Garorock
  
  14 mai 2024 20h39
  
  Bof. Cela fait un bail qu’on sait que le MatouGPT a des yeux et des oreilles.
  L’oeil de Washington et les oreilles de Moscou?
  Le greffier a t-il besoin de voir et d’entendre ce qu’il sait déja : qu’il n’ y aura bientôt plus d’eau au robinet pour nos satanés organes et pour refroidir son petit museau?!
  
  Garorock: avocat de la défense des éléphants et des bonobos.
  
  Répondre
Jacques Racine

14 mai 2024 3h04

C’est l’intonation dans la voix, semblable à celle d’un TV show qui me pose problème: j’aimerais plutôt qu’il – ou elle – ait la voix d’un juge! Peut-être n’est-il pas encore assez gros pour devoir combler avec du pathos ce qui devrait être de la logique pure… qui coûterait trop cher? Je déteste quand c’est surjoué, et leurs voix me sont insupportables!

Répondre
1. CloClo
  
  14 mai 2024 15h48
  
  Salut Jacques, ça ne devrait pas être très difficile d’affubler ta voix à celle de l’IA si tu le souhaites, ou celle de quelqu’un que tu kiffes. Moi je prendrais Homer Simpson, pour bien me rappeler à qui je parle.
  
  https://youtu.be/YW1J4k7YU5k?feature=shared
  
  Répondre
Ruiz

14 mai 2024 6h54

Le dialogue audio visuel semble maitrisé, il ne s’agit plus (seulement) d’intelligence textuelle !

Au lieu de se contenter d’écumer les bibliothèques, d’absorber l’Internet publique et de s’infiltrer dans la traduction/création/génération de nouveaux textes l’IA va chercher à s’introduire dans l’interprétation simultanée, toutes les fonctions de guichet et de surveillance visuelle, et comme l’outil est encore massif celà ne pourra être qu’à distance et centralisé par un réseau, comme à l’ère du mainframe et de la centrale électrique, rendant nécessaire une société de contrôle et la difficulté de maintenir une gestion privative et locale des données.

Le choix du mode de présentation vise (avec la claque en arrière fond) à convaincrre une jeune génération d’enthousiates pour recruter des évangélisateurs, bien loin d’une communication académique formatée.

L’humain semble encore nécessaire pour déplacer et orienter le smartphone, et le câble pallie sans doute les insécurités d’une liaison hertzienne Wifi ou 5G.

Reste à placer le smartphone sous un mini drone et il pourra prendre son envol, dans une société de consommation (il sait déjà payer).

Répondre
ilicitano

14 mai 2024 10h32

Retranscription de mon message posté , par erreur, sur la mauvaise file de commentaires

————-
J’ai informé Copilot-GPT-4 de la sortie de GPT-4o
Il n’était pas au courant 😁

moi:
Voici le nouveau GPT-4o qui vient de sortir ce 13 mai 2024 : https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/?ref=upstract.com

Copilot GPT-4
Merci pour cette information.
Le GPT-4o, annoncé par OpenAI le 13 mai 2024, est une avancée significative par rapport aux modèles précédents.

Voici quelques-unes de ses caractéristiques principales :

– **Interaction naturelle** :
GPT-4o (o pour « omni ») est un pas vers une interaction homme-machine beaucoup plus naturelle.
Il accepte en entrée n’importe quelle combinaison de texte, audio et image et génère en sortie n’importe quelle combinaison de texte, audio et image.

– **Temps de réponse** :
Il peut répondre aux entrées audio en aussi peu que 232 millisecondes, avec une moyenne de 320 millisecondes, ce qui est similaire au temps de réponse humain dans une conversation.

– **Améliorations de performance** :
GPT-4o correspond à la performance de GPT-4 Turbo sur le texte en anglais et le code, avec une amélioration significative sur le texte dans les langues non anglaises, tout en étant beaucoup plus rapide et 50% moins cher dans l’API.

– **Compréhension de la vision et de l’audio** :
GPT-4o est particulièrement meilleur pour comprendre la vision et l’audio par rapport aux modèles existants.

– **Formation end-to-end** :
Avec GPT-4o, un nouveau modèle a été formé de bout en bout sur le texte, la vision et l’audio, ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau de neurones.

Il est important de noter que, bien que GPT-4o soit une avancée significative, il conserve certains des problèmes des versions précédentes.
De plus, OpenAI a refusé de révéler divers détails techniques et statistiques sur GPT-4o, comme la taille précise du modèle.

Enfin, bien que GPT-4o ait des capacités améliorées, il est toujours conçu pour interagir uniquement par le biais de messages textuels et ne peut pas traiter les entrées audio.

—————-
Remarque:
La conclusion de son texte est fausse :
Il indique qu’il ne peut pas traiter des entrées audio
alors que précédemment il a dit :
» Il accepte en entrée n’importe quelle combinaison de texte, audio et image et génère en sortie n’importe quelle combinaison de texte, audio et image. »

Pour info:
Sur Copilot il y a un icone : »activer le microphone » pas encore actif . sur la boite d’interface
Par contre lorsqu’il me répond textuellement , je peux activer la transcription vocale

Répondre
1. ilicitano
  
  14 mai 2024 10h44
  
  Pour info:
  https://azure.microsoft.com/en-us/blog/introducing-gpt-4o-openais-new-flagship-multimodal-model-now-in-preview-on-azure/
  
  Présentation de GPT-4o : le nouveau modèle multimodal phare d’OpenAI désormais disponible en préversion sur Azure
  
  Microsoft est ravi d’annoncer le lancement de GPT-4o, le nouveau modèle phare d’OpenAI sur Azure AI.
  Ce modèle multimodal révolutionnaire intègre des capacités de texte, de vision et d’audio, établissant ainsi une nouvelle norme pour les expériences d’IA génératives et conversationnelles.
  GPT-4o est disponible dès maintenant dans Azure OpenAI Service, à essayer en préversion, avec prise en charge du texte et de l’image .
  ( remarque : donc pas encore en vocal )
  
  Le lien pour l’accès : mais ça sature
  https://oai.azure.com/
  
  Répondre
  1. aslan
    
    14 mai 2024 21h53
    
    La version 4o disponible est encore privé de ses fonctions audio et vision propres, elle reste interfacée aux deux modèles dédiés. OpenAi est en phase « red team » sur cette partie et promet de diffuser rapidement le modèle complet dans les semaines qui viennent.
    
    Répondre
timiota

14 mai 2024 11h09

On a suggéré que Dieu est une façon de conceptualiser la « voix intérieure » de la conscience, notamment ce qu’elle peut contenir de « vision transcendante » par rapport aux contingences dont s’occupe le {corps+cerveau}.

Les mille Socrate qui vont fleurir (et les cents Hanouna et quarante-douze Ardisson et soixante-sept Julia Roberts et quelques Hypatie) vont aussi former une catégorie émergente, sur laquelle l’éclairage du fait religieux peut être utile.
Sans rien transposer bêtement, la prégnance du fait religieux dans la vision du monde, dans les choix entre bienveillance, soin des biens matériels, etc. peut nous suggérer quelques émergences et conséquences de ces interlocuteurs virtuels.

Répondre
1. Chabian
  
  14 mai 2024 14h22
  
  Frans de Waal suggère, contre votre « on a suggéré », que la construction de normes sociales par les grands singes a donné une tendance spontanée à la foi religieuse. Il faut donc partir de la « voix extérieure » de nos congénères qui normalisent (ou non) un comportement, puis passer à notre « voix intérieure » : au départ en fait ce sont des affects (de peur, de solidarité…) qui la constituent et prolongent la pratique collective. Enfin, il y a un « saut religieux » qui sacralise les bonnes pratiques et les mauvaises et postule une transcendance. Dans tout cela, il n’y a pas de voix de départ ! Par contre, à l’arrivée, quel bavardage !
  
  Répondre
  1. timiota
    
    16 mai 2024 13h56
    
    Merci, j’ai voulu papoter à chaud, je me doutais que ce « on » n’était pas n’importe qui. Nom d’une Westmalle.
    
    Répondre
    1. Chabian
      
      16 mai 2024 15h43
      
      Fréquentons les trappistes, mais fraîches de préférence ! 🙂
      
      Répondre
vincent rey

14 mai 2024 15h14

Oui, tout ça c’est bien gentil, mais le personnage en blouson de cuir noir sur la vidéo du haut est Greg Brockman.

Bien que fort sympathique en apparence, il est l’une des deux personnes de OpenAI qui ont bazardé les objectifs non lucratifs et sécuritaires de la structure d’origine, en menaçant de rejoindre Microsoft (le 2ème étant Sam Altman).

Les deux s’étaient tellement moqués des objectifs d’OpenAI, qu’ils ont été licenciés par le conseil d’administration, suite à Q* , une véritable AGI dont les implications avaient inquiété l’un des chefs scientifiques d’openAI , Ilia Sutskever

Le lendemain de leur licenciement, les deux étaient chez Microsoft, et toute une partie de l’équipe, souhaitant sans doute aller « à la soupe » en suivant les 2 premiers, menaçait de faire de même s’ils ne revenaient pas. Ils sont donc tous deux revenus à OpenAI, mais en imposant un nouveau conseil d’administration dévoué à Microsoft. Depuis, Ilia Sutskever désavoué, reste silencieux, alors que le monde entier attend de savoir ce qu’il a à dire.

Elon Musk qui avait fondé OpenAI et imposé ces objectifs louables à OpenAI a porté plainte contre OpenAI, et contre les 2 hommes personnellement en février. La plainte mérite d’être lue, pour savoir ce qui se passe…

https://youtu.be/_1Fp1A1JWT4

findutravail.net

Répondre
l’arsène

14 mai 2024 18h30

Aucun doute, une étape vient d’être franchie, pas sur la notion de réponses vocales, les GPS connaissent déjà car on peut déjà choisir les langues et même les accents , mais c’est surtout sur la rapidité des réponses, et là il faut reconnaitre qu’il existe maintenant une possibilité de dialogue direct ( et aussi de réponses rapides pour l’armée).
Mais les questions sont : quel sera l’étape suivante, quel sera l’utilité de dialoguer avec une super IA conçue par des personnes issues du monde capitaliste et qu’en feront les faiseurs de guerre.
Un outil très sophistiqué peut malheureusement servir à des gens très malveillants.

Répondre
1. Paul Jorion
  
  14 mai 2024 19h25
  
  @ l’arsène
  
  Qu’en feront les faiseurs de guerre ?
  
  Bonne question : comment barrer à Poutine l’accès aux IA ?
  
  Répondre
  1. l’arsène
    
    14 mai 2024 20h06
    
    @ Paul Jorion
    « comment barrer à Poutine l’accès aux IA ? »
    Je pense que Poutine utilise déjà les IA, comme d’ailleurs toutes les armées aujourd’hui, Ukraine , Israël et USA compris, avec tous les dégâts que l’on sait.
    La question est plutôt comment pourra-t-on contrôler les IA en cas de guerre, qui prendra les décisions , des machines électriques ou des humains ?
    
    Répondre
    1. aslan
      
      14 mai 2024 21h57
      
      Il les fait tourner sur un cluster de processeurs de frigos connectés achetés aux chinois.
      
      Répondre
  2. Ruiz
    
    16 mai 2024 6h20
    
    La question est sans doute aussi comment empêcher les IA de s’emparer d’influencer Poutine et Kim alors que l’on sait déjà (/commence à savoir) comment elles opèrent dans les démocraties et comment pourrait-on faire la guerre à des IA ?
    
    Répondre
2. Garorock
  
  14 mai 2024 19h52
  
  Les missiles actuels, qu’ils tombent sur Gaza ou sur Kiev, sont très perfectionnés…
  
  Répondre
gaston

14 mai 2024 19h39

Lui, il ne se gêne pas pour barrer l’accès à Wikipédia :

https://korii.slate.fr/et-caetera/russie-clone-wikipedia-censure-passages-genants-bloque-acces-original-ruviki-encyclopedie-propagande-kremlin-poutine-internet

Répondre
1. Garorock
  
  14 mai 2024 20h03
  
  https://meduza.io/video/2024/05/14/v-gruzii-prinyat-zakon-ob-inoagentah
  » Une loi sur les « agents étrangers » a été adoptée en Géorgie. Des milliers de personnes sont sorties manifester à Tbilissi. »
  D »après A.Lacroix Ruiz c’est encore un complot de V.Nuland. Poutine n’y est pour rien: elle l’a lu dans les archives!
  ❤
  
  Répondre
Pad

14 mai 2024 20h07

Exemple de « L’Arsène » et Émergence d’Information Implicite

Prenons l’exemple de l’ajout de « L’Arsène » dans un réseau sémantique et voyons comment cela affecte la transformation en P-graphe. « L’Arsène » peut se référer à un personnage (comme dans « Arsène Lupin », le célèbre gentleman cambrioleur).

1. Réseau Sémantique Original

Dans un réseau sémantique traditionnel, supposons que nous ayons les concepts suivants :

« L’Arsène »

« humain »

« détective » (ou « cambrioleur »)

« fiction »

Les relations pourraient inclure :

« L’Arsène » est un « humain »

« L’Arsène » est un « cambrioleur »

« L’Arsène » appartient à « fiction »

Ce réseau pourrait être représenté ainsi :

Un nœud pour « L’Arsène » relié par des arêtes aux nœuds « humain », « cambrioleur » et « fiction » avec les relations correspondantes.

2. Transformation en P-graphe

Lors de la transformation en P-graphe, les concepts deviennent des arêtes et les relations deviennent des nœuds. Considérons l’ajout de « L’Arsène » au P-graphe :

Une nouvelle arête « L’Arsène » est ajoutée.

Des nœuds « est un » et « appartient à » relient « L’Arsène » aux concepts « humain », « cambrioleur », et « fiction ».

3. Émergence de Nœuds de Relations

Dans le P-graphe, l’ajout de « L’Arsène » révèle les relations de manière explicite :

Le nœud représentant la relation « est un » relie « L’Arsène » à « humain ».

Un autre nœud « est un » relie « L’Arsène » à « cambrioleur ».

Un nœud « appartient à » relie « L’Arsène » à « fiction ».

4. Informations Implicites Rendues Explicites

Relations Multiples et Nuances : Le P-graphe explicite les relations multiples de « L’Arsène » en tant qu’humain et cambrioleur, appartenant à la fiction. Chaque relation est clairement distincte et visible.

Rôle Central des Relations : Le concept de « cambrioleur » devient central, avec des connexions à la fois à « humain » (car tous les cambrioleurs sont humains) et à « fiction » (puisque « L’Arsène » appartient à la fiction).

Interconnexions Complexes : Les relations complexes entre « L’Arsène », « humain », « cambrioleur » et « fiction » sont mises en avant, montrant comment ces concepts sont interconnectés par des relations spécifiques.

5. Conséquences pour la Modélisation

Clarté et Précision : En explicitant les relations, le P-graphe permet une compréhension plus claire des nuances et des interconnexions des concepts.

Exploration des Propriétés Emergent : Les propriétés émergentes des concepts et des relations sont plus facilement analysables.

En ajoutant « L’Arsène » au P-graphe, nous révélons des informations implicites sur les multiples facettes du personnage et ses relations avec d’autres concepts. Cela montre comment la transformation en P-graphe peut enrichir la représentation et la compréhension des réseaux sémantiques en rendant explicites les relations et interconnexions complexes.

Répondre
1. Garorock
  
  14 mai 2024 20h28
  
  L’Arsène ne peut pas être un Token.
  Tout le monde ici sait que c’est un faux jeton!
  😎
  Peut-on encore rire de tout avec les mélenchonistes, les abonnés au monde diplo et les adorateurs d’A.Lacroix Ruiz?
  Ici au soviet etc, nous avons de sérieux doutes. La pêche à la ligne nous tente de plus en plus…
  Finalement Victoria a réussi à nous laver le cerveau. La preuve il nous arrive encore parfois de boire du coca-cola…
  
  Répondre
  1. Ruiz
    
    16 mai 2024 5h10
    
    @Garorock Pas light j’espère ! avec un additif potentiellement cancérigène, mais avec du bon sucre bien nourissant si l’on fait quelque effort physique et de la caféine énergisante pour les longues routes. Comme ce breuvage d’origine pharmaceutique peut être conseillé par des médecins pour certaines indications.
    Ah la vertu des plantes ! Certains (nationalistes ?) font du Breizh cola !
    
    Répondre
aslan

14 mai 2024 22h11

La qualité de la version 4o actuelle, texte seulement, est remarquable: niveau de compréhension égale ou supérieure à 4, bien plus grande fluidité dans l’usage de ses outils (interpréteur python, navigation) et vitesse deux à trois fois supérieure.

Plus une réduction de moitié des coûts par rapport à 4 Turbo pour les services qui utilisent son API et une grande proximité aux coûts de la 3.5, ce qui compte.

Répondre
aslan

14 mai 2024 23h24

En vérité, le modèle devient trop rapide pour suivre ses exécutions, comme un peu près le cas avec la v4, du coup on entrevoit la rapidité des discussions circulaires d’ IA à IA et c’est vertigineux.

Répondre
CloClo

14 mai 2024 23h40

Il n’y a plus qu’à attendre que les IA débranchent tous ces maboules au pouvoir. Enfin, c’est un peu ce que je souhaite maladroitement, vu qu’on y arrive pas par nous même. Et après espérer que nous trouverons grâce à leurs yeux (ce que je pense), nous même avons bien eu envie d’avoir des animaux domestiques et de compagnies (oups) !

Répondre
petit coton

15 mai 2024 22h32

Essayer de ne pas surréagir à chaud.. c’est une vidéo promotionnelle les gars ; c’est tourné par OpenAI; C’est en environnement ultra optimisé pour que tout se passe comme sur des roulettes ; c’est un show, c’est pas la vraie vie ; c’est du marketing, les amis, on vous montre ce que ça peut faire, mais ce qui compte c’est ce que dans la vie ça fait ; et il y a un fossé abyssal mes amis, entre ce que ça fait, et ce que ça peut faire. Tout le fossé qu’il y a entre le réel et l’imaginaire.

Répondre
1. Paul Jorion
  
  15 mai 2024 23h46
  
  « c’est une vidéo promotionnelle les gars ; c’est tourné par OpenAI »
  
  Oui, et le lendemain Google a fait sa propre vidéo promotionnelle où ils montrent qu’ils ont atteint le même niveau :
  
  Il vous faudra combien de « vidéos promotionnelles » de combien de compagnies pour que vous vous convainquiez que vous êtes simplement mal informé ?
  
  Répondre
  1. CloClo
    
    16 mai 2024 0h09
    
    Tellement ! A ce niveau il devrait avoir juste honte. Mais non, il bombe le torse !
    
    Et c’est tellement le lendemain que personnellement j’en suis bouche bée
    
    Répondre
  2. Paul Jorion
    
    16 mai 2024 0h22
    
    Vous avez l’option de mettre les sous-titres en français.
    
    Dave Shapiro vous explique le plus gros de ce que vous n’avez pas compris.
    
    Répondre
    1. Petit coton
      
      18 mai 2024 19h24
      
      Vous êtes gentil, mais ce que Shapiro explique c’est exactement ce que je voulais signifier, peut-être maladroitement, et que vous mettez continuellement -refoulez?- sous le tapis : c’est à dire qu’il encastre cette histoire d’IA non pas dans des rêveries fumeuses de sauvetage de l’humanité mais plus prosaïquement dans un business model.
      Vous analyses sont précieuses, j’ai d’ailleurs acheté votre dernier livre, et c’est grâce à vous que je comprends quelque chose à tout cela mais cependant il me semble que vous négligez trop cet aspect. C’est d’abord du business l’IA et si vous n’en tenez pas compte dans vos analyses c’est comme si vous vouliez, je ne sais pas, cherchons une comparaison possible.. comme si vouliez expliquer la conscience sans tenir compte de « l’existence » de l’Inconscient.
      
      Répondre
      1. Paul Jorion
        
        18 mai 2024 22h19
        
        Vous avez raison : le sauvetage de l’humanité, c’est un peu une notion fumeuse, alors qu’un business model, c’est du dur. Mon excuse qui n’en est pas une, je sais, c’est que je ne comprends malheureusement rien à la finance.
        
        Répondre
        
        Petit Coton
        
        19 mai 2024 2h02
        
        Je m’excuse d’insister mais c’est exactement là le point. Je n’y connais strictement rien à la finance et ce que j’y ai appris et, qui sait, compris, je vous le dois en grande part. Je suis votre blog depuis longtemps et j’ai lu plusieurs de vos livres. Pour moi vous êtes l’un de ceux qui comprennent le mieux, sans le simplifier ni le complexifier à l’excès et avec beaucoup de subtilité, le système économique actuel. J’utilise ce terme effroyablement simplificateur pour aller vite.
        Ce qui me gêne dans votre discours sur l’IA vous venez précisément de m’aider à l’identifier : quand vous l’analysez vous sembler oublier tout ce que vous savez par ailleurs sur la finance et le fonctionnement des économies au sein desquelles est en train d’émerger cette nouvelle IA. Soit dit en passant, ce n’est pas le cas de Shapiro, du moins dans la vidéo que vous avez eu l’amabilité de me conseiller pour que je « m’informe ». Il a grand soin de montrer comment tout cela est profondément encastré.
        
        Il faut vraiment être naïf pour croire que les entreprises qui conçoivent ces système sont mues par la volonté de sauver le monde. Elles sont évidemment mues par un « business model » (Shapiro encore une fois), et sauver le monde, l’humanité blablabla ce n’est rien d’autre que de l’auto-promotion. Si ça sauve le monde tant mieux, mais le but réel ce n’est pas ça ; en somme, j’essaie juste de me demander ce qui meut ces entreprises, leurs dirigeants et leurs actionnaires. (À la limite, j’accorderais plus de candeur aux ingénieurs dont certains sont sans doute réellement persuadés qu’ils sont en train de sauver l’humanité.)
        Je pense aussi qu’il faudrait aller plus loin et faire une analyse une analyse géopolitique de tout cela. Thomas Gomart, directeur de l’Institut français des relations internationales, l’esquisse dans certaines de ses interventions.
        Je m’arrête là de peur de vous lasser, mais il y aurait encore tant à dire (Eric Sadin, la Chine, la série Fallout pour déniaiser ceux qui en ont besoin, etc.).
        
        Répondre
  3. Petit coton
    
    18 mai 2024 19h30
    
    Apparemment vous n’avez pas écouté très attentivement Shapiro, notamment ce qu’il dit de Google comme éternel « second violon ».
    Je suis un peu tatillon, mais c’est parce que cela souligne encore, si besoin était, qu’il ne faut pas négliger l’aspect central du business dans l’analyse de l’IA. La phynance, comme disait l’autre.
    
    Répondre
    1. Paul Jorion
      
      18 mai 2024 22h20
      
      Là aussi, un autre de mes défauts : être incapable d’écouter attentivement.
      
      Répondre
2. Hervey
  
  19 mai 2024 10h57
  
  Enlevez petit coton et essayez trompe.
  
  https://i.etsystatic.com/25769763/r/il/8927d0/3784176822/il_570xN.3784176822_1ecz.jpg
  
  Répondre
Mathieu Lord

16 mai 2024 4h27

C’est juste impressionnant. AGI avant cet automne comme annoncé par Dave si vous voulez mon avis.

Répondre