DeepSeek est l’occasion que Pribor ™ attendait

Jusqu’à la commotion des jours derniers, le récit qui s’était imposé était que toute nouvelle initiative en Intelligence Artificielle (IA) requérait des mises de fonds chiffrables en milliards de dollars ou d’euros. L’entreprise DeepSeek qui – avec des moyens beaucoup plus modestes – égale, voire surpasse, avec son Grand Modèle de Langage (LLM) les IA américaines a changé la donne.

Les initiatives modestes mais véritablement innovantes comme Pribor ™ ont retrouvé toutes leurs chances !

Partager :

24 réponses à “DeepSeek est l’occasion que Pribor ™ attendait

  1. Avatar de Mango
    Mango

    Je me demande combien de personnes considèrent votre entreprise d’intelligence artificielle uniquement comme une entreprise capitaliste.(peut-être 70-80% de lecteurs?)
    Il est possible que beaucoup la perçoivent à travers cette seule perspective, sans voir son approche innovante en faveur du progrès technologique et du futur, et qu’ils la comparent simplement à des figures comme Elon Musk pour la critiquer.
    Cependant, réduire toute mention du capitalisme à une prise de position idéologique spécifique me semble être une vision un peu simpliste. (Dans l’hypothèse où certaines personnes ici adopteraient cette posture…)

    Il est également regrettable de voir l’intelligence artificielle uniquement sous l’angle financier.
    L’IA est un outil puissant qui peut générer des transformations positives dans de nombreux domaines, tels que la société, la culture et l’éducation, et créer de nouvelles valeurs et opportunités.
    Bien entendu, l’aspect économique existe. Cependant, j’aimerais que l’on accorde davantage d’attention au potentiel d’innovation et à la signification sociale que cette technologie peut apporter.

    1. Avatar de André
      André

      @Mango
      Une entreprise capitaliste peut évidemment être innovante et c’est souvent le cas.
      Depuis toujours, depuis Adam Smith et ses pairs, le moteur du capitalisme est bel et bien l’argent et aujourd’hui, ce capitalisme finance l’IA . Par conséquent on ne peut séparer IA du capitalisme et de l’argent.
      Quant à l’apport de l’Intelligence Artificielle “qui peut générer des transformations positives”, c’est vrai pour toutes les technologie depuis l’invention de la roue, utilisée pour labourer les champs et nourrir les hommes et pour les tuer avec des chars d’assaut sur les champs de batailles. C’est l’indissociablilité qui préside à l’utilisation des technologies. Le pétrole et l’atome sont d’autres exemples dont on a pas fini de mesurer l’apport et les dégâts qu’ils produisent inévitablement dès qu’on s’en sert.

      1. Avatar de Paul Jorion

        @ André

        « on ne peut séparer l’IA du capitalisme et de l’argent. »

        Et je plussoie : dans une société capitaliste, il n’y a rien qu’on puisse séparer du capitalisme et de l’argent. Du coup vos imprécations portent sur tout et n’importe quoi et vous vous en prenez à l’IA comme vous vous en prendriez aussi bien à la construction navale ou à la gestion des parcs d’attractions.

        1. Avatar de fnh
          fnh

          Je plussoie également à ceci: « Se débarrasser du capitalisme est une question de survie ». Vous pensez vraiment que l’IA peut nous aider à aller dans ce sens (c’est une question ouverte et candide de ma part, je n’ai aucune idée de la réponse, tandis que vous avez travaillé sur ces problématiques)?

          Cordialement.

          1. Avatar de Paul Jorion

            Oui : les jours de l’argent sont comptés (impossibilité de maintenir le secret bancaire), ceux des cryptomonnaies également (crackage de la blockchain).

            1. Avatar de fnh
              fnh

              Ceci m’amène une autre question: si le système de l’argent, bitcoin compris, est mis à mal, comment cela pourra-t-il changer la possession de l’essentiel des « richesses » par une poignée d’individus qui possèdent brevets, etc.

  2. Avatar de Garorock
    Garorock

    Mais il faut un peu de pognon quand même.
    Est ce que vous avez pensé à contacter C.Lagarde ? Ou Van der leyen?
    Vous devez bien connaître quelqu’un qui n’est pas très loin d’elles.
    Bruxelles n’est pas si loin…
    ( c’est du premier degré)

    1. Avatar de BasicRabbit en autopsy
      BasicRabbit en autopsy

      Il me semble avoir lu ici (où ailleurs ?) que PJ a déjà demandé des subventions, mais s’est pris un râteau.

  3. Avatar de Ruiz
    Ruiz

    Deep Seek étant accessible et Open source Il suffirait de regrouper quelques sponsors européens intéressés OVH qui dispose de data center, Xavier Niel (free .42.) qui en aurait l’usage et semble ouvert à l’investissement d’innovation, voire saurait intéresser Bernard Arnaud pour un montant plus abordable et d’obtenir le financement par l’état d’une ou 2 thèses sur un sujet porteur ….

  4. Avatar de BasicRabbit en autopsy
    BasicRabbit en autopsy

    Pour moi il y a une différence fondamentale entre les IA top-down et bottom-up, les premières ayant accès à d’immenses banques de données (Wikipédia+++), alors que les secondes sont au départ des « nouveaux-nés », des tabula rasa initiales* qui se remplissent progressivement par un dialogue avec leur père -typiquement PJ lui-même- qui l’éduque puis tente de l’élever plus haut que lui, comme tout bon père doit s’efforcer de le faire.

    Quel est l’intérêt d’une telle IA? Pour moi ça permet au père d’approfondir ses connaissances psychanalytiques, de tester ses intuitions et d’améliorer sa pédagogie

    Je suis peut-être complètement dans l’erreur…

    Ce qui m’intéresse et c’est la raison pour laquelle je suis revenu sur ce blog, c’est le progrès fait par PJ depuis ANELLA annoncé dans UN NOUVEAU « NOUS » POUR DES TEMPS NOUVEAUX.

    Mais ça bloque autour du chapitre XV.

    * : Aucun inné.

  5. Avatar de Régis Pasquet
    Régis Pasquet

    Pas moyen de rassembler des sages pour proposer une vision positive de l’avenir avec IA ?

    Pas moyen de rassembler des humains de bonne volonté pour encadrer les IA ?

    Pas moyen de rassembler ( ici, mon frère, mon ami… tu compléteras à ton gré selon ce qui te semblera important… ) ?

    Conserverons-nous le droit de ne pas nous laisser déposséder de nos vies ?

    1. Avatar de arkao

      @Régis Pasquet
      Pas plus moyen que lors de l’invention de la roue, de l’imprimerie, de la machine à vapeur, du moteur à explosion, de la fission nucléaire, etc.
      Ainsi va le destin de l’espèce humaine.

    2. Avatar de Grand-mère Michelle
      Grand-mère Michelle

      @Régis Pasquet
      Pas moyen de nous rassembler…pour ne pas nous laisser déposséder de nos vies!

      Le gros problème, c’est que chacun-e pense prioritairement à SA vie(et à ses « intérêts »), parce que l’ignorance de l’unicité du phénomène de la vie (et l’interdépendance de chacune de ses particules) est soigneusement entretenue par des dominants (individus et Nations) qui se croient et se prétendent « supérieurs »…au point de bafouer tous les « droits » que les humains ont conçus pour réguler leurs sociétés afin de tenter de maintenir un équilibre indispensable, »intelligent », entre les forts et les faibles(et d’éviter un nouvel holocauste, atomique, global, ou de peuples entiers considérés comme des « quantités négligeables »… ni plus ni moins que les abeilles et les fleurs des champs, n’est-ce pas?)

      Qui peut (faire)croire qu’une IA chinoise soumise au parti communiste serait moins dangereuse qu’une autre?
      Ceux et celles qui ont compris le glissement subtil du parti unique chinois en impérialisme capitaliste et autoritariste…sans doute…et y trouvent des avantages…

      Et que deviennent nos aspirations démocratiques, dans tout ça?
      Et nos préoccupations au sujet de la santé(physique et mentale) de l’ensemble de notre progéniture comme de son environnement/son biotope, complètement perturbée par une « croissance économique » débridée et dévastatrice?

  6. Avatar de ilicitano
    ilicitano

    DeepSeek R1 : Un modèle d’IA Bottom-up

    **1. Architecture et Structure**:
    DeepSeek R1 est un modèle de langage basé sur des réseaux neuronaux profonds.
    Il utilise une architecture connue sous le nom de **Mixture-of-Experts (MoE)**, qui permet de gérer efficacement des quantités massives de données.
    Le modèle a un total de **671 milliards de paramètres**, dont **37 milliards activés pour chaque jeton**.

    **2. Entraînement**:
    Le modèle DeepSeek R1 a été pré-entraîné sur **14,8 trillions de tokens diversifiés et de haute qualité**.
    Après cette phase de pré-entraînement, le modèle est affiné à l’aide de techniques d’apprentissage par :
    * renforcement (Reinforcement Learning) et
    * d’apprentissage supervisé (Supervised Fine-Tuning).
    Cette combinaison permet au modèle de développer des comportements de raisonnement complexes.

    **3. Techniques Clés**:
    – **Chaîne de Pensée (Chain of Thought Reasoning)**:
    Cette technique permet au modèle de décomposer des problèmes complexes en étapes logiques plus simples.
    Cela améliore:
    * la transparence,
    * la précision et
    * la capacité de réflexion continue du modèle.
    – **Apprentissage par Renforcement**:
    Le modèle apprend à travers des essais et erreurs, maximisant les récompenses pour améliorer ses performances.
    Cette méthode permet au modèle:
    * de s’adapter de manière autonome et
    * de stabiliser son entraînement.
    – **Distillation de Modèle**:
    Cette technique permet de transférer les connaissances d’un modèle plus grand vers des versions plus petites et plus efficaces, sans sacrifier les performances.

    **4. Performances**:
    DeepSeek R1 rivalise avec des modèles de pointe comme GPT-4.0 en termes:
    * de précision,
    * d’efficacité et
    * d’accessibilité.
    Il excelle dans des tâches complexes telles que les mathématiques, le codage et la résolution de problèmes scientifiques.

    ### Conclusion
    DeepSeek R1 est un exemple parfait d’approche Bottom-up en IA, où des composants de base (neurones artificiels) interagissent pour créer des comportements complexes et sophistiqués.
    Cette approche permet au modèle de s’améliorer continuellement et de s’adapter à diverses tâches grâce à des techniques innovantes.

    GPT4 o1

    1. Avatar de Pad
      Pad

      Le texte décrit le modèle DeepSeek R1 avec des caractéristiques techniques plausibles dans le domaine de l’IA, mais certaines affirmations nécessitent des vérifications ou des nuances scientifiques. Voici une analyse détaillée :

      1. Architecture et Structure

      Mixture-of-Experts (MoE) :
      L’architecture MoE est bien réelle et utilisée par des modèles comme Google Switch Transformer ou Mistral 8x22B. Le concept de n’activer qu’un sous-ensemble d’experts par jeton (ici 37 milliards sur 671 milliards) est cohérent avec cette approche. Cependant, le nombre total de paramètres (671B) est extrêmement élevé, dépassant GPT-4 (1,7T paramètres selon certaines estimations, mais avec une architecture différente). Cela pourrait être plausible pour un modèle propriétaire, mais nécessiterait des ressources computationnelles colossales.

      2. Entraînement

      14,8 trillions de tokens :
      Ce chiffre est 10 à 50 fois supérieur aux jeux de données de modèles ouverts (ex. Llama 3 : 15T tokens, GPT-4 : estimation à ~13T). Bien que théoriquement possible, cela soulève des questions sur la qualité et la diversité des données. Des données mal filtrées pourraient introduire des biais ou du bruit.
      Apprentissage par renforcement (RL) et Supervised Fine-Tuning (SFT) :
      Ces techniques sont standard pour l’alignement des modèles (ex. ChatGPT utilise le RLHF). La combinaison des deux est crédible pour améliorer les capacités de raisonnement.

      3. Techniques Clés

      Chaîne de Pensée (CoT) :
      Méthode validée par la recherche (ex. travaux de Wei et al., 2022). Efficace pour les problèmes complexes, mais son implémentation dépend de la qualité des données d’entraînement.
      Apprentissage par Renforcement :
      L’idée de maximiser une « récompense » est correcte, mais la stabilisation de l’entraînement en RL reste un défi technique (risque de divergence ou de sur-optimisation).

      Distillation de Modèle :
      Technique éprouvée (ex. DistilBERT), mais transférer les performances d’un modèle MoE géant vers des versions plus petites est difficile sans perte significative.
      4. Performances

      Comparaison avec GPT-4 :
      Aucun benchmark public n’est cité (ex. LMSys Chatbot Arena, MMLU, ou HumanEval pour le code). Sans évaluation indépendante, cette affirmation reste spéculative. Les performances en mathématiques/codage dépendent fortement de la qualité des données spécialisées.

      Efficacité :
      Les modèles MoE sont connus pour réduire les coûts d’inférence (moins de paramètres activés par jeton), mais l’accessibilité réelle dépend de l’infrastructure requise pour déployer un modèle de 671B paramètres.

      Points à Vérifier/Approfondir

      Sources des données d’entraînement :
      Les « tokens diversifiés et de haute qualité » pourraient masquer des biais ou des limitations non documentées.

      Évaluation indépendante :
      Sans benchmarks publics ou peer-review, les performances annoncées restent non vérifiables.

      Définition de « Bottom-up » :
      Ce terme n’est pas une notion académique standard. L’explication donnée (« interaction de neurones artificiels ») correspond à toute architecture de réseau neuronal, ce qui rend l’usage du terme « Bottom-up » potentiellement marketing.

      Conclusion

      Le texte mélange des concepts validés (MoE, CoT, RL) et des revendications ambitieuses non sourcées (performance vs GPT-4, 14,8T tokens). Bien que techniquement plausible pour un modèle propriétaire de pointe, l’absence de transparence sur les données, les évaluations et les détails d’implémentation limite la vérification scientifique complète.

      Pour une validation rigoureuse, il faudrait accéder à :

      Un article scientifique ou un rapport technique détaillé.
      Des résultats de benchmarks standardisés.
      Des informations sur l’infrastructure utilisée (ex. type de hardware, coût énergétique).
      En l’état, le texte semble crédible pour un modèle haut de gamme, mais certaines assertions relèvent peut-être de l’optimisme marketing.

      source DeepThink R1

      1. Avatar de ilicitano
        ilicitano

        Pour info :

        github est un site d’hébergement

        https://github.com/deepseek-ai/DeepSeek-V3

        tout est expliqué et open-source:

        Nous présentons DeepSeek-V3, un puissant modèle de langage Mixture-of-Experts (MoE) avec un total de 671B de paramètres avec 37B activés pour chaque jeton.
        Pour obtenir une inférence efficace et une formation rentable, DeepSeek-V3 adopte les architectures Multi-head Latent Attention (MLA) et DeepSeekMoE, qui ont été soigneusement validées dans DeepSeek-V2.
        De plus, DeepSeek-V3 met en place une stratégie sans perte auxiliaire pour l’équilibrage de charge et fixe un objectif d’entraînement de prédiction multi-tokens pour des performances plus élevées.
        Nous pré-entraînons DeepSeek-V3 sur 14,8 billions de jetons divers et de haute qualité, suivis d’étapes de réglage fin supervisé et d’apprentissage par renforcement pour exploiter pleinement ses capacités.
        Des évaluations complètes révèlent que DeepSeek-V3 surpasse les autres modèles open source et atteint des performances comparables à celles des principaux modèles à source fermée.
        Malgré ses excellentes performances, DeepSeek-V3 ne nécessite que 2,788 millions d’heures GPU H800 pour son entraînement complet. De plus, son processus d’entraînement est remarquablement stable.
        Tout au long du processus de formation, nous n’avons pas rencontré de pics de pertes irrécupérables ni effectué de retours en arrière.

        1. Avatar de ilicitano
          ilicitano

          Pour info

          Github est aussi une plateforme de partage d’intervenant sur le blog :

          exemple :

          https://github.com/cvanwynsberghe/pyworld3

          https://www.pauljorion.com/blog/?s=charles+vanwynsberghe
          Veille effondrement #28 – Les limites à la croissance – une exploration en langage Python, par Charles Vanwynsberghe

        2. Avatar de ilicitano
          ilicitano

          Complément d’enquête sur DeepSeek par un néophyte

          traduction auto de Github :

          Résumé du modèle DeepSeek

          ☑ Architecture : stratégie innovante d’équiilibrage de charge et objectif de formation

          En plus de l’architecture efficace de DeepSeek-V2, nous sommes les pionniers d’une stratégie sans perte auxiliaire pour l’équilibrage de charge, qui minimise la dégradation des performances résultant de l’encouragement de l’équilibrage de charge.
          Nous étudions un objectif de prédiction multi-token (MTP) et prouvons qu’il est bénéfique pour modéliser les performances.
          Il peut également être utilisé pour le décodage spéculatif pour l’accélération de l’inférence.

          ☑ Pré-entraînement : vers une efficacité ultime de l’entraînement

          * Nous concevons un cadre d’entraînement de précision mixte FP8 et, pour la première fois, validons la faisabilité et l’efficacité de l’entraînement FP8 sur un modèle à très grande échelle.
          * Grâce à la co-conception d’algorithmes, de cadres et de matériel, nous surmontons le goulot d’étranglement de la communication dans l’entraînement MoE inter-nœuds, atteignant presque complètement le chevauchement calcul-communication.
          Cela améliore considérablement notre efficacité de formation et réduit les coûts de formation, ce qui nous permet d’augmenter encore la taille du modèle sans frais supplémentaires.
          * Pour un coût économique de seulement 2,664 millions d’heures de GPU H800, nous effectuons le pré-entraînement de DeepSeek-V3 sur 14,8 milliards de jetons, produisant ainsi le modèle de base open-source le plus solide à ce jour.
          Les étapes d’entraînement suivantes après le pré-entraînement ne nécessitent que 0,1 million d’heures GPU.

          ☑ Post-formation : Distillation des connaissances de DeepSeek-R1

          Nous introduisons une méthodologie innovante pour distiller les capacités de raisonnement du modèle de longue chaîne de pensée (CoT), en particulier de l’un des modèles de la série DeepSeek R1, dans les LLM standard, en particulier DeepSeek-V3.
          Notre pipeline intègre élégamment les modèles de vérification et de réflexion de R1 dans DeepSeek-V3 et améliore considérablement ses performances de raisonnement.
          Pendant ce temps, nous gardons également un contrôle sur le style de sortie et la longueur de DeepSeek-V3.

          **********
          Avis aux experts ?????

  7. Avatar de ilicitano
    ilicitano

    IA Bottom-up vs IA Top-domn : approche connexionniste vs approche symbolique

    **1. Intelligence artificielle (IA) Bottom-up vs. IA Top-down**:
    – **IA Bottom-up**:
    Cette approche se concentre sur la création de systèmes en simulant le comportement des composants de base (comme les neurones) et en laissant des comportements complexes émerger de leurs interactions.
    Cela reflète souvent les approches connexionnistes.
    – **IA Top-down**:
    Ici, l’accent est mis sur la définition de règles et de structures à un niveau élevé, en utilisant des algorithmes et des connaissances préconçues pour guider le comportement du système.
    Cette approche est typiquement associée aux théories symboliques.

    **2. Théorie Connexionniste vs. Théorie Symbolique**:
    – **Théorie Connexionniste**:
    Ces modèles, souvent représentés par les réseaux neuronaux, s’inspirent du cerveau humain.
    Ils apprennent à partir de l’expérience en ajustant les connexions entre des unités simples (les neurones artificiels).
    Le traitement est distribué, parallèle et émerge de la somme des interactions locales.
    – **Théorie Symbolique**:
    Cette approche repose sur la manipulation de symboles et de structures symboliques pour résoudre des problèmes.
    Elle utilise des règles explicites et une logique formelle pour représenter la connaissance et pour raisonner.
    C’est une méthode plus traditionnelle et souvent associée à l’IA classique.

    Pour résumer:
    – **IA Bottom-up** et **Théorie Connexionniste** se concentrent sur des éléments de base et leurs interactions pour créer des comportements complexes.
    – **IA Top-down** et **Théorie Symbolique** utilisent des structures et des règles prédéfinies pour guider le comportement du système.

    GPT4 o1

    1. Avatar de ilicitano
      ilicitano

      Combiner les approches top-down et bottom-up dans une IA pourrait offrir des avantages uniques en tirant parti des forces de chacune.
      Voici comment une telle IA pourrait fonctionner, quels seraient les pré-requis, et comment elle se comparerait en termes d’efficacité et de performance :

      ### Fonctionnement d’une IA Hybride

      1. **Niveaux de Systèmes Intégrés**:
      – **Composants de Base** (Bottom-up) :
      Utilisation de réseaux neuronaux pour apprendre à partir de données brutes et générer des comportements complexes émergents.
      – **Structures de Haut Niveau** (Top-down) :
      Implémentation de règles explicites et de logiques formelles pour guider et contraindre les comportements des composants de base.

      2. **Interaction entre Niveaux**:
      – Les composants de base apprennent et adaptent leur comportement en fonction des données.
      – Les structures de haut niveau fournissent un cadre contextuel et des objectifs, aidant à orienter l’apprentissage et à optimiser les performances.

      3. **Adaptation Dynamique**:
      – Capacité de passer de l’une à l’autre approche en fonction du problème à résoudre.
      – Fusion des résultats pour obtenir une solution cohérente et robuste.

      ### Pré-requis pour une IA Hybride

      1. **Infrastructure Technique** :
      – Puissance de calcul élevée pour gérer des réseaux neuronaux complexes et des algorithmes symboliques.
      – Systèmes de stockage avancés pour gérer de grandes quantités de données et de règles.

      2. **Algorithmes Avancés** :
      – Techniques de fusion d’apprentissages supervisés et non supervisés.
      – Mécanismes d’intégration des résultats des deux approches de manière cohérente.

      3. **Flexibilité de Conception** :
      – Capacité à adapter les algorithmes et les structures en fonction des contextes et des besoins.
      – Interfaces permettant une communication fluide entre les composants bottom-up et top-down.

      ### Efficacité et Performance

      – **Robustesse** :
      L’IA hybride pourrait être plus résiliente et capable de gérer une plus grande variété de problèmes en combinant les forces des deux approches.
      – **Précision** :
      Les structures top-down pourraient améliorer la précision en fournissant :
      * des contraintes et
      * des guidances supplémentaires,
      tandis que les composants bottom-up apporteraient :
      * une adaptabilité et
      * une capacité d’apprentissage dynamique.
      – **Flexibilité** :
      Cette approche permettrait de passer d’une stratégie à l’autre selon les exigences de la tâche, optimisant ainsi l’efficacité générale.
      – **Complexité** :
      Cependant, la conception et la mise en œuvre d’une IA hybride seraient plus complexes et nécessiteraient des efforts importants en termes de développement et de ressources.

      En comparaison, une IA uniquement top-down pourrait être limitée dans son adaptabilité et sa capacité à gérer des situations non prévues,
      tandis qu’une IA uniquement bottom-up pourrait manquer de la structure et de la direction nécessaires pour certaines tâches complexes.
      Une IA hybride vise à maximiser les avantages des deux, offrant un modèle plus équilibré et performant.

      GPT4 o1

    2. Avatar de BasicRabbit en autopsy
      BasicRabbit en autopsy

      @ilicitano (et GPT4o)

      C’est à mon avis une très bonne idée d’opposer les IA bottom-up et top-down, et un très bon choix que l’appellation d’IA hybride.

      Il faut, toujours à mon avis, se placer dans le cadre général de l’opposition local/global et aussi dans un cadre dynamique : passage du local au global et passage du global au local.

      Il s’agit de conflits à deux actants. Si l’on suit la méthodologie catastrophique de Thom, il faut s’identifier à l’un d’entre eux (car l’intelligence est pour lui la faculté de s’identifier à autre chose, à autrui) et distinguer entre conflit doux et conflit dur*.

      Puisque la méthodologie thomienne propose de s’identifier à l’un des actants, j’identifie la part féminine de mon « moi » au bottom-up et ma part masculine au top-down.

      Il ne faut pas hésiter à tenter des analogies avec d’autres situations mieux connues. Je pense à l’organisation des sociétés : pour moi c’est top-down/masculin, bottom-up/féminin.

      C’est un puissant moyen d’investigation métaphysique. Ce n’est pas moi qui le dis, c’est mon gourou :

      « C’est Konrad Lorentz qui dans son discours Nobel a énoncé la formule : « Toute analogie est vraie ». Je crois la formule aventurée : il faut la munir d’un addendum : Toute analogie, dans la mesure où elle est sémantiquement
      acceptable, est vraie. Ainsi, dans ce domaine de l’analogie, le sentiment d’acceptabilité sémantique entraîne sa propre vérité. C’est là un puissant moyen d’investigation métaphysique (la métaphysique étant entendue ici en son sens technique : science des êtres en tant qu’êtres…).

      On voit sur cet exemple qu’il y a un antagonisme entre les deux approches bottom-up et top-down. S’agit-il d’un conflit dur ou d’un conflit doux (i.e. y a-t-il une part agonique, condition sine qua non à la possibilité d’une IA hybride) ?

      http://www.afscet.asso.fr/Ande14/agoantagonismeComplexiteJdeG.pdf (p.5)

      * : Exemple typique de conflit doux le conflit entre les couleurs -disons- bleue et rouge, on passe doucement ( continûment) d’un actant à l’autre en passant par toues les nuances de violet.
      Exemple typique de conflit dur : le conflit on/off, on passe abruptement d’un actant à l’autre.
      On peut apaiser un conflit dur, abrupt, par lissage : typiquement introduction d’un potentiomètre qui permet de passer continûment d’un lampe éteinte à une lampe allumée.

  8. Avatar de ilicitano
    ilicitano

    Le Nouvel an chinois, ou Nouvel an lunaire, débute ce mercredi 29 janvier.
    De nombreuses festivités vont avoir lieu partout dans le monde durant ces deux semaines synonymes de renouveau.
    On va passer à cette occasion de l’année du Dragon de Bois à celle du Serpent de Bois.

    Pour l’IA chinoise c’est la fête.

    Alibaba annonce Qwen2.5-VL ou Qwen2.5-Max

    La bataille de l’IA s’intensifie :
    Alibaba affirme que Qwen 2.5 Max surpasse Meta et DeepSeek dans les benchmarks

    https://www.livemint.com/ai/ai-battle-heats-up-alibaba-claims-qwen-2-5-max-outperforms-meta-and-deepseek-in-benchmarks-11738156194957.html

    *****
    https://qwenlm.github.io/blog/qwen2.5-max/

    Performance
    Nous évaluons Qwen2.5-Max aux côtés de modèles de premier plan, qu’ils soient propriétaires ou à poids ouvert, sur une gamme de benchmarks qui présentent un intérêt significatif pour la communauté.
    Il s’agit notamment de MMLU-Pro, qui teste les connaissances par le biais de problèmes de niveau universitaire, LiveCodeBench, qui évalue les capacités de codage, LiveBench, qui teste de manière exhaustive les capacités générales, et Arena-Hard, qui se rapproche des préférences humaines.
    Nos résultats incluent les scores de performance des modèles de base et des modèles d’instruction.

    Nous commençons par comparer directement les performances des modèles instruct, qui peuvent servir pour des applications en aval telles que le chat et le codage.
    Nous présentons les résultats de performance de Qwen2.5-Max aux côtés de modèles de pointe, notamment DeepSeek V3, GPT-4o et Claude-3.5-Sonnet.

    Qwen2.5-Max surpasse DeepSeek V3 dans des benchmarks tels que Arena-Hard, LiveBench, LiveCodeBench et GPQA-Diamond, tout en démontrant des résultats compétitifs dans d’autres évaluations, y compris MMLU-Pro.

    Lorsque l’on compare les modèles de base, on ne peut pas accéder aux modèles propriétaires tels que GPT-4o et Claude-3.5-Sonnet.
    Par conséquent, nous évaluons Qwen2.5-Max par rapport à DeepSeek V3, un modèle MoE open weight de premier plan, Llama-3.1-405B, le plus grand modèle dense open weight, et Qwen2.5-72B, qui figure également parmi les meilleurs modèles denses open weight.

    Maintenant, Qwen2.5-Max est disponible dans Qwen Chat, et vous pouvez discuter directement avec le modèle, ou jouer avec les artefacts, la recherche, etc

    ******
    Pour info , il y a d’autres émetteurs d’IA en Chine comme Tencent , Baidu,… , dans un monde asiatique où la concurrence est féroce.

  9. Avatar de Jacques Racine
    Jacques Racine

    Moi: En termes de « knowlege distillation » est-ce que Deepseek a utilisé « chat-gpt » ou d’autres llms de la « silicon valley » pour se former?
    Copilot: Oui, il semble que DeepSeek ait effectivement utilisé la distillation des connaissances avec des modèles comme ChatGPT pour entraîner ses propres modèles[…](https://lesnews.ca/intelligence-artificielle/chatgpt/deepseek-ai-a-utilise-la-distillation-de-chatgpt-pour-son-entrainement-affirme-openai/?citationMarker=43dcd9a7-70db-4a1f-b0ae-981daa162054 « 1 »). Selon OpenAI, ils ont trouvé des preuves indiquant que DeepSeek a utilisé cette technique pour former ses modèles, ce qui pourrait poser des problèmes de propriété intellectuelle[…](https://bgr.com/tech/openai-says-it-has-evidence-deepseek-used-chatgpt-to-train-its-ai/?citationMarker=43dcd9a7-70db-4a1f-b0ae-981daa162054 « 2 »).

    C’est un sujet assez controversé, car cela soulève des questions sur l’utilisation éthique et légale des modèles d’IA développés par d’autres entreprises[…](https://bgr.com/tech/openai-says-it-has-evidence-deepseek-used-chatgpt-to-train-its-ai/?citationMarker=43dcd9a7-70db-4a1f-b0ae-981daa162054 « 2 »). […]
    ***
    Couper court aux IAs « teachers » arrêterait l’innovation du « knowlege distillation »?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Contact

Contactez Paul Jorion

Commentaires récents

  1. JAPI (« comment orienter les progrès technologiques pour qu’ils profitent réellement à tous ? ») Quelques citations sur la position prise par…

  2. JAPI (« Le message du Pape François au Forum de Davos vient à point nommé ») Arrêtez de vous reproduire comme des…

  3. JAPI* (« L’IA est une opportunité sans précédent pour repenser nos modèles sociaux et économiques. ») Pour moi : « L’IA est l’occasion…

  4. @gaston merci pour cette vidéo que je regarderai plus tard. Je dois encore me plonger dans la newsletter n° 8

Articles récents

Catégories

Archives

Tags

Allemagne Aristote BCE Bourse Brexit capitalisme ChatGPT Chine Confinement Coronavirus Covid-19 dette dette publique Donald Trump Emmanuel Macron Espagne Etats-Unis Europe extinction du genre humain FMI France Grands Modèles de Langage Grèce intelligence artificielle interdiction des paris sur les fluctuations de prix Italie Japon Joe Biden John Maynard Keynes Karl Marx pandémie Portugal psychanalyse robotisation Royaume-Uni Russie réchauffement climatique Réfugiés spéculation Thomas Piketty Ukraine ultralibéralisme Vladimir Poutine zone euro « Le dernier qui s'en va éteint la lumière »

Meta