Illustration par DALL·E (+PJ)
L’opportunité offerte par Wikipédia de faire des copiés-collés avait déjà passablement remis en cause la capacité à évaluer les connaissances. Pour contrer cette nouvelle pratique, des logiciels furent rapidement développés qui la rendaient détectable. De même, des logiciels sont vite apparus qui annonçaient pouvoir déceler la patte d’un Grand Modèle de Langage (LLM) dans un texte. Las ! ces logiciels confondent dans leurs tentatives de détection de la supercherie, les productions des LLM avec celles d’auteurs dont la langue dans laquelle ils rédigent n’est pas leur langue maternelle. Parallèlement, l’élève astucieux a rapidement découvert qu’il pouvait aisément brouiller les pistes en demandant à la machine de moduler sa production selon son vœu, par exemple « dans le style d’un lycéen pas très sûr de lui ».
Voici, à l’intention des sceptiques, ce qui s’obtient alors de GPT-4 :
« Bon, donc, y a des logiciels qui sont sortis et qui prétendent qu’ils peuvent repérer quand c’est un LLM, qui a écrit un truc. Mais, euh, en fait, ces logiciels se plantent un peu. Ils confondent ce que les LLM écrivent avec le style des gens qui écrivent pas dans leur langue maternelle. C’est un peu gênant, non ? Et puis, y a des élèves, ils sont plutôt malins. Ils ont capté qu’ils pouvaient demander à la machine de faire genre elle écrit de manière cool, ou comme un lycéen qui n’est pas trop sûr de lui. Comme ça, c’est encore plus dur de savoir si c’est un humain ou un LLM qui a écrit ! ».
Laisser un commentaire