Tal como analizamos en ChatGPT desafía a la docencia, el creciente empleo de sistemas de inteligencia artificial generativa trajo consigo beneficios a la hora de crear contenido y, en paralelo, una serie de aspectos que generan preocupación y deben ser atendidos. Uno de los inconvenientes que ha surgido es la dificultad para distinguir fehacientemente el contenido real —creado por humanos— del sintético. El caso de los textos es particularmente acuciante.
La polémica bulle especialmente en los ámbitos académicos, en los que se registran numerosísimos casos de estudiantes que entregan trabajos íntegramente escritos por modelos como ChatGPT de OpenAI o Gemini de Google. Ocurre que esas herramientas son realmente eficaces para la redacción: el usuario anota una serie de instrucciones, y los programas revisan sus bases de datos para, en pocos segundos, crear textos extensos.
En el contenido audiovisual, por ejemplo en imágenes y videos, la elucidación podría ser más sencilla. Por caso, algunos desarrolladores han comenzado a incluir marcas de agua para mostrar sin rodeos cuándo se trata de una creación sintética. En los escritos, la identificación encierra mayores complejidades. En este marco, ¿hay modos eficientes de identificar si un texto fue escrito por ChatGPT y afines?
Un investigador revela el secreto para delatar a los textos generados con ChatGPT
A poco del lanzamiento general de su chatbot, OpenAI lanzó una herramienta que prometía identificar los escritos creados con esa herramienta. Más tarde, se supo que ni siquiera esa solución resultó eficiente, en la mayoría de los casos. Frente a tal escenario, el discernimiento humano sigue siendo la variable fundamental.
A esa dirección apuntó un investigador especializado en ciencia de datos, Fareed Khan, que en una entrada de blog en Medium comprobó cuáles son las palabras que más usa ChatGPT en los textos que genera. Así, funcionan como pistas para buchonear a los escritos generados con el chatbot de OpenAI.
Para esto, Khan insertó en una base de datos miles de textos publicados en blogs y reunió 19.000 millones de palabras. Uno de los ejemplos que usó es el término “delve” (“ahondar” en español), que en 2010 apenas se usó y se multiplicó exponencialmente desde la aparición de ChatGPT. En tanto, aquella es una de las palabras “favoritas” del modelo GPT y una pista que delata a los escritos con ese sistema. Otros términos como “unmavering” (“inquebrantable”), “pivotal” (“esencial”) “nanscent” (“naciente”) y “intricacies” (“complejidades”) también se repiten con gran frecuencia en la actualidad.
Los interesados pueden revisar el informe de Khan, en el que se listan 100 palabras tan habituales en los discursos de ChatGPT, que podrían servir como huellas para la detección de textos sintéticos.