OpenAI acaba de revelar un avanzado clonador de voces que, aseguran, genera discursos que “suenan naturales, emotivos y realistas”. Para conseguir esos resultados, usan como dato de entrada audios de apenas 15 segundos de duración. La organización estadounidense —por cierto, son los creadores de otros sistemas de IA, como el chatbot ChatGPT y el generador de imágenes DALL-E— dice que esta tecnología ofrecerá beneficios apreciables, por ejemplo en el ámbito de la salud. En la vereda opuesta, se encienden las alarmas por los riegos intrínsecos de los gemelos digitales, cualquiera sea el formato de la copia.
OpenAI Voice Engine: encantos y peligros de los clonadores de voces
Tal como indicamos, el grupo que dirige Sam Altman explicó que el sistema Voice Engine es capaz de imitar una voz partiendo de muestras de solamente 15 segundos. Con esa información acotada, logra generar discursos extensos. Siguiendo el repaso de Engadget, la tecnología se basa en softwares preexistentes, que la organización usa desde 2022. Ahora, el clonador de voces es testeado por un grupo reducido, en forma interna.
¿Qué beneficios ofrecería un clonador de voces? Según OpenAI, emblema en la movida de la inteligencia artificial generativa, las tecnologías con estas capacidades pueden ser útiles para la lectura, la traducción de idiomas y para ayudar a personas que sufren afecciones del habla. En este punto, señalaron que realizaron un programa piloto junto a investigadores de la Universidad de Brown, de Estados Unidos, con la mira puesta en aplicaciones clínicas.
Amén de los beneficios esgrimidos, las voces clonadas traen consigo una serie de problemáticas que merecen atención. En términos resumidos, son los mismos riesgos asociados a las deepfakes, “falsificaciones profundas” en español. Se trata de contenidos —audios, videos y/o imágenes— que son creados con sistemas de IA. No son reales o, más ajustadamente, no ocurrieron en el mundo real. Sin embargo, el alto grado de realismo puede confundir a cualquier espectador, incluso a los más avezados.
Los peligros de las deepfakes ocurren cuando esas tecnologías están en manos de malos actores que apelan a esas tecnologías para desinformar, engañar, difamar, suplantar identidades y abusar de sus avances. Por ejemplo, para crear una imagen trucada en la que una persona aparece desnuda. O —acotándonos al sistema que ahora anuncia OpenAI— para divulgar un audio embaucador. Recientemente, eso ocurrió cuando circuló un supuesto mensaje del presidente estadounidense, Joe Biden, que pedía a los ciudadanos de aquel país que no acudieran a votar.
OpenAI reconoce los riegos de la clonación de voces
En el comunicado que reveló detalles de Voice Engine, la organización experta en IA admite que esta tecnología tiene “graves riesgos, que son especialmente importantes en un año electoral (en EE.UU)”. En ese sentido, comentó que está incorporando comentarios de “socios estadounidenses e internacionales, los medios, el entretenimiento, la educación, la sociedad civil y más” para garantizar que el producto se lance con riesgos mínimos. Así, todos los evaluadores aceptaron las políticas de uso que, entre otros aspectos, prohíben la suplantación de otra persona sin consentimiento o derecho legal.
Preocupaciones de esta especie también fueron admitidas cuando OpenAI presentó su excitante generador de videos con IA denominado Sora. En la ocasión, el grupo explicó que un lanzamiento futuro depende de un completo ajuste de tuercas, para evitar posibles abusos de la tecnología. Una de las soluciones que tienen previstas, también aplicable a Voice Engine, es la obligatoriedad de incluir marcas de agua que expliciten que el contenido fue creado con IA. Además, prevén un monitoreo constante de las creaciones con esos sistemas, además de una lista de voces prohibidas, principalmente compuesta por figuras reconocidas mundialmente.
Otras compañías tecnológicas, entre ellas ByteDace —dueño de TikTok— y Meta —patrón de Facebook e Instagram— también desarrollan clonadores de voces.
Voice Engine de OpenAI: ¿cuándo se lanzará?
De acuerdo a TechCrunch, la organización no informó cuándo se ofrecerá el clonador de voces a nivel general. Cuando eso ocurra, la tecnología no será gratuita. La fuente dice que la suscripción será de 15 dólares por cada millón de caracteres convertidos en audio, la extensión aproximada de una novela.
En relación con ese ejemplo, emerge otra de las problemáticas y temores que ha generado el despliegue de la nueva IA: que estos avances se queden con el trabajo de las personas. En este caso, es evidente que 15 dólares es una suma tentadora para las compañías que comercializan audiolibros, que ya no pagarán a locutores humanos.