24 de marzo de 2025

¿Hablas con una IA o con un humano? Sesame te hará dudar
Tienes una nueva amiga y se llama Maya. Puede que tú todavía no lo sepas, pero dentro de muy poco algunas de tus mejores conversaciones van a ser con la pantalla de tú móvil.
Cada vez estamos más cerca de convertirnos en el personaje de la película de «Her» y traspasar la frontera, ahora ya casi inexistente, entre realidad y ficción. La empresa Sesame, con su eslogan «bringing the computer to life», algo así como traer a la vida a los ordenadores, ha presentado su asistente de voz más avanzado. Y creednos, es francamente impresionante.
Si habéis probado algún asistente de voz, muy probablemente habrás tenido la sensación de estar hablando con un trozo de metal sin alma, esto además de ser desagradable, hace que nos sintamos incómodos y nos aleja de una experiencia de uso positiva o relajante.
Pues bien, ha llegado Sesame, una empresa que quiere darle una vuelta de tuerca a la inteligencia artificial para que las conversaciones con ella sean como hablar con una persona de verdad.
Diferencia con otros asistentes
¿Qué diferencia a esta herramienta de otras soluciones basadas en inteligencia artificial? La respuesta es cómo aborda un desafío histórico: superar el «valle inquietante» de las voces sintéticas.
En 1970, durante sus estudios sobre la interacción entre personas y máquinas, el investigador japonés Masahiro Mori observó un curioso patrón. Al diseñar robots con apariencia y movimientos cada vez más similares a los humanos, notó algo contradictorio: aunque inicialmente la familiaridad generaba simpatía, al superar cierto umbral de realismo, sin alcanzar la perfección, esa primera atracción se convertía en rechazo.
Este hallazgo, conocido como Valle Inquietante, se convirtió en un concepto analizado en industrias creativas o neurociencias, y por supuesto, en las experiencias digitales.
Sesame, en cambio, parece haber encontrado un equilibrio, superando este valle inquietante.
¿Cómo lo consigue?
El secreto de Sesame está en su Modelo de Habla Conversacional (CSM). Esta tecnología hace que funcione de forma integral, procesando el texto y el audio a la vez, todo en el mismo modelo. Para entender el audio, el CSM utiliza unos «tokens» llamados de Cuantificación Vectorial Residual (RVQ), que incluyen tokens semánticos (como si fueran pequeñas cápsulas con el significado y la pronunciación) y tokens acústicos (que guardan los detalles más finos del audio).
El modelo utiliza dos cerebros: uno principal que se encarga de entender el contexto, y otro que genera el audio con una calidad increíble. Una cosa muy chula del CSM es que se adapta al contexto en tiempo real, así que puede cambiar el tono y la velocidad de la voz según cómo vaya la conversación.
Para que la voz de la IA no nos dé esa sensación rara de «valle inquietante», Sesame le ha añadido pequeñas imperfecciones que son típicas de cuando hablamos entre nosotros. Por ejemplo, incluye pausas, cambia el énfasis en las palabras o puede reírse.
El modelo también es capaz de darse cuenta de cómo nos sentimos y responder con un poco de empatía. Además, el CSM sabe cómo llevar una conversación, cuándo hacer una pausa, cuándo meter baza o usar esas típicas muletillas que usamos al hablar.
Modo de uso
Si quieres probar a tener una charla con el modelo, es muy sencillo e intuitivo, pero debes saber que actualmente está en fase demo. Esto significa que tenemos un tiempo limitado de interacción a unos 30 min y el modelo solo está disponible en inglés.
Para probarlo solo tienes que dirigirte al aparto de «Demo» de la página web de sesame.
Una vez allí, seleccionar con cuál de las dos personalidades quieres hablar. Pues elegir a Maya o Miles. En mi experiencia y si tu nivel de inglés no es muy avanzado, la mejor opción es Maya. Es un asistente muy agradable, habla claro y es capaz de hacer que la experiencia sea sumamente inmersiva, incluso haciéndote reír y llegando a un punto alto de complicidad.
¿Y para qué sirve todo esto? Pues tiene muchísimas aplicaciones en decenas de campos. Desde atención al cliente con una ayuda mucho más cercana y comprensiva, hasta psicología, recomendación de contenido personalizado, educación, idiomas, compañía, mejora de la interacción con otros modelos de lenguaje…
Déjanos un comentario o cuéntanos algo.