Google lanza Gemini, inteligencia artificial capaz de razonar de forma más sofisticada

Compartí esta nota

Google presentó este miércoles su modelo de inteligencia artificial más avanzado. Se llama Gemini y es capaz de razonar de manera más sofisticada y comprender información con un mayor grado de matices que la tecnología anterior de la compañía. Con este nuevo desarrollo, la compañía quiere plantar cara a OpenAI, creadora del popular ChatGPT, y al gran socio de esta, Microsoft.

El gigante tecnológico destacó la “multimodalidad” de Gemini, pues es capaz de “razonar con fluidez mediante textos, imágenes, vídeo, audio y códigos”, a través de lo que se conoce como el modelo MMLU, siglas en inglés para la “comprensión masiva de lenguaje multitarea”. Google remarcó que Gemini es el primer modelo de IA que supera a los expertos humanos en determinadas tareas y dijo que su tecnología bate a GPT-4 de OpenAI en prácticamente todas las pruebas que se realizan para analizar las capacidades de esto modelos para dar vida a las IA.

El desarrollo de Gemini ha estado liderado por el equipo de DeepMind y por Google Research y está preparado para funcionar en cualquier dispositivo, desde un smartphone hasta un centro de datos. La primera versión de Gemini (1.0) llegará en tres tamaños diferentes: Nano, la más sencilla, en forma de aplicación para poder ejecutar tareas en dispositivos móviles, Pro (idóneo para escalar en una amplia gama de tareas) y Ultra, “la más potente”, diseñada para ejecutarse en centros de datos y “para tareas de gran complejidad”.

“Esta nueva era de modelos representa uno de los mayores esfuerzos de ciencia e ingeniería que hemos emprendido como empresa”, aseguró en su blog el CEO de Alphabet, Sundar Pichaig. Desde el lanzamiento de ChatGPT de OpenAI hace aproximadamente un año, Google ha estado compitiendo para producir software de inteligencia artificial que rivalice con lo que ha introducido la compañía respaldada por Microsoft.

Gemini es el modelo de IA más grande que la unidad Google DeepMind AI de la compañía ha ayudado a crear, pero es “significativamente” más barato de servir a los usuarios que los modelos anteriores más grandes de la empresa, aseguró a los periodistas el vicepresidente de Producto de DeepMind, Eli Collins. “Así que no sólo es más capaz, sino también mucho más eficiente”, remarcó.

Google explicó que Gemini puede recibir información visual o auditiva (notas de música, imágenes, palabras) y desde ahí generar contenido propio, que a su vez puede ser en versión texto, audio o imágenes. Durante la presentación, la compañía indicó que su nuevo modelo de IA es capaz de detectar errores en un problema matemático complejo, dar la respuesta correcta y explicar los pasos hasta llegar a ella. También puede dar abundante información sobre un animal (un pato, por ejemplo) a través de un simple dibujo, incluyendo la traducción de “pato” a cinco lenguas.

Esta primera versión de Gemini puede comprender, explicar y generar código de alta calidad en los lenguajes de programación más habituales, como Java, Python, C++ y Go. Asimismo, se puede utilizar como motor para sistemas de codifigación como AlphaCode 2, que destaca en la resolución de problemas de programación que van más allá de la codificación e involucran matemáticas complejas e informática teórica.

El gigante tecnológico no ha dicho cómo piensa monetizar la nueva herramienta y, por el momento, se ha limitado a anunciar que estará disponible a partir del 13 de diciembre. Los consumidores ya pueden probar Gemini a través de Bard, el chatbot de la compañía, en 170 regiones, pero solo en inglés. De momento, quedan fuera los países de la UE, ya que la compañía quiere asegurarse de que cumple con la regulación comunitaria. Barde utilizará una versión mejorada de Gemini Pro para un razonamiento, planificación y comprensión más avanzados.

Asimismo, esta tecnología llegará a Pixel (el smartphone de Google) con la versión Gemini Nano, para impulsar funciones como la de “Resumir” en la aplicación Grabadora. Y, en los próximos meses, estará disponible en servicios de Google como Búsqueda, Anuncios, Chrome y Duet AI y también se está probando para que la Experiencia Generativa de Búsqueda (SGE) sea más rápida para los usuarios.

En cuanto a Gemini Ultra, la compañía explicó que está completando “exhaustivas comprobaciones de confianza y seguridad”.

Alphabet también anunció una nueva generación de sus chips de IA personalizados, o unidades de procesamiento de tensores (TPU). El Cloud TPU v5p está diseñado para entrenar grandes modelos de IA y está integrado en módulos de 8.960 chips. La nueva versión de los procesadores de sus clientes puede entrenar modelos de lenguaje grandes casi tres veces más rápido que las generaciones anteriores. Los nuevos chips estarán disponibles para los desarrolladores a partir del miércoles, dijo la compañía.