Funciones de la nueva IA, Gemini, de la empresa Google

Vamos a explicaret qué es Google Gemini, el nuevo modelo de inteligencia artificial creado por la empresa del buscador. Vamos a hacerlo explicándote sus principales características de una manera que sea fácil de entender, y que así puedas comprender por qué es un lanzamiento tan importante.

Vamos a empezar explicándote qué es concretamente Gemini, y te diremos también cómo funciona por dentro. Para que puedas entenderlo, también vamos a compararlo con GPT, el modelo que utilizan ChatGPT, ChatGPT Plus y Bing Chat, y terminaremos diciéndote lo que sabemos sobre cuándo llegará.

Gemini es un modelo de inteligencia artificial creado por Google, y que busca liderar el competitivo mercado de la inteligencia artificial. Los modelos de inteligencia artificial no son las aplicaciones o chatbots como Google Bard, sino que son la tecnología con la que estos funcinan.

De hecho, Gemini quiere ser el sucesor de PaLM, que es el modelo de inteligencia artificial que actualmente utiliza Bard. El plan es que poco a poco PaLM vaya siendo reemplazado por Gemini dentro de Bard, por lo que aunque utilicemos el mismo bot de IA, las respuestas que nos de serán mucho mejores.

A la hora de presentarse, Gemini ha destacado por superar a todos sus rivales en los principales tests. Esto quiere decir que Google ha conseguido adelantar a OpenAI y su GPT-4, aunque tarde o temprano también llegará una nueva versión de este modelo que también lo supere.

Gemini es un modelo multimodal, que va a poder entender varios tipos de información, tanto los textos que le escribas como las imágenes, y también podrá entender audio y código de programación. Esto lo va a convertir en un modelo extremadamente flexible.

Cómo funciona Google Gemini

Los modelos de inteligencia artificial son entrenados de forma intensiva con una gran cantidad de datos. Se recopilan datos de todo Internet, y se le dan a los algoritmos de entrenamiento para que este sistema de lenguaje aprenda a entender las cosas que le digamos, tenga dentro de sí mismo la información con las respuestas, y consiga generar respuestas escritas que sean naturales.

En el caso de Gemini en concreto, Gemini ha sido diseñado desde cero por Google. Desde el principio ha sido creado como un modelo multimodal. Esto quiere decir que no se le ha entrenado para entender una fuente como el texto, y luego se le enseña a transformar otras fuentes a esta primera. Su entrenamiento ha sido distinto.

Este modelo se ha entrenado ya desde el principio para combinar distintas modalidades de forma nativa. Esto quiere decir que podrá entender tanto un texto como un dibujo que le hagamos en tiempo real. Según la empresa del buscador, también es capaz de relacionar objetos en tiempo real y sugerir canciones a medida que le damos indicaciones.

Gemini también introduce nuevo sistema de generación de código llamado AlphaCode2. Este sistema mejora la comprensión de matemáticas complejas y la teórica de ciencias de la computación. También se ha mejorado el razonamiento y su capacidad de entender código, de forma que haya menos “alucinaciones” y las respuestas sean más fiables.

Diferencias con GPT

Gemini tiene tres versiones diferentes: Ultra, Pro y Nano. Gemini Ultra es la más avanzada y multimodal, la segunda es más limitada en capacidades y fyunciones, y la versión Nano está enfocada a dispositivos con menos capacidades de computación y memoria, y así poder funcionar en teléfonos móviles.

Aunque parezca la menos potente, Gemini Nano es una de las mayores revoluciones, ya que podrá ser utilizada como una IA que se implementa directamente dentro del dispositivo. Esto quiere decir que no tendrás que usar una app que se conecte a un servidor de la IA como pasa con la de ChatGPT, sino que la IA podrá venir directamente en tu móvil y no necesitar conexión.

Para poder endender su capacidad, se puede comparar con el GPT de OpenAI. Para empezar, Gemini Ultra es el competidor de GPT-4, y supera a este otro lenguaje de IA en las pruebas actuales. Mientras Gemini Pro es el competidor de GPT 3.5, que es el que encontramos en ChatGPT gratuito. Por último, de momento Gemini Nano no se puede comparar con ningún producto de OpenAI.

Otra de las cosas que debemos diferenciar es que Gemini es multimodal y GPT no. Esto quiere decir que de forma nativa o “de fábrica” podrá entender fotos, audios, texto y más tipos de entrada sin tener que buscar implementar ningún tipo de complemento.