Google lanza al mercado su particular apuesta para intentar dominar el panorama de la inteligencia artificial: Gemini, un nuevo modelo que promete superar el lenguaje GPT4 que rige OpenAI, un motor que utilizan otros servicios como Chat GPT para generar repuestas a las preguntas de todos sus usuarios. La compañía destaca, entre otras muchas características, la multimodalidad de su apuesta, al ser capaz de "razonar con fluidez mediante textos, imágenes, vídeo, audio y códigos" a través de una nueva forma de codificación: el modelo MMLU (comprensión masiva del lenguaje multitarea).
Cada cambio tecnológico abre una oportunidad para avanzar en el conocimiento científico, acelerar el progreso humano y mejorar la vida de las personas. O eso piensa, al menos, la ciencia. Con la IA (inteligencia artificial) está pasando algo similar: en apenas un par de años ha pasado de la nada, apenas conocido por un panel muy pequeño de expertos, a ser pieza clave del avance tecnológico y del futuro. Así lo reconocen también los directores ejecutivos de estas herramientas: la transición de la IA será la más profunda de todas, mucho más que la aparición de los teléfonos móviles o Internet.
De razones no escasea. La IA tiene potencial suficiente para crear oportunidades en todo el mundo. Hará posible nuevas oleadas de innovación y progreso económico, impulsará el conocimiento, el aprendizaje, la creatividad y la productividad a escala desconocida y servirá de base para infinidad de estudios y técnicas complejas. Ese toque futurista hace que se disocie de la realidad, pero no se trata de algo incomprensible; todo lo contrario. La extensa práctica y el desarrollo de la IA lleva en marcha varios años y su panorama está más que consolidado con herramientas como Chat GPT, sin duda uno de los nombres propios en esta particular carrera tecnológica.
En esa lucha también aspira estar Google, quien ha anunciado en las últimas horas el lanzamiento de la primera versión de su potencial propuesta. "Su modelo de inteligencia artificial (IA) más grande y capaz hasta la fecha". Así ha presentado la multinacional a Gemini, una IA multimodal, flexible y disponible en tres tamaños que puede ejecutarse casi en cualquier parte y en cualquier dispositivo móvil.
Así es Gemini, la apuesta de Google
Según explicó la compañía por medio de un comunicado firmado por su consejero delegado Sundar Pichai y por Demis Hassabis, director ejecutivo y cofundador de Google DeepMind, Gemini es el resultado de un trabajo colaborativo de diferentes equipos de la compañía, como Google Research. Además, tal y como apuntan en el discurso adjunto, es un modelo que inicia "una nueva era en el desarrollo de la inteligencia artificial" y "representa, por lo tanto, uno de los mayores esfuerzos de ciencia e ingeniería de Google".
No obstante, Google ya anunció Gemini el pasado mes de mayo durante la conferencia de desarrolladores Google IO. La intención original era lanzarlo antes de finales de año, pero en las últimas semanas varios rumores apuntaban a un posible retraso debido a problemas en la compresión del modelo cuando se usaban idiomas diferentes al inglés en las preguntas. Finalmente, Google ha cumplido con el calendario previsto, pero de cierta manera. En el mercado ya se encuentra la versión 1.0 de Gemini, pero únicamente de forma conversacional con Bard (un redactor de texto con IA que ayuda a los programadores y desarrolladores web) y en sus modelos Pixel 8.
De ahí que su principal objetivo sea impulsar la marca lo máximo posible en 2024. De momento, la herramienta introduce en los teléfonos de Google nuevas funciones como, por ejemplo, resumir en la grabadora o respuesta inteligente en el teclado Gboard. Además, Gemini adelantó que en los próximos meses estará disponible en otros productos y servicios de la tecnológica, como el buscador, los anuncios, el navegador Chrome o Duet AI (un potente colaborador de IA que ayuda a todos los usuarios cuando lo necesitan).
Esta primera versión del modelo, Gemini 1.0, llega en tres tamaños diferentes. El más potente y de mayor tamaño de todos será Ultra, ideal, tal y como apunta el anuncio, para tareas de gran complejidad. Esta es la que ha conseguido superar a GPT4 en varias de las pruebas comparativas realizadas. Pro será una versión algo menos capaz pero requiere de menos potencia para generar las respuestas, por lo que será útil para escalar en una amplia gama de tareas; un modelo diseñado como competencia directa de GPT 3.5, la versión gratuita de Chat GPT. Por último, Nano será la versión más pequeña de Gemini, diseñada para ejecutar tareas en un dispositivo móvil.
Hassabis apunta, por su parte, que Gemini se ha construido desde cero para ser multimodal de forma nativa, lo que quiere decir que puede comprender, operar y combinar sin problemas distintos tipos de información en todos los idiomas y formatos, incluidos textos, códigos, audios, imágenes o incluso vídeos.
Además, la nueva herramienta de Google puede extraer todo tipo de conocimientos entre grandes cantidades de datos y obtener así conclusiones a partir de infinitos documentos. "Nuestro nuevo enfoque de referencia del MMLU (comprensión masiva del lenguaje multitarea) permite a Gemini utilizar capacidades de razonamiento para pensar antes de responder a preguntas difíciles, lo que se traduce en mejoras significativas", añade el director ejecutivo.
La forma en la que estas herramientas están diseñadas, no obstante, puede derivar en problemas en tareas algo más complejas. Para evitar este tipo de accidentes, Google ha implementado amplios recursos y técnicas. "Hemos construidos varios mecanismos de protección y trabajamos en colaboración con gobiernos y expertos para abordar los riesgos que surgen a medida que las inteligencias artificiales se vuelven más capaces", explica Pichai.