Nesta quarta (6.dez), o Google lançou o Gemini, seu novo grande modelo de linguagem (LLM, na sigla em inglês), rival do GTP-4 da OpenAI.
O QUE HOUVE? No blog da companhia, Sundar Pichai, CEO do Google, descreveu o Gemini como:
Nosso modelo mais capaz e generalista, com desempenho de última geração em muitos benchmarks líderes de mercado.
O Gemini 1.0 foi otimizado para três tamanhos:
- Nano, o menor e menos preciso, pensado para rodar localmente em dispositivos como celulares;
- Pro, um meio-termo entre velocidade e complexidade; e
- Ultra, o maior modelo, o mais capaz, para as tarefas mais complexas.
O Gemini foi concebido desde o início para ser multi-modal, ou seja, lidar com texto, imagens, vídeos e áudios ao mesmo tempo. Este vídeo demonstra bem tal característica (note, porém, que a latência e algumas interações foram encurtados na edição):
DESEMPENHO. O Google afirma que o Gemini Ultra supera o GPT-4 da OpenAI na maioria dos benchmarks.
E que também supera seres humanos no MMLU, um teste padronizado que usa uma combinação de assuntos, que vão da matemática à medicina, a fim de testar o conhecimento geral e as habilidades para resolver problemas.
DISPONIBILIDADE. O Gemini Pro já está disponível no Bard, o chatbot do Google, apenas no idioma inglês, em 170 países — o Brasil está entre eles.
O Gemini Nano já desembarcou no Pixel 8 Pro, o celular topo de linha do Google. Ali, o LLM assume tarefas como resumir gravações no app correspondente e sugerir respostas no Gboard em apps de mensagens, começando pelo WhatsApp.
No futuro, o Gemini chegará à busca e a outros produtos do Google, como Chrome, anúncios e Duet AI.
O Gemini Ultra ainda está passando por “extensas verificações de segurança e confiança”. Seu lançamento está previsto para o início de 2024, em uma versão mais parruda do Bard chamada Bard Advanced.
Via Blog do Google (em inglês).