O Google anunciou hoje, 6 de dezembro, o seu mais recente avanço em inteligência artificial com a introdução do Gemini, um modelo revolucionário que vai além da compreensão baseada em texto para entender fotos e vídeos. A principal novidade é a integração do Bard com o Gemini, que promete trazer recursos mais avançados de raciocínio, planejamento, compreensão e outras capacidades para o chatbot.
O Gemini marca uma mudança significativa em relação aos modelos tradicionais de IA, que se concentravam principalmente na comunicação baseada em texto. Ao contrário dos seus antecessores, o Gemini introduz suporte nativo para vídeo, áudio e fotos, permitindo que o chatbot de IA Bard do Google compreenda e responda a informações mais ricas.
Embora o lançamento inicial forneça capacidades avançadas de chat baseado em texto, o potencial completo da compreensão multimídia é esperado em breve.
As melhorias tornarão o Bard mais capaz em termos de compreensão e resumo de conteúdo, raciocínio, brainstorming, escrita e planejamento, destaca a empresa.
Os planos do Google
Inicialmente, o Gemini Pro alimentará prompts baseados em texto no Bard, mas a previsão é expandir para suporte multimodal — ou seja, textos e imagens, ou outras modalidades — nos próximos meses.
Em 2024, está programada a estreia do Bard Advanced, proporcionando uma nova experiência alimentada pelo modelo mais capaz do Gemini, o Ultra. Com o Gemini Ultra, a IA pode compreender e agir com diferentes tipos de informações, incluindo texto, imagens, áudio, vídeo e código, além de possuir capacidades de raciocínio multimodal.
O Google destaca que o Gemini Ultra pode também compreender, explicar e gerar código de alta qualidade em linguagens de programação populares, além de entender conteúdo de áudio e vídeo. Essa atualização parece ser a mais aguardada.
A empresa também anunciou um programa de testadores para o Bard Advanced antes de abri-lo mais amplamente aos usuários no início do próximo ano. Além disso, a empresa realizará verificações de segurança adicionais antes do lançamento do Bard Advanced.
Essa atualização sucede uma série de aprimoramentos anteriores no Bard, desde seu lançamento há apenas oito meses. Nos últimos meses, a experiência de IA foi melhorada com recursos como a capacidade de responder a perguntas sobre vídeos do YouTube, bem como acessar os aplicativos Google dos usuários, como Gmail, Docs, Drive e muito mais, além de outros serviços Google, como Google Flights e hotéis.
O Bard também pode verificar suas respostas para ajudar a determinar se a IA está “alucinando”, isto é, fornecendo uma resposta com base em informações falsas.
Estamos abordando este trabalho de forma ousada e responsável. Isso significa ser ambicioso em nossa pesquisa e buscar as capacidades que trarão enormes benefícios para as pessoas e a sociedade, ao mesmo tempo em que incorporamos salvaguardas e colaboramos com governos e especialistas para lidar com os riscos à medida que a IA se torna mais capaz. E continuamos investindo nas melhores ferramentas, modelos fundamentais e infraestrutura, integrando-os aos nossos produtos e aos de outros, seguindo nossos Princípios de IA.
Sundar Pichai, CEO do Google, em post de blog