Gems, Imagen 3 e Gemini Live

Compartilhe esta postagem

Na I/O 2024, a Google apresentou novas funções para a sua plataforma de IA Gemini, que estão agora a ficar gradualmente disponíveis. Com o GEMS, um sistema de assistentes de IA baseado em tópicos, e o Imagen 3, um gerador de imagens avançado, a Google está a mostrar como a inteligência artificial pode ser utilizada de forma personalizada e eticamente responsável. Neste artigo, analisamos em pormenor as novas funções, os seus domínios de aplicação e os desafios associados.

GEMS: chatbots de IA orientados para as necessidades individuais

Os GEMS são versões especiais do assistente de IA Gemini. Permitem que os utilizadores criem especialistas para tópicos ou tarefas específicas, adaptados exatamente às suas necessidades. O próprio utilizador pode definir estes chatbots personalizados e eles lembram-se do que já foi falado e em que contexto. Isto permite-lhes apoiar o utilizador em tarefas recorrentes. O conceito é muito semelhante ao dos projectos GPT da Open AI e Anthropic.

O GEMS está disponível para os utilizadores Gemini que utilizam as versões Advanced, Business ou Enterprise. Os utilizadores podem definir especificações, por exemplo, objectivos, regras de comportamento e finalidades da aplicação. Existem também algumas Gemas prontas para o ajudar a começar - por exemplo, como auxiliar de aprendizagem, parceiro criativo, conselheiro de carreira, assistente de escrita ou parceiro de codificação. Estas Gemas prontas podem ser utilizadas diretamente e facilitam a familiarização com os assistentes de IA baseados em tópicos.

Imagen 3: Geração avançada de imagens com suporte de IA

O Imagen 3 marca o regresso do gerador de imagens com IA da Google, que pode agora (novamente) criar imagens de pessoas, embora com algumas limitações. O Imagen 3 gera agora imagens de uma forma muito melhor e mais variada. Para além disso, a IA pode agora criar imagens em diferentes estilos - desde representações completamente realistas a interpretações artísticas. Esta função está disponível em todas as línguas suportadas pela Google e baseia-se na tecnologia de marca de água SynthID da Google. Isto significa que pode ter a certeza de que o conteúdo gerado pela IA provém realmente da Google.

Vale a pena referir que a Google reintroduziu a geração de imagens de pessoas depois de ter tido problemas com isso anteriormente.

No entanto, para já, apenas em inglês. Isto significa que a versão gratuita do Gemini também pode aceder à geração de imagens gerais, mas sem as funções alargadas para imagens humanas.

Nas versões anteriores, por exemplo, a IA representava incorretamente figuras históricas. Com a Imagen 3, a Google pretende corrigir essas incorrecções. As representações de pessoas famosas ou de menores, bem como as representações excessivas de violência ou de conteúdos inadequados já não são proibidas.

Gemini Live: O futuro das interações de IA em tempo real

Embora o Gemini Live só esteja atualmente disponível em inglês e como modelo de subscrição, a Google ultrapassou a variante Chatgpt, que se encontra em fase de testes alfa, e pressionou a Open Ai para poder interagir com a IA em tempo real através da voz. Com o Gemini Live, as respostas deverão ser ainda mais dinâmicas e contextualizadas no futuro.

Além disso, a fronteira entre a comunicação entre a máquina e o homem é ainda mais ténue. Esta função pode ser particularmente útil quando se trata de responder rapidamente a pedidos de informação, por exemplo, no serviço de apoio ao cliente ou em ambientes de aprendizagem.

Preços e disponibilidade

Atualmente, a maioria das novas funções só está disponível mediante uma subscrição paga: O Gemini Advanced custa 20 USD por mês, enquanto a versão Enterprise custa 30 USD.

Conclusão: IA personalizada para a vida quotidiana e não só

As novas funções da plataforma Gemini mostram como a Google pretende tornar a utilização da IA acessível a uma vasta base de utilizadores. O GEMS e o Imagen 3 oferecem apoio personalizado numa vasta gama de cenários e mostram o que já é possível com a inteligência artificial atualmente. A Google está a adotar aqui uma abordagem cuidadosa, em que a inovação e a responsabilidade andam de mãos dadas. Medidas de proteção como o SynthID, que reconhece conteúdos gerados por IA, são particularmente importantes.

Com estes desenvolvimentos, a Google mostra que o futuro da IA reside em soluções personalizadas, responsáveis mas poderosas, que respondem às necessidades dos utilizadores e ultrapassam os limites das aplicações tradicionais. Para além destes factos básicos, continua a ser emocionante ver quais os modelos que são e serão mais úteis em que situações.

Postagens relacionadas

O novo modelo de IA o1 da OpenAI: um salto quântico no pensamento das máquinas?

Em 12 de setembro de 2024, a OpenAI surpreendeu o mundo tecnológico com...

Atualização da Alexa através do Claude, mas não para todos

A Amazon deu recentemente um passo significativo na...

Gems, Imagen 3 e Gemini Live

No I/O 2024, a Google anunciou novas funções para...

Aleph Alpha apresenta novos modelos de linguagem Pharia

A empresa alemã de IA Aleph Alpha anunciou recentemente o seu novo...

A revolução silenciosa: como a IA está a mudar impercetivelmente o nosso quotidiano

Introdução: A mudança invisível Num mundo caracterizado pela tecnologia...

Kling AI: Uma alternativa à Runway and Co ?

A Kling AI, desenvolvida pelo gigante tecnológico chinês Kuaishou, é uma nova...