Gems, Imagen 3 et Gemini Live

Partager cette publication

Google hat auf der I/O 2024 neue Funktionen für seine KI-Plattform Gemini vorgestellt, die jetzt nach und nach verfügbar werden. Mit GEMS, einem System von themenbasierten KI-Assistenten, und Imagen 3, einem fortschrittlichen Bildgenerator, zeigt Google, wie Künstliche Intelligenz personalisiert und ethisch verantwortlich genutzt werden kann. In diesem Artikel schauen wir uns die neuen Funktionen, ihre Einsatzbereiche und die damit verbundenen Herausforderungen genauer an.

GEMS: Fokussierte KI-Chatbots für individuelle Bedürfnisse

GEMS sind spezielle Versionen des KI-Assistenten Gemini. Damit können Nutzer Experten für bestimmte Themen oder Aufgaben erstellen, die genau auf ihre Bedürfnisse zugeschnitten sind. Diese personalisierten Chatbots kann man selbst definieren und sie merken sich, worüber man schon mal gesprochen hat und in welchem Kontext. So können sie einen bei wiederkehrenden Aufgaben unterstützen. Das Konzept entspricht im Großen und Ganzen den GPTs von Open AI und den Projekten von Anthropic.

GEMS ist für Gemini-Nutzer verfügbar, die Advanced, Business oder Enterprise nutzen. Die Nutzer können Vorgaben festlegen, zum Beispiel Ziele, Verhaltensregeln und Anwendungszwecke. Zum Start gibt es auch schon ein paar vorgefertigte Gems, die man nutzen kann – zum Beispiel als Lernhilfe, kreativer Partner, Karriereberater, Schreibassistent oder Coding-Partner. Diese vorgefertigten Gems kann man direkt nutzen und sie machen es einfacher, sich mit den themenbasierten KI-Assistenten anzufreunden.

Imagen 3: Fortschrittliche KI-gestützte Bildgenerierung

Mit Imagen 3 kommt Googles KI-Bildgenerator zurück, der jetzt auch (wieder) Bilder von Menschen erstellen kann, wenn auch mit ein paar Einschränkungen. Mit Imagen 3 werden Bilder jetzt deutlich besser und vielfältiger generiert. Außerdem kann die KI jetzt Bilder in verschiedenen Stilen erstellen – von ganz realistischen Darstellungen bis hin zu künstlerischen Interpretationen. Diese Funktion gibt’s in allen von Google unterstützten Sprachen und basiert auf Googles SynthID-Watermarking-Technologie. Damit kann man sicher sein, dass die KI-generierten Inhalte auch wirklich von ihr stammen.

Bemerkenswert ist, dass Google die Generierung von Personenbildern wieder eingeführt hat, nachdem es da vorher Probleme gab.

Allerdings erst einmal nur auf Englisch. Das heißt, dass auch die kostenlose Version von Gemini zwar auf die generelle Bildgenerierung zugreifen kann, aber ohne die erweiterten Funktionen für Menschenbilder.

In früheren Versionen hat die KI zum Beispiel historische Figuren falsch dargestellt. Mit Imagen 3 will Google solche Ungenauigkeiten beheben. Darstellungen bekannter oder minderjähriger Personen sowie exzessive Gewaltdarstellungen oder unangemessene Inhalte sind nicht weiter nicht erlaubt.

Gemini Live: Die Zukunft der Echtzeit-KI-Interaktionen

Auch wenn Gemini Live bisher nur auf English und im Abo Modell verfügbar ist, hat Google hier die im Alpha Tests fest steckenden Chatgpt Variante überholt und Open Ai unter Druck gesetzt, per Stimme in Echtzeit mit KI interagieren zu können. Mit Gemini Live sollen Antworten künftig noch dynamischer und kontextbezogener ausfallen.

Außerdem wird die Grenze zwischen maschineller und menschlicher Kommunikation weiter aufgelöst. Diese Funktion könnte besonders hilfreich sein, wenn es darum geht, schnell auf Anfragen zu reagieren, zum Beispiel im Kundenservice oder in Lernumgebungen.

Preisgestaltung und Verfügbarkeit

Die neuen Funktionen gibt es gegenwärtig größtenteils nur mit einem kostenpflichtigen Abo: Für Gemini Advanced werden 20 US-Dollar pro Monat fällig, für die Enterprise-Version 30 US-Dollar.

Fazit: Personalisierte KI für den Alltag und darüber hinaus

Die neuen Funktionen auf der Gemini-Plattform zeigen, wie Google die Nutzung von KI für eine breite Nutzerschaft zugänglich machen will. GEMS und Imagen 3 bieten maßgeschneiderte Unterstützung in vielfältigen Szenarien und zeigen, was mit künstlicher Intelligenz heute schon möglich ist. Google geht hier einen sorgfältigen Weg, bei dem Innovation und Verantwortung Hand in Hand gehen. Besonders wichtig sind dabei Schutzmaßnahmen wie SynthID, mit dem KI-generierte Inhalte erkannt werden.

Google zeigt mit diesen Entwicklungen, dass die Zukunft der KI in maßgeschneiderten, verantwortungsbewussten und dennoch leistungsstarken Lösungen liegt, die den Bedürfnissen der Nutzer gerecht werden und die Grenzen traditioneller Anwendungen überschreiten. Jenseits dieser grundlegenden Fakten bleibt es weiter spannend welche Modelle in welchen Situationen am nützlichsten sind und sein werden.

Articles Similaires

Mise à niveau d'Alexa via Claude, mais pas pour tous

Amazon a récemment fait un pas important en avant dans...

Aleph Alpha présente de nouveaux modèles de langage Pharia

La société allemande d'intelligence artificielle Aleph Alpha a récemment...

La révolution silencieuse : comment l'IA modifie imperceptiblement notre quotidien

Introduction : le changement invisible Dans un monde dominé par les technologies...

Kling AI : une alternative à Runway et Cie ?

Kling AI, développé par le géant chinois de la tech Kuaishou, est...

Qwen-2-72B Instruct : un modèle de langage puissant pour diverses applications

Avec Qwen-2-72B Instruct, Qwen lance un nouveau système extrêmement puissant...