Kristoffer Saxtrup Nielsen
Head of Growth
13 December, 2023
Skrevet af: Emil Øgaard
AI-våbenkapløbet er i fuld gang.
Siden november i 2022 har Generativ AI været en teknologi, der har været på alles læber i form af ChatGPT. Dette har også resulteret i, at Microsoft har investeret mange millioner af dollars i OpenAI, som er firmaet bag ChatGPT.
Men den 6. december 2023 fik vi en ny spiller på markedet; Google Gemini 1.0.
I dette blogindlæg vil vi komme ind på det, du skal kende til ift. Google Gemini, hvordan det er integreret i Google Bard, og hvad forskellen mellem Google Gemini og GPT-4 er.
God læselyst!
Google Gemini er en multimodal foundation AI-model, der både kan forstå og bearbejde forskellige typer af indhold såsom tekst, lyd, billeder og video.
Ud fra dette indhold kan den generere noget nyt både i form af tekst, billeder og lyd.
I Google Geminis introduktionsvideo kan vi se, at Gemini også kan lave et spil for dig baseret på et verdenskort, de har lagt foran sig.
NB: Man skal dog have in mente, at Google i videobeskrivelsen, oversat til dansk, skriver: “Med demoen for øje er forsinkelsen blevet reduceret, og outputtet fra Gemini er blevet forkortet for at holde det skarpt.” Hvor meget tid, der er blevet skåret væk, er endnu uklart. Derfor bør man se videoen med dette forbehold.
Ifølge Google kommer Gemini 1.0 i tre forskellige udgaver:
Ifølge Googles selvrapporterede benchmark scores er Gemini Ultra bedre end GPT-4 på 30 ud af 32 parametre. Dette er baseret på benchmarks, der anvendes blandt LLM (Large Language Model)-forskere og udviklere. Nogle af disse parametre kan du se herunder:
Igen skal du have det forbehold, at det er Googles egne tests, hvilket kan vise sig at have nogle fejlslutninger.
Den egentlige forskel kommer vi først til at se, når man får lavet tekniske rapporter, der både er fagfællebedømte (peer-reviewed) og verificerede.
Selvom Gemini er udrullet på Google Bard i andre lande, kan du ikke tilgå Google Gemini i Europa, inklusiv Danmark, endnu.
Google har endnu ikke offentliggjort, hvornår vi kan forvente en europæisk lancering.
Lige nu kører den europæiske udgave af Google Bard på foundation modellen, PaLM 2.
Du kan ikke tilgå Gemini via Google Bard i Danmark på grund af juridiske årsager. EUs regulering indenfor AI-området, deres AI Act, er lige på trapperne, og kan potentielt få stor betydning for Bard i Europa.
De store mængder af data som Bard skal behandle gennem Gemini skal kunne sikres på en forsvarlig måde, der følger de europæiske regler om GDPR og datalovgivning.
Derfor må vi væbne os med tålmodighed, inden vi selv kan prøve Google Gemini og danne os en mening om det.
Med Gemini markerer Google sig i kampen mod ChatGPT og GPT-4. Begge foundation modeller har sat nye standarder for AI, men fungerer forskelligt fra hinanden.
Lad os nu kigge på, hvilke forskelle og ligheder, der er mellem Gemini og GPT-4.
GPT-4 er primært tekstbaseret, men har nu også fået tilføjet flere forskellige multimodale kapaciteter såsom GPT Vision, der muliggør, at ChatGPT kan aflæse og forstå et billede, og integrationen med DALL-E, hvor man nu kan generere billeder ud fra prompts.
Gemini er derimod “født” multimodal, hvilket betyder, at det er bygget op på et mere komplekst datagrundlag. Dette kan i fremtiden føre til, at Gemini i princippet vil kunne udføre mere komplekse opgaver og generere mere komplekst indhold end GPT-4.
GPT-4 performer bedst (også i Googles egen test) på den benchmark, der hedder HellaSwag. Her scorer GPT-4, ifølge Googles test, 95,3% mod Geminis 87,8%.
HellaSwag tester “fornuftsbaseret ræsonnement for hverdagsaktiviteter” – altså det, de fleste, professionelle som ikke-professionelle, kommer til at bruge det til.
Gemini performer, ifølge Google selv, bedst på næsten alle parametre end GPT-4. Dette gælder både i generering af billeder, lyde og måder at forstå komplekse tekster på.
Om denne performance virkelig passer, må vi vente med at se.
GPT-4 er trænet primært af diverse tekster fra internettet.
Gemini bruger et multimodalt og flersproget datasæt, der ikke kun er tekstbaseret, men også inkluderer lydbiblioteker, billeder og video.
Begge modeller er de bedste på markedet til at forstå prompts og generere brugbare svar. GPT-4 har sat en ny standard, og Gemini kommer til at udfordre OpenAI til at skabe et bedre produkt.
Hver model har et potentiale, der kan komme til at få en markant indflydelse på adskillige brancher og industrier. Dette gælder lige fra teknologi-, underholdnings-, medicinal- og undervisningsbranchen til mere konservative brancher som bygge- og revisorbranchen.
Med Googles Gemini-lancering intensiveres AI-våbenkapløbet yderligere.
Netop som GPT-4 har integreret ChatGPT Vision og DALL-E, kommer Google med en foundation AI-model, der er “født” multimodal, så den både kan forstå og generere billeder, lyd og tekst.
Konkurrencen kommer til at skærpe AI-modellerne, hvor OpenAI med ChatGPT længe har siddet på tronen. Det er netop konkurrencen, der driver innovation inden for AI og som formår at kunne redefinere vores anvendelse af AI i fremtiden.
Mens vi i Europa venter på Geminis lancering, på grund af GDPR og manglende lovgivning på området, fortsætter denne teknologiske udvikling med at forme fremtiden for kunstig intelligens.
Så snart vi både har Gemini og GPT-4 ved roret, står vi over for en fremtid, hvor AI kommer til at spille en større og mere integreret rolle i vores hverdag – både i vores personlige og professionelle liv.