Googlova nova umetna inteligenca Gemini menda premaga GPT in človeške strokovnjake na 57 področjih
Google je predstavil Gemini, sistem umetne inteligence naslednje generacije, za katerega trdi, da je v skoraj vseh glavnih testih boljši od GPT-4 podjetja OpenAI in tudi od človeških strokovnjakov. Razume slike, video in zvok ter besedilo in kodo, sčasoma pa naj bi pridobil tudi druge »čute«.
Z rezultatom 90,0 % na testu MMLU (masivno večopravilno razumevanje jezika) je to prvi model, ki je pri različnih nalogah znanja in reševanja problemov na 57 področjih, vključno z matematiko, fiziko, zgodovino, pravom, medicino in etiko, presegel človeške strokovnjake (ne povprečne ljudi), ki so dosegli rezultat 89,8 % in GPT-4, ki je dosegel 86,4 %.
Gemini je multimodalen že od samega začetka, kar pomeni, da je njegov prvotni nabor podatkov za učenje poleg besedila vseboval tudi veliko drugih medijev in je zato bolj »tekoč« v vizualnem in zvočnem »razumevanju« kot v besedilu, saj je, medtem ko so drugi jezikovni modeli pri videoposnetkih in slikah običajno »razmišljali« besedilno, Gemini ohranil vse tone in odtenke izvirnih videoposnetkov, zvočnih in slikovnih virov.
Spodnji videoposnetek je sicer nazorna predstavitev izdelka, ga je pa treba jemati z veliko mero soli. Kljub temu je vreden ogleda, saj vam bo dal občutek, kaj ta multimodalnost pomeni v praksi.
In kaj lahko sklepamo iz gornjega posnetka? Vidimo, da se sistemi umetne inteligence usposabljajo z vedno večjim naborom senzoričnih podatkov z namenom posnemanja procesov, s katerimi se ljudje učimo interakcije s svetom. Z naslednjo ravnjo vizualnega in slušnega razumevanja sta zaznavanje in razmišljanje Geminija še korak naprej: ko bo zadeva pristala v Googlovih napravah - začenši z naslednjimi telefoni Pixel - bo lahko pomagala pri vseh vrstah vsakodnevnih opravil.
Kot je za Wired povedal Demis Hassabis, direktor podjetja Google Deepmind, se bo to kmalu razširilo na naslednje logično področje čutil: dotik in taktilne povratne informacije. Google je že zdaj pomemben igralec na področju robotike z umetno inteligenco, toda če bo superznanstvenemu modelu, kot je Gemini, dodal sposobnost razumevanja sveta prek dotika, bo robotika - humanoidna in druga - prešla na še neraziskano področje.
Multimodalnost še zdaleč ni edina odmevna lastnost. Gemini je, tako kot GPT-4, zelo raznolik sistem, zato je težko izbrati, kje začeti. Morda s tem, kako bi lahko prispeval k napredku znanosti? V spodnjem videoposnetku znanstveniki družbe Deepmind prikazujejo, kako lahko Gemini ustvari lastno kodo za branje in razlago 200.000 znanstvenih študij, jih filtrira glede ustreznosti z uporabo lastnih zmožnosti sklepanja, nato pa združi podatke in učinkovito ustvari novo »metaznanje«. Ekipa pravi, da je vse to naredila med odmorom za kosilo in da bo to pomembno tudi za druga področja, kot je recimo pravo, pri katerih je treba preučiti ogromne nabore podatkov.
Gemini zna tudi programirati, in to v jezikih Python, Java, C++ in Go. Google je prikazal, kako lahko ustvari spletna mesta, ki se dinamično kodirajo in se tako odzivajo na želje uporabnika kar med uporabo. Gre torej za povsem nov pristop k internetu – uporabniki obišče eno samo spletno stran, ta pa se, potem ko ugotovi, kaj uporabnik želi, sama razvije v to smer.
V predstavitvenem videoposnetku lahko, kljub temu, da je uporabljen precej preprost primer načrtovanja otrokove rojstnodnevne zabave, vidimo, kako izjemno moč ima sistem. Si lahko predstavljate, da bi lahko kar sami ustvarili grafične uporabniške vmesnike za skoraj vsako nalogo, ki si jo lahko zamislite? In to stokrat hitreje kot če bi poleg vas sedel programer spletnih aplikacij.
Kot vsako orodje z umetno inteligenco je tudi to zelo interaktivno; če vam ne ponudi točno tistega, kar želite, mu to lahko poveste in prilagodil se bo vašim željam ali se pogovoril o najboljšem načinu nadaljevanja. Osupljiva stvar in vpogled v to, kako se naše interakcije s tehnologijo korenito spreminjajo.
Na temo kodiranja je podjetje Deepmind opravilo še nekaj zanimivega dela s programom Gemini v projektu AlphaCode 2, ki uporablja več različnih modelov Gemini in jih posebej usposablja za različne dele procesa programiranja. AlphaCode 2 v bistvu ustvari roj programskih agentov, ki morajo za rešitev problema ustvariti do milijon različnih delov kode. Nato z ločenim modelom Gemini pregleda te vzorce kode, preveri, ali so združljivi, in jih razvrsti glede na to, kako dobro opravljajo svoj del celotnega dela kodiranja, pri čemer zavrže približno 95 % ustvarjenih vzorcev.
Nato drugi model Gemini razvije režim testiranja kode in vzorčne testne podatke ter izvede temeljit postopek testiranja vseh preostalih vzorcev in jih razvrsti po »pravilnosti«, da bi našel najboljše dele kode. Družba Deepmind je družbo Gemini dejansko razdelila v večnamensko ekipo za programsko opremo, v kateri se specializirane umetne inteligence ukvarjajo z analizo zahtev, načrtovanjem sistema, testiranjem, uvajanjem in vzdrževanjem ter ogromno vojsko programerjev.
In kako se zadeva obnese v praksi? Na tekmovanju v kodiranju med ljudmi je premagal 87 % drugih udeležencev, kar ga je na spletni strani Codeforces uvrstilo med kategoriji »strokovnjak in »kandidat za mojstra«. Kot v spodnjem videoposnetku pojasnjujejo znanstveniki družbe Deepmind, tovrstna tekmovanja zahtevajo veliko več kot le spretnosti kodiranja - zahtevajo izjemno stopnjo racionalnega razumevanja in ustvarjalno uporabo razpoložljivih programskih orodij.
AlphaCode 2 ne bo na voljo javnosti takoj ali celo nikoli v sedanji obliki. Kot si lahko predstavljate, generiranje milijona kosov kode porabi ogromno računalniške moči in je predrago za splošno objavo. Zato družba Deepmind preučuje možnosti, kako v javne modele vključiti poenostavljeno različico.
Google načrtuje, da ga bo Gemini izdal v treh velikostih: Gemini Nano, ki je zasnovan za namestitev neposredno v mobilne naprave, Gemini Pro - približek GPT 3.5, ki bo glavni model za večino nalog, in Gemini Ultra, največji model, ki po Googlovih besedah menda zlahka premaga GPT-4 v številnih primerjalnih testih - pri večmodalnem testiranju še bolj kot pri besedilnih izzivih.
Gemini Ultra naj bi se javno začel uporabljati prihodnje leto, ko bo temeljiteje preverjen glede varnosti in nastavitev. Takrat bomo lahko pravilno ugotovili, ali in na katerih področjih je boljši od GPT. Gemini Nano je medtem že na voljo na pametnem telefonu Pixel 8 Pro, kmalu pa se bo začel uporabljati tudi na drugih.
Gemini Pro je že brezplačno na voljo vsem, ki imajo račun Google, prek storitve Google Bard, a gre žal za okrnjeno različico, ki omogoča le nalaganje slik, ne pa dokumentov, zvoka ali videoposnetkov. A Google pravi, da se bo to kmalu spremenilo. Z vašim dovoljenjem že ima dostop do storitev Gmail, Google Drive in Google Docs, pa tudi do rezervacij letov in hotelov, Google Maps in YouTube, kjer vam omogoča interakcijo in postavljanje vprašanj o videoposnetkih. In ja, Google si prizadeva, da bi model Gemini vključil v skoraj vse svoje izdelke.
Za izboljšanje uporabniške izkušnje ta spletna stran uporablja piškotke. Poleg piškotkov,
ki zagotavljajo funkcionalnost spletne strani, uporabljamo tudi piškotke
za potrebe spletne analitike in integracijo socialnih omrežij.