Miten generatiivinen tekoäly toimii?

GENERATIIVINEN TEKOÄLY (GENAI) hyödyntää laajoja kielimalleja (Large Language Models) ja neuroverkkoja. Se on tekoälyn osa-alue, joka luo uutta sisältöä sen sijaan, että se vain analysoisi tai luokittelisi olemassa olevaa sisältöä tai dataa.

Seuraava generatiivisen tekoälyn määritelmä on johdettu Opetushallituksen lausuntoversiosta (1).

Generatiiviseksi tekoälyksi kutsutaan tekoälysovelluksia, jotka voivat tuottaa uutta sisältöä, esimerkiksi tekstiä, kuvia ja videoita. Ne pohjautuvat usein koneoppimiseen ja laajaan opetusdataan. Koneoppimissovellukset pystyvät oppimaan datan pohjalta uutta sisältöä. Yksi generatiivisen tekoälyn muoto ovat ns. laajat kielimallit (Large Language Models), joita käytetään tuottamaan ja käsittelemään ihmisen kaltaista kieltä.

Vaikka luonnollinen kieli on yleinen tapa olla vuorovaikutuksessa GenAI:n kanssa, sen toiminta ei rajoitu pelkästään siihen, vaan syötteet voivat olla myös esimerkiksi koodia tai kuvia. GenAI tuottaa uutta sisältöä koulutusaineistojen pohjalta luodun mallin avulla. Laajojen kielimallien muodostamiseen on voitu käyttää joko internetin julkisia sisältöjä tai rajatumpia, suljettuja tietojoukkoja.

Laajojen kielimallien lisäksi generatiivinen tekoäly voi perustua muihinkin malleihin ja tekniikoihin, jotka on optimoitu tiettyihin käyttötarkoituksiin, kuten uuden musiikin, videoiden tai kuvien luomiseen. Esimerkiksi niin kutsutut diffuusio-mallit keskittyvät kuvien ja äänen luomiseen ja muokkaamiseen.

Laajat kielimallit

Laajat kielimallit koulutetaan valtavilla datamäärillä. Tämä data voi sisältää kirjoja, artikkeleita, koodia ja muita kirjallisen viestinnän muotoja sekä kuvia ja grafiikkaa.

Jatkuvan tiedonkeruun mahdollistavat verkosta tietoja keräävät datankerääjät. Nykyään verkkosivujen ylläpitäjät voivat myös estää (opt-out) tiedonkeruun. On muistettava, että datankeruussa koulutusaineistoon saattaa kertyä myös paljon virheellistä, syrjivää ja asenteellista informaatiota.

Chatbotit ja virtuaaliset avustajat käyttävät kielimalleja tarjotakseen käyttäjille vastineita syötteisiin. Sisällöntuottajat hyödyntävät näitä malleja luomaan artikkeleita, blogitekstejä ja markkinointimateriaalia. Koulutussektorilla mallit auttavat opettajia luomaan esimerkiksi opetusmateriaaleja ja harjoitustehtäviä.

Kielimallit käyttävät kerättyä aineistoa oppiakseen sanojen ja lauseiden välisiä suhteita sekä erityyppisten tekstien merkityksiä. Näin ne voivat suorittaa erilaisia tehtäviä, kuten kääntää kieliä, tuottaa luovaa sisältöä ja vastata kysymyksiin. Tekoälyteknologian kehittyessä nämä mallit kehittyvät entisestään ja tarjoavat mahdollisuuksia erilaisiin sovelluksiin.

Kielimallit rakennetaan neuroverkkojen ja erityisesti niin sanotun transformer-arkkitehtuurin avulla. Se on syväoppimismenetelmä, joka mahdollistaa tehokkaan tavan esimerkiksi lauseiden, tekstinpätkien ja kontekstien käsittelyyn. Jotta tämä olisi mahdollista, teksti täytyy muuntaa monimutkaisia laskutoimituksia mahdollistavaan numeeriseen muotoon. Tätä kutsutaan tokenoinniksi.

Datapisteet ja tokenit eli tekstialkiot

Tokenointi on prosessi, jossa teksti tai kuvat muutetaan numeeriseen muotoon, jotta tietokoneet voivat niitä käsitellä. Teksti pilkotaan tässä prosessissa pienempiin osiin, tokeneihin, jotka voivat olla sanoja, osasanoja tai jopa yksittäisiä merkkejä. Jokaiselle tokenille annetaan numeerinen esitys (engl. -embedding), joka kuvastaa sen merkitystä kontekstissa. Tämä menetelmä sallii matematiikkaan perustuvat toimenpiteet sananjaksojen (tokenien) välillä, esimerkiksi vertailemalla niiden samankaltaisuutta. Kontekstualisointi, jossa huomioidaan sanajakson esiintyminen ympäröivässä tekstissä, on erittäin tärkeää, jotta malli voi ymmärtää lauseen tai kappaleen merkityksen.

Datapiste edustaa yksittäistä havaintoa tai tapausta tietomäärässä. Token on pienempi, jakamaton tiedon yksikkö, joka on poimittu datapisteestä. Token voi olla myös osa sanaa (esim. ”omena” voidaan jakaa tokeneiksi ”o”, ”men”, ”a”). Se on perustavanlaatuinen rakennuspalikka, jota käytetään tietojen esittämiseen ja käsittelyyn tekoälymallissa. Datapisteet ja tokenit ovat perustietoyksiköitä, joita käytetään tekoälyjärjestelmien kouluttamiseen ja käyttämiseen.

Datapistettä voidaan pitää esimerkiksi täydellisenä reseptinä, jossa on lueteltu kaikki ainesosat, kun taas merkkiä voidaan pitää yksittäisenä ainesosana kyseisestä reseptistä.

Tekoälymallit toimivat käsittelemällä monia datapisteitä, joista kukin sisältää useita tokeneita. Malli analysoi näiden merkkien välisiä suhteita oppiakseen malleja ja tehdäkseen ennusteita.

Tokeneita, datapisteitä ja malleja käytetään tuotoksen tuottamiseen. GenAI-työkaluja voidaan esimerkiksi pyytää vastaamaan kysymykseen tekstikehotteen muodossa, joka toimii syötteenä tilastolliselle mallille. Tilastollinen malli muuntaa tämän kehotteen numeroiksi. Tämän jälkeen malli suorittaa laskutoimituksia ennustaakseen tilastollisiin assosiaatioihin perustuvan tuloksen.

Tunnetuin generatiivinen tekoälypalvelu on nimeltään ChatGPT, jossa GPT on lyhenne sanoista ”Generative Pre-trained Transformer” (generatiivinen esivalmennettu muuntaja), mikä viittaa tapaan, jolla ChatGPTon koulutettu käsittelemään ja ymmärtämään suuria määriä tekstidataa. Tämä esikoulutus mahdollistaa ChatGPT:n tuottaa ihmismäistä tekstiä vastauksena erilaisiin kysymyksiin ja pyyntöihin. Malli on ”muuntaja” (transformer), koska se käyttää tehokasta neuroverkkoarkkitehtuuria.

Mitä materiaalia on käytetty kielimallien koulutuksessa?

OpenAI:n mukaan (2) tämänhetkisen ChatGPT:n käyttämät mallit on kehitetty käyttäen kolmea -ensisijaista tietolähdettä:

  1. Internetissä julkisesti saatavilla olevaa tietoa,
  2. tietoa, jota he saavat käyttöönsä kolmansien osapuolten kanssa yhteistyössä, ja
  3. tietoa, jota käyttäjät tai kouluttajat ja tutkijat toimittavat tai tuottavat.

Valitettavasti näistä massiivisista data-aineistoista puuttuu kuitenkin usein selkeä tieto siitä, mitä ne sisältävät ja mistä ne ovat peräisin. Tekoäly-yritykset eivät yleensä kerro, mitä dataa ne ovat käyttäneet malliensa kouluttamiseen (3). Yksi syy on se, että ne haluavat suojella omaa kilpailuetuaan. Toinen syy on se, että koska datajoukot niputetaan, paketoidaan ja jaetaan monimutkaisella ja vaikeaselkoisella tavalla, ne eivät todennäköisesti edes tiedä, mistä kaikki data on peräisin.

Tekoälymallien kouluttamiseen käytettävä data on myös vahvasti länsimaista. Yli 90 prosenttia tutkijoiden analysoimista tietokokonaisuuksista oli peräisin Euroopasta ja Pohjois-Amerikasta ja alle neljä prosenttia Afrikasta (4). Englannin kielen hallitsevuus koulutusaineistossa selittyy osittain sillä, että internet on edelleen yli 90-prosenttisesti englanninkielinen ja että maapallolla on edelleen paljon paikkoja, joissa internetyhteydet ovat todella huonot tai niitä ei ole lainkaan. Tällä koulutus-aineiston yksipuolisuudella on vaikutus myös tekoälyn tuotoksiin, ja siksi niihin kannattaa aina suhtautua terveen kriittisesti.

Holmes ja Tuomi (5) korostavat, ettei pidä unohtaa ihmisen roolia tekoälysysteemien toiminnassa. Ihmiset keräävät tai kuratoivat tekoälyn käyttämän koulutusdatan (esim. kuvia tai tekstejä) ja ihmiset kirjoittavat tekoälyteknologioiden taustalla olevat algoritmit eli ohjelmakoodit ja päättävät, mihin niitä käytetään.

Esimerkki (tehty Gemini 2.0 Flash Experimental avulla)

Tokenisointi pilkkoo tekstin osiin. Numeerinen esitys (embedding) muuttaa sanat numeroiksi (vektoreiksi). Kontekstualisointi muuttaa näitä vektoreita siten, että ne kuvastavat sanan merkitystä sen esiintymisyhteydessä. Näin tietokone pystyy “ymmärtämään”, että sama sana voi tarkoittaa eri asioita eri lauseissa. Vektoreiden avulla voidaan myös laskea sanojen samankaltaisuutta: lähellä toisiaan olevat vektorit tarkoittavat samankaltaisia asioita.

Sana ”kuusi”.

  • Merkitys 1: Puu (havupuu)
  • Merkitys 2: Luku (6)

Lauseet:

  • ”Metsässä kasvaa paljon kuusia.” (Puu)
  • ”Olen kuusi vuotta vanha.” (Luku)

Tokenisointi:

Molemmissa lauseissa tokenisoitu sana on ”kuusi”.

Kontekstualisointi:

  • Lause 1 (”Metsässä kasvaa paljon kuusia”): Konteksti ”metsässä” viittaa luontoon ja puihin.
  • Lause 2 (”Olen kuusi vuotta vanha”): Konteksti ”olen” ja ”vuotta vanha” viittaavat ikään ja lukuihin.

Numeerinen esitys (Embedding) kontekstien kanssa:

Kontekstualisoinnin avulla luodaan erilaiset vektorit sanalle ”kuusi” eri lauseissa:

  • “kuusi” (puu, lause 1): [0.1, 0.9] (Tämä vektori on lähempänä muiden puiden vektoreita, esim. “mänty”, “koivu”)
  • “kuusi” (luku, lause 2): [0.9, 0.1] (Tämä vektori on lähempänä muiden lukujen vektoreita, esim. “viisi”, “seitsemän”)

Nämä vektorit ovat nyt selvästi erilaiset. Tämä kuvastaa sitä, että sanalla on eri merkitykset eri yhteyksissä.

Esikoulutus ja neuroverkot

Esikoulutuksen (pre-training) aikana algoritmit käsittelevät laajaan datamassaan pohjautuen valtavaa määrää datapisteitä ja tokeneita.

Generatiivisen tekoälyn keskeinen elementti on neuroverkko, joka jäljittelee eläinten aivojen hermo-solujen yleisiä toimintaperiaatteita. Neuroverkot koostuvat toisiinsa liittyvistä solmupisteistä, jotka on järjestetty kerroksittain.

Syötekerros vastaanottaa tiedot, jonka jälkeen ne kulkevat piilokerrosten läpi, joissa tapahtuu erilaisia laskentatehtäviä. Viimeinen kerros, ulostulokerros, tuottaa lopullisen tuloksen.

Kouluttamisen aikana tekoälymalli oppii datan sisäiset suhteet ja kaavat säätämällä solmujen välisten yhteyksien vahvuuksia, joita kutsutaan painotuksiksi. Koulutusprosessiin sisältyy näiden painotusten jatkuva säätäminen, jotta virheet voidaan minimoida ja jotta malli pystyy ennustamaan tai luomaan sisältöä entistä paremmin. Painotusten säätämiseen käytetään yleisesti optimointialgoritmeja, joista tärkein nykyisin on juurikin “GPT”, jonka mukaan ChatGPT:kin on nimitetty.

Kun tekoälymallia on koulutettu riittävästi, se pystyy tuottamaan sisältöä annetun syötteen pohjalta. Koulutusdatasta oppimiensa kaavojen ja yhteyksien pohjalta malli tuottaa käytössä olleen opetusdatan kannalta johdonmukaisen ja asiayhteyteen sopivan lopputuloksen.

Generatiivinen tekoäly hyödyntää syväoppimis-malleja, jotka ovat osa koneoppimisen malleja. Kone-oppimisella tarkoitetaan sitä, että järjestelmä pystyy itsenäisesti oppimaan sille annetulla datalla ilman, että ihminen määrittää sen kaikki toiminnot. Syväoppimisen avulla tekoälymallit voivat oppia tunnistamaan kuvioita ja yhteyksiä massiivisista datamääristä, kuten kuvista tai tekstistä. Tämän jälkeen ne voivat tuottaa uutta, samankaltaista dataa, joka toistaa alkuperäisessä datassa olleita piirteitä. Tämä eroaa perinteisistä sääntöpohjaisista tekoälyjärjestelmistä, jotka noudattavat ennalta määriteltyjä sääntöjä ja eivät kykene oppimaan tai parantamaan ajan mittaan.

Tekoälymallien kouluttaminen vaatii valtavat määrät dataa, huipputehokasta teknologiaa ja taloudellisia resursseja. Ainoastaan erittäin suurilla yrityksillä on mahdollisuus kehittää näitä malleja. Onneksi näitä malleja voidaan hyödyntää moniin eri tarkoituksiin.

Vaikka generatiiviset mallit ovat tehokkaita, niillä on myös rajoituksia. Ne voivat esimerkiksi tuottaa virhepäätelmiä ja vinoutunutta (bias) sisältöä.

Hienosäätö

Hienosäädöllä (fine-tuning) pyritään mukauttamaan perustamallia (foundational model) johonkin tiettyyn tehtävään. Mallia koulutetaan pienemmällä ja rajatulla datajoukolla, joka liittyy haluttuun käyttötarkoitukseen. Hienosäätö parantaa mallin suoritus-kykyä kyseisellä tehtäväalueella ja tekee mallista kustannus-tehokkaamman käyttää.

Hienosäätö antaa mahdollisuuden GenAI-sovellusten kehittämisen erittäin monenlaisiin tarkoituksiin. Markkinoille onkin ilmestynyt viikoittain kymmeniä uusia tekoälysovelluksia mitä merkillisimpiin tarkoituksiin.

Prompti eli kehote tai syöte

Syöte (Input) on käyttäjän antama komento teko-älylle. Se voi olla tekstiä, ääntä, kuvaa tai ohjelmakoodia. Syötteen perusteella tekoäly tuottaa halutun lopputuloksen. Mitä tarkempi ja yksityiskohtaisempi syöte on, sitä parempi on yleensä myös tulos. Vuoden 2024 tietojen perusteella määritellään selkeästi teko-älyn rooli, toivottu lopputulos ja annetaan tarvittavat ohjeet. Esimerkiksi: ”Tee luettelo itsenäisen Suomen presidenteistä.”

Generatiivisen tekoälyn tuottamaan lopputulokseen vaikuttavat juuri syötteet. Syötteiden taitava suunnittelu onkin tärkeä taito, jota kannattaa harjoitella. Onneksi internetistä löytyy paljon ohjeita ja esimerkkejä, ja monet tekoälypalvelut tarjoavat myös työkaluja ja esimerkkisyötteitä. Tekoälypalveluilta voi myös pyytää suoraan ohjeita paremman syötteen luomiseen. Useimmiten ei kannata tyytyä ensimmäiseen saatuun tulokseen, vaan sitä kannattaa jatkotyöstää pyytämällä tekoälypalvelua tarkentamaan ja parantamaan annettua tuotosta.

Generatiiviset tekoälypalvelut ja hakukoneet eroavat toisistaan perusteellisesti

On erittäin tärkeää tiedostaa, että “perinteiset” hakukoneet ja generatiiviset tekoälyohjelmat palvelevat erilaisia tarpeita ja tarjoavat erilaisia palveluja käyttäjilleen. Hakukoneet etsivät olemassa olevaa tietoa, kun taas GenAI–palvelut luovat uutta sisältöä.

Hakukoneet käyttävät algoritmeja, jotka analysoivat sivujen sisältöä, linkkien määrää, ja muita tekijöitä määrittääkseen sivujen oleellisuuden ja järjestyksen hakutuloksissa. Ne etsivät ja järjestävät internetissä olevaa dataa käyttäjän antamien hakusanojen perusteella. Hakutulokset perustuvat sekä käyttäjän aikaisempiin hakuihin että hakukoneen algoritmin suosituksiin.

Informaation etsijä saa useimmiten tuhansia tai jopa miljoonia suoria linkkejä internetissä oleviin -aineistoihin. Käyttäjän vastuulla on valita lukuisista osumista se, joka vastaa hänen tiedontarvettaan parhaiten. Myönteistä on, että käyttäjä voi arvioida itse suoraan informaation lähteen luotettavuutta. Valitettavasti hakukoneiden kuten Googlen hakulogiikka ei ole läpinäkyvää, ja ne järjestävät ja sensuroivat tuloksia käyttäjän profiloinnin pohjalta. Hakutuloksissa ensimmäiseksi nousevat usein maksetut tai sponsoroidut tulokset, sillä hakukoneiden taustalla ovat kaupalliset intressit.

Aivan viime aikoina GenAI-palvelut ovat alkaneet ehdottaa näiden kahden erilaisen -toimintatavan yhdistämistä. Esimerkiksi Google Gemini (versio 1.5 Flash) tarjoaa mahdollisuuden “tarkistaa” GenAI:n tulokset Google hakukoneella. Tämä toiminto löytyy vastauksen alla olevasta kolmen pisteen valikosta (“Tarkista vastaus huolellisesti”).

Jos “tavallisesta” hakukoneesta etsii tietoa vaikkapa Faktabaarista, eteensä saa satoja tai tuhansia hyvin erilaisia tuloksia, mukaan lukien -Faktabaarista esitettyä kritiikkiä. ChatGPT:n verkkohakutoiminnolta kysyttäessä “Mikä Faktabaari on” saa eteensä lyhyen tiivistelmän Faktabaarista. Voi kysyä, miksi juuri nämä tietyt virkkeet ovat siihen valikoituneet ja saako Faktabaarin toiminnasta realistisen ja kattavan kuvan ChatGPT:n tiivistelmästä. Olisiko kuitenkin kansalaisen tiedonsaannin kannalta parempi saada Faktabaarista monipuolisempi kuva?

Generatiivisten tekoälysovellusten toimintamekanismi on erilainen. Ne luovat uutta sisältöä suurista datamääristä. Käyttäjä saa yleensä kerrallaan vain yhden vastauksen, joka perustuu laskennallisiin toden-näköisyyksiin edellä kuvatun prosessin mukaisesti. Toisaalta käyttäjä voi saada pyytämällä vaikka satoja vastauksia, ja tuloksia voi jatkotyöstää ja tarkentaa. Vaikka GenAI-palvelun tuottama vastaus on usein hyvin luotettavan tuntuinen, se saattaa olla virheellinen. GenAI-mallit eivät ymmärrä tuottamaansa tekstiä, vaan ne perustuvat tilastollisiin malleihin ja koulutusdataan. Siksi niiden tuotokset voivat olla virheellisiä tai harhaanjohtavia. Siksi -GenAI-palveluiden tuotosten tarkastamisessa korostuu lähdekritiikin tarve. Niinpä esimerkiksi Geminin syötekentän alla lukee ”Gemini voi tehdä virheitä, myös ihmisiin liittyen, joten tarkista sen vastaukset.”

Hyödyllisiä linkkejä

Sources

(1) Tekoäly varhaiskasvatuksessa ja koulutuksessa – lainsäädäntö ja suositukset (ladattu 17.10.2024 lausuntopalvelu.fi) https://www.lausuntopalvelu.fi/FI/Proposal/Participation?proposalId=a0d6af03-67e1-4ec7-9269-fab75bb05807

(2) OpenAI (Haettu 13.12.2024) https://help.openai.com/en/articles/7842364-how-chatgpt-and-our-foundation-models-are-developed

(3) MIT Techonology Review (Haettu 18.12.2024) https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/

(4) MIT Techonology Review (Haettu 18.12.2024) https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/

(5) Holmes, Wayne and Tuomi, Ilkka (2022) State of the art and practice in AI in education. Speciali Issue: Futures of artifical intelligence in education. European Journal of Education. Volume 57, Issue 4. https://onlinelibrary.wiley.com/doi/10.1111/ejed.12533

edu@faktabaari.fi

Evästeet

Käytämme sivustollamme yksityisyyden suojaavaa analytiikkaa palveluidemme parantamiseksi.

Lue lisää tietosuoja käytännöistämme täältä.