13. Algoritmitietoisuus – tekoälyn luomat haasteet

14.09.2022 Harto Pönkä

DIL, Dil-opas, FI

Mitä algoritmit ovat?

Algoritmi-käsite yhdistetään nykyään ennen muuta ohjelmointiin sekä verkkopalvelujen ja sovellusten toimintoihin. Algoritmi on kuitenkin alun perin matemaattinen käsite. Algoritmilla tarkoitetaan silti yleensä pohjimmiltaan samaa asiaa: se on sarja toimenpiteitä, joilla ratkaistaan tietty ongelma tai tehtävä.

Algoritmien ajatellaan toimivan tavallisesti automaattisesti, mutta ensimmäiset algoritmit olivat manuaalisia eli ihmisen suorittamia. Tällaisia ovat esimerkiksi alaluokilla opetettavat menetelmät ratkaista yhtälön tulos allekkain kertomisella tai jakokulmalla. Vastaavasti keittokirjassa olevat reseptit ovat algoritmeja siitä, miten tietyistä raaka-aineista valmistetaan tiettyjen toimenpiteiden kautta herkullisia ruokia.

Algoritmille on ominaista, että sen avulla syötteestä kuten lähtöaineksista tai -tiedoista saadaan aikaan haluttu tulos. Toivottavan lopputuloksen määrittelee algoritmin tekijä. Ohjelmoinnissa tähän viitataan input- ja output-käsitteillä, joiden välissä tapahtuu ohjelman varsinainen suoritus.

Tietokoneohjelmien algoritmit

Yleisimpiä tietokoneiden käyttämiä algoritmeja ovat erilaiset tiedostoformaatit, joita käytetään esimerkiksi kuvien, äänten ja videoiden tallentamisessa ja pakkaamisessa. Esimerkiksi digitaalinen valokuva voidaan pakata vain murto-osaan fyysiseltä tiedostokooltaan JPEG-formaatin pakkausalgoritmin avulla. Algoritmeja käytetään myös vaikkapa silloin, kun live-videokuvaa välitetään verkon kautta katsojille, tai kun internetin palvelimet toimittavat tietyn verkkosivun sen osoitteen selaimeensa kirjoittaneelle käyttäjälle.

Joskus algoritmien lähtötiedot, toimenpiteet ja tulokset ovat hyvin monimutkaisia. Monimutkaisuus liittyy tavallisesti siihen, että algoritmin käyttämät lähtötiedot koostuvat isosta määrästä aiemmin kerättyä dataa, tai yksittäisen tehtävän suorittamiseen käytetään lukuisia eri muuttujia tai datapisteitä.

Esimerkiksi tietyn alueen säätä voidaan ennustaa aiemmin kerättyjen tietojen kuten lämpötilan, sademäärän, tuulen ja ilmanpaineen sekä havainnoista tehtyjen tilastollisten mallien avulla. Tosin nykyään sääennustusmallit perustuvat siihen, että ennustettavasta alueesta tehdään virtuaalinen mallinnus, joka jäljittelee eli simuloi todellisen ilmakehän ilmiöitä. Tällaista mallinnusta hyödyntävien algoritmien toiminta perustuu ikään kuin todellisesta maailmasta tehtyyn peilikuvaan.

Digitaaliset kaksoset ja suosittelujärjestelmät

Kun algoritmeja käytetään ihmisen toiminnan ennustamiseen ja siihen vaikuttamiseen, puhutaan toisinaan digitaalisesta kaksosesta. Sillä tarkoitetaan kokoelmaa tietystä henkilöstä ja hänen toiminnastaan kerättyjä tietoja sekä tietojen yhdistelyä eri lähteistä. Esimerkiksi netin mainosverkostot ja sosiaalisen median sisältövirtoja ohjailevien suosittelujärjestelmien hyödyntämät suosittelualgoritmit pyrkivät tarjoamaan jokaiselle käyttäjälle tälle parhaiten sopivan vaihtoehdon sen perusteella, mitä dataa on käytettävissä.

Suosittelujärjestelmät hyödyntävät toisaalta käyttäjistä ja toisaalta suositeltavista asioista kerättyä dataa. Tunnetuin suosittelujärjestelmä on Googlen hakukone. Googlen haku perustui alun perin PageRank-algoritmiin, jonka ideana on se, että jokaisen verkkosivun arvoa mitataan sen perusteella, kuinka moni muu verkkosivusto linkittää siihen. Samalla PageRank-arvoon vaikuttaa linkittävien verkkosivustojen omat PageRank-arvot sekä aiheiden vastaavuus linkkien kohdesivuun.

PageRank on nykyisin vain yksi monista Google-haun käyttämistä algoritmeista. Vuodesta 2004 lähtien Googlen hakutuloksiin on vaikuttanut käyttäjistä kerätty data, jonka perusteella hakutuloksia personoidaan eli suositellaan eri käyttäjille erilaisia verkkosivuja. Vuoteen 2010 mennessä Google kertoi käyttävänsä yli 250 eri muuttujaa hakutulosten personointiin.

Nykyisin Googlen hakutuloksiin vaikuttavat mm. käyttäjän ikä, sukupuoli, perhesuhteet, ammatti, harrastukset, sijainti, verkko-ostokset, matkat sekä kiinnostuksen kohteet ja verkkohistoria. Googlen suosittelualgoritmit eivät rajoitu pelkästään hakutuloksiin, vaan niitä hyödynnetään ennen muuta Googlen mainosjärjestelmässä, kun valitaan käyttäjille sopivia mainoksia. Monelle tulee yllätyksenä, että suosittelualgoritmit valitsevat myös käyttäjien näkemät uutiset esimerkiksi Android-käyttöjärjestelmän uutisnäkymässä.

Tekoälyalgoritmit

Kun algoritmi hyödyntää koneoppimista tai jotain muuta tekoälytekniikkaa, kyse on niin sanotusta tekoälyalgoritmista. Koneoppimisella tarkoitetaan, että algoritmi ei joka kerta anna samaa tulosta, vaan sitä koulutetaan keräämällä jatkuvasti uutta dataa, jonka avulla se ikään kuin “oppii” parantamaan antamaansa tulosta kerta kerran jälkeen.

Tutuin esimerkki oppivasta suosittelualgoritmista lienee YouTuben algoritmi, joka ehdottaa käyttäjille seuraavaksi katsottavia videoita. YouTuben antamiin ehdotuksiin vaikuttaa aiemmin katsotut videot ja muu Googlen keräämä data sekä potentiaalisiin ehdotettaviin videoihin liittyvä data kuten niiden aiheet ja toteutuneet keskimääräiset katseluajat. Mutta sen sijaan, että YouTuben algoritmi ehdottaisi vain aiemmin katsottujen videoiden aiheisiin liittyviä uusia videoita, se ehdottaa videoita myös sellaisista aiheista ja kanavista, joita kyseinen käyttäjä ei ole siihen mennessä katsonut.

YouTuben tekoälyalgoritmille jokainen videoehdotus on kuin käyttäjälle heitetty koepallo, jonka perusteella algoritmi pyrkii oppimaan uutta tietoa: tässä tapauksessa sen, mitkä videoiden aiheet ovat käyttäjälle kiinnostavia ja mitkä eivät. Saman tyyppistä datankeruuta hyödyntävät lukuisat sosiaalisen median palvelut kuten Facebook, Instagram, Twitter ja Spotify.

Vaikka algoritmeja on pyritty kehittämään niin, että ne huomioisivat käyttäjien kiinnostuksenkohteita monipuolisesti, johtaa käyttäjien toiminta edelleen helposti siihen, että algoritmien antamat suositukset ovat yksipuolisia ja aiheiltaan kapea-alaisia. Esimerkiksi jos klikkaat Facebookissa tai Instagramissa toistuvasti saman aiheen julkaisuja, saat jatkossakin yhä enemmän saman tyyppisiä sisältöjä nähtäväksesi. Tällaista kutsutaan algoritmin vinoutumaksi.

Tekoälyalgoritmeissa vinoutumisen voi aiheuttaa myös koneoppimisessa alkujaan käytetyt koulutusaineistot. Esimerkiksi Google Kääntäjän algoritmi käänsi aiemmin hän-sanan eri ammattien yhteydessä muotoon she tai he riippuen siitä, mistä ammatista oli kyse. Tämän takia Googlea syytettiin jopa syrjinnästä, vaikka kyse oli siitä, millaista aineistoa tekoälyn koulutuksessa oli ollut käytettävissä. Nykyään Google Kääntäjä antaa tällaisille käännöksille kaksi eri vaihtoehtoa.

Facebookin algoritmit ja tunteet

Facebook on kaikista sosiaalisen median palveluista eniten pyrkinyt hyödyntämään käyttäjien tunteita uutissyötteen algoritmissaan. Julkaisujen tykkääminen on ollut osa Facebookin toimintoja lähes palvelun alusta alkaen. Toden teolla tunteet valjastettiin käyttöön vuonna 2016, kun Facebook lanseerasi emoji-reaktiot “ihastu”, “haha”, “vau”, “surullinen” ja “vihainen”.

Ennen emoji-reaktioiden käyttöönottoa Facebook oli tutkinut käytännön kokeilulla, miten erilaiset julkaisut vaikuttivat käyttäjien toimintaan ja tunteisiin. Selvityksen mukaan positiiviset julkaisut aiheuttivat positiivisia tunteita ja negatiiviset julkaisut negatiivisia julkaisuja. Emoji-reaktioista kertyneen datan avulla Facebookin algoritmi pystyi valitsemaan käyttäjien uutissyötteisiin sen

mukaisia julkaisuja, mikä heidän tunnetilansa oli. Jos käyttäjä esimerkiksi klikkasi usein vau-reaktioita, hän näki jatkossa enemmän julkaisuja, jotka olivat saaneet paljon vau-reaktioita.

Vuodesta 2017 lähtien emoji-reaktioiden arvoksi uutissyötteen suosittelualgoritmissa nostettiin viideksi tavalliseksi tykkäykseksi. Algoritmin toimintaa tutkivat yritykset ja muut tahot huomasivat pian, että tekemällä voimakkaasti tunteita herättäviä julkaisuja, ne nousivat algoritmin vaikutuksesta käyttäjien uutissyötteiden kärkeen. Tällaista ihmisten toimintatapoja ja somepalvelujen algoritmeja hyödyntävää toimintaa sanotaan sosiaalisen median optimoinniksi.

Erityisen tehokkaaksi tunteeksi Facebookissa osoittautui närkästyksen ja vihaisuuden synnyttäminen. Yli kahden miljardin käyttäjän palvelussa algoritmin muutoksilla on iso merkitys: se ohjaa yhtäältä sitä, millaisia julkaisuja käyttäjät näkevät sekä toisaalta sitä, millaisia julkaisuja vaikuttamaan pyrkivät tahot tekevät. Niinpä kun algoritmi näytti palkitsevan vihaisuuden herättämisestä, monet julkaisijat alkoivat toimia sen mukaan.

Vihaisuutta ruokkivien sisältöjen suuri määrä on yksi syistä, joiden takia Facebook on ollut laajan kritiikin kohteena jo monen vuoden ajan. Facebook päätyi pian laskemaan vihanaama-emojin arvoa algoritmissa: ensin neljän tykkäyksen arvoksi vuonna 2018, puolentoista tykkäyksen arvoksi vuonna 2020 ja lopulta nollaksi tykkäykseksi vuonna 2021 sen jälkeen, kun Facebookin ex-työntekijä Frances Haugen oli vuotanut tuhansia asiakirjoja, joista edellä kerrotut tiedot tulivat esiin.

Onko algoritmeilla liikaa valtaa?

Facebookin algoritmeista esiin tulleet tiedot ovat kiihdyttäneet keskustelua siitä, onko algoritmeilla liian suuri valta verkkopalvelujen käyttäjiin. Tosiasia on, että algoritmeilla on vaikutusta niiden käyttäjien toimintaan. Useimmiten tämä vaikutus nähdään siinä, millaista sisältöä käyttäjille suositellaan.

Samalla on aiheellisesti kysytty, hallitsevatko edes algoritmien tekijät aina niiden toimintaa. Erityisesti tekoälyalgoritmit tuottavat joskus tuloksia, joita on etukäteen vaikeaa ennustaa.

Facebookin algoritmit ovat hyvin monimutkaisia: se on kehunut käyttävänsä jopa yli 10 000 datapistettä valitessaan, mitä kullekin käyttäjälle näytetään. Kun käyttäjille näytettäviin julkaisuihin vaikuttaa näin monta eri tekijää, ei kokonaisuuden hallinta ole helppoa.

Vuoden 2021 asiakirjavuodossa tuli esiin, että Facebookin ottaessa käyttöön emoji-reaktiot yhtiö oli pyrkinyt tekemään mekanismin, jonka oli tarkoitus estää vihanaama-emojin suhteettoman suuren vaikutuksen julkaisujen näkyvyyteen. Algoritmi oli ohjelmoitu niin, että tietyissä tilanteissa vihaisuutta aiheuttavan julkaisun näkyvyyspisteet puolitettiin. Muiden algoritmiin vaikuttavien muuttujien vuoksi näkyvyysluvulla ei kuitenkaan ollut mitään ylärajaa, jolloin ”vihainen”-reaktioita keränneet julkaisut saivat pahimmillaan rajattoman korkeita näkyvyyspisteitä.

Kuvaavaa on, että samalla kun Facebookin uutissyötteen algoritmi antoi suhteettoman suuren näkyvyyden esimerkiksi joillekin disinformaatiota, vihapuhetta ja klikkiotsikoita sisältäville julkaisuille, yhtiön omat moderaattorit pyrkivät karsimaan saman tyyppisiä sisältöjä. Facebookilla ei kuitenkaan ollut tarpeeksi moderaattoreita poistamaan kaikkia niitä vahingollisia julkaisuja, jotka algoritmi nosti uutissyötteen kärkeen.

Pitäisikö algoritmit julkaista?

Usein kuultu vaatimus on, että nettijättien kuten Googlen, Facebookin ja Twitterin pitäisi julkaista algoritmiensa toimintaperiaatteet. Vaatimukset liittyvät ennen muuta algoritmien väitettyyn haitallisuuteen kuten pyrkimykseen maksimoida käyttäjien sosiaalisessa mediassa viettämä aika sekä niiden ongelmiin estää virheellisiä tietoja sisältävien ja vastakkainasettelua lisäävien viestien leviäminen.

Verkko- ja somepalvelujen liiketoiminta perustuu yleensä mainosrahoitteisuuteen eli siihen, että käyttäjät klikkaisivat heille kohdennettuja mainoksia. Tätä luonnollisesti edistää se, että he viihtyisivät palveluissa mahdollisimman pitkään. Siksi on selvää, että algoritmit on viritetty edistämään juuri tätä, vaikka palvelut eivät sitä omaehtoisesti tuo esiin. Toisaalta monien tutkimusten mukaan on selvää, että pitkä verkko- ja somepalvelujen käyttöaika ei edistä käyttäjien hyvinvointia. Palveluja ylläpitävien yritysten ja käyttäjien edut eivät kohtaa algoritmien toiminnassa.

Nettijätit ovat olleet haluttomia julkaisemaan tietoja algoritmeista vedoten liiketoimintasalaisuuksiin ja siihen, että algoritmien julkaiseminen johtaisi niiden yhä suurempaan väärinkäyttöön ja manipulointiin julkaisijoiden ja muiden verkossa vaikuttamaan pyrkivien tahojen toimesta. Väite on perusteltu, sillä algoritmien kehittäminen ja niiden hyväksikäyttö ovat olleet jatkuvaa kilpajuoksua. Toisaalta voidaan sanoa, että juuri nettijättien vastuulla on kehittää algoritmeistaan niin hyviä, että ne kykenevät tunnistamaan ja estämään myös manipulointiyritykset.

Keskustelussa algoritmien avoimuudessa unohtuu usein se, että osittain algoritmien toimintaperiaatteet on jo tähänkin asti julkaistu. Esimerkiksi Google kertoo monipuolisesti ja samalla yleistajuisesti hakukoneensa tuloksiin vaikuttavista tekijöistä. Google on myös julkaissut verkossa kenen tahansa luettavaksi lähes 200-sivuisen oppaan, joka on tehty sen omien hakutulosten arvioijien käyttöön. Lisäksi Google on tehnyt monia verkkosivujen kehittäjille tarkoitettuja työkaluja, joilla nämä voivat testata ja parantaa verkkosivujen toimintaa ja samalla niiden sijoittumista Googlen hakutuloksissa. Googlen hakukoneen voidaan sanoa olevan hyvä esimerkki algoritmien avoimuudesta. Toisaalta emme voi tietää, mitä asioita Google jättää kertomatta.

On helppo olla skeptinen sen suhteen, moniko verkkopalvelujen käyttäjistä jaksaisi lukea monien satojen sivujen dokumentteja yksityiskohtaisesta algoritmien toiminnan kuvauksesta. Periaatteellisesti kyse on kuitenkin tärkeästä asiasta. Jos algoritmien toimintaperiaatteet julkaistaisiin, tietoisuus niistä lisääntyisi, tähän mennessä piilossa olleet mekanismit tulisivat päivänvaloon ja tutkijat voisivat perehtyä niihin huomattavasti nykyistä syvällisemmin. Käyttäjien yksityisyyden kannalta tärkeintä olisi tietää, millä kaikilla tavoilla heidän henkilötietojaan käytetään algoritmeissa. EU:n uudet lakipaketit ovatkin edellyttämässä nettijäteiltä aiempaa suurempaa avoimuutta algoritmien toiminnasta.

Lähteet:

Google, 2022, Miten tulokset luodaan automaattisesti, https://www.google.com/intl/fi/search/howsearchworks/how-search-works/ranking-results/

Google, 28.7.2022, Search Quality Evaluator Guidelines, https://static.googleusercontent.com/media/guidelin’s.raterhub.com/fi//searchqualityevaluatorguidelines.pdf

Pönkä, H., 31.10.2021, Infografiikka: Facebookin viha-reaktio ja algoritmin muutokset, https://harto.wor’press.com/2021/10/31/infografiikka-facebookin-viha-reaktio-ja-algoritmin-muutokset/

The Washington Post, 26.10.2021, A whistleblower’s power: Key takeaways from the Facebook Papers, https://www.washingtonpost.com/technology/2021/10/25/what-are-the-facebook-papers/

Wikipedia, 2022a, Luettelo algoritmeista, https://fi.wikipedia.org/wiki/Luettelo_algoritmeista

Wikipedia, 2022b, Tekoäly, https://fi.wikipedia.org/wiki/Teko%C3%A4ly

Wired, 22.2.2010, Exclusive: How Google’s Algorithm Rules the Web, https://web.archive.org/web/20110612022158/http://www.wired.com/magazine/2010/02/ff_google_algorithm/2

Yle, 19.12.2016, Näin sinua ohjataan Facebookissa ja internetissä, https://yle.fi/aihe/artikkeli/2016/12/19/nain-sinua-ohjataan-facebookissa-ja-internetissa

Yle, 12.2.2020, Hölkkääjä päätyy ultrajuoksuvideoihin ja kasvisruuan ystävä vegaanisisältöihin – Youtuben algoritmin tehtävänä on katsojan koukuttaminen, https://yle.fi/aihe/artikkeli/2020/02/12/algoritmin-tehtavana-ei-ole-totuuden-etsiminen-vaan-ihmisten-pitaminen-sivuilla

Harto Pönkä (KM) on perehtynyt monipuolisesti mm. verkko-opetuksen pedagogiikkaan, mediakasvatukseen, sosiaaliseen mediaan ja tietosuojaan. Hän on toiminut kouluttajana vuodesta 2008 lähtien sekä julkaissut sosiaaliseen mediaan liittyviä kirjoja ja artikkeleja. Pönkä tekee koulutuksia ja analyysejä yrityksille, yhdistyksille ja julkishallinnon organisaatioille. Pönkä työskentelee yrityksissään Innowisessa ja Tweepsissä.

Kuvitus: Lumi Pönkä

Lataa Digitaalinen informaatiolukutaito-opas (PDF)

[email protected]

13. Algoritmitietoisuus – tekoälyn luomat haasteet

Jaa eteenpäin

Evästeet

Tilaa Faktabaarin uutiskirje