Kooste
Arvioitu lukuaika 9 min

Generatiivinen tekoäly lainvalmistelun tukena ja tehostajana – 4 + 1 oppia kokeiluista

Generatiivisen tekoälyn avulla voidaan tukea lainvalmistelijan työtä suurien aineistomäärien käsittelyssä. Sitran rahoittamat kokeilut osoittivat, että lainvalmistelutyötä tehostavan työkalun kehittäminen tulee vaatimaan resursseja koulutusaineiston keräämiseen, lainvalmistelun uudistamiseen ja osaamisen kehittämiseen.

Kirjoittaja

Satu Salminen

Asiantuntija, Gaia-X Suomi

Julkaistu

Lainvalmistelutyö on raskas ja monivaiheinen prosessi, johon sisältyy kattavaa tiedonkeruuta, aineistojen analysointia ja muistioiden muotoilua. Generatiivinen tekoäly voi tulevaisuudessa mahdollistaa merkittäviä tehokkuushyötyjä lainvalmistelutyölle. Sitran rahoittamissa generatiivisen tekoälyn kokeiluissa kehitettiin suomenkielisiin kielimalleihin perustuvia tekoälyratkaisuja ja testattiin niitä lainvalmistelijoiden työn tukena lainsäädännön läpikäynnissä ja lausuntoaineistojen tiivistämisessä. 

Kokeilut tehtiin liikenne- ja viestintäministeriössä (LVM), valtioneuvoston kansliassa (VNK) ja oikeusministeriössä (OM). Kokeiluissa otettiin ensi askel lainvalmistelijan haasteisiin räätälöidyn generatiivisen tekoälyn työkalun hyödyntämisessä Suomessa. 

Vastaavia hankkeita on tehty jo useissa Euroopan maissa. Osassa niistä valtionhallinto on ottanut suunnannäyttäjän roolin eurooppalaisiin kielimalleihin perustuvien ratkaisujen hyödyntämisessä. Saksassa generatiivisen tekoälyn edelläkävijä, teknologiayritys Aleph Alpha on kehittänyt tekoälyratkaisuja valtionhallinnolle, kuten tänä vuonna käyttöönotetun F13-assistentin. F13 on viranomaisten tarpeisiin räätälöity tekoälytyökalu, joka tukee virkahenkilöitä muun muassa asiakirjojen tiivistämisessä. Ranskassa taas kehitetään aktiivisesti avoimen lähdekoodin kielimallien päälle toimivia tekoälyratkaisuja, kuten virkamiesten työtä tukevaa Albert-tekoälyjärjestelmää

Tekoälykeskusteluun liittyy tunnetusti paljon hypetystä. Samalla monet julkiset toimijat ja yritykset ovat epävarmoja siitä, kuinka hyödyntää generatiivista tekoälyä tehokkaasti ja turvallisesti. Tähän artikkeliin on koottu keskeisiä havaintoja Sitran rahoittamista kokeiluista ja suomenkielisten kielimallien käyttöönotton edellytyksistä ja haasteista. 

Neljä edellytystä generatiivisen tekoälyn käyttöönotolle 

Kokeiluissa lähdettiin suoraan liikkeelle hyvin vaativista sovelluskohteista, vaikka generatiivisen tekoälyn sovelluksia kehitettiin suomalaiseen lainvalmisteluun ensimmäistä kertaa. Samalla valitut sovelluskohteet olivat varsin sopivia tekoälyn hyödyntämiseen, sillä niissä käytettävät aineistot ovat pitkälti julkisia tiedostoja, mikä helpotti aineiston käsittelyä projektin aikana. Lisäksi lain esivalmistelussa ja lausuntomenettelyssä on paljon mahdollisuuksia toiminnan tehostamiselle ja raskaan manuaalisen työn vähentämiselle.  

Listasimme kokeiluissa tunnistetut keskeiset edellytykset, jotka on huomioitava, kun generatiivista tekoälyä halutaan hyödyntää haastavissa sovelluskohteissa.  

1. Luotettava sovellus edellyttää pääsyä laadukkaaseen, hallittavaan ja ajantasaiseen dataan 

Tehtävän suorittamiseen vaadittavien aineistojen tulee olla laadukkaita ja hallittavissa siten, että tekoäly pääsee hyödyntämään aineistoa sujuvasti. Mahdollisimman ajantasainen ja luotettava data on myös keskeinen edellytys työkalun hyödyllisyydelle.  

esimerkki kokeilusta

Ajantasaisen lainsäädäntödatan puute heikensi työkalun käyttökelpoisuutta kokeilussa 

Suomen lainsäädäntö on keskeinen datalähde lainsäädännöllisille sovelluksille. Sitä tarvittiin myös LVM:n kokeilussa luodussa, lain esivalmistelua tukevassa ratkaisussa. Finlex julkaisee Suomen säädöskokoelmaa digitaalisessa muodossa, mutta sen käyttöehdot kieltävät hyödyntämästä kokoelmaa toisissa sovelluksissa lataamalla tai avoimien rajapintojen kautta. Kokeilussa hyödynnettiin siksi Semanttinen Finlex -projektin säädöstekstejä, jotka eivät ole ajantasaisia. Rajoituksen todettiin merkittävästi vaikuttavan ratkaisun luotettavuuteen. 

esimerkki kokeilusta

Tekoäly suoriutui paremmin rakenteistetun lausuntoaineiston käsittelyssä 

Lausunto voidaan antaa ”rakenteistetusti” jaoteltuina eri aihekohtiin tai ”rakenteistamattomasti” yhdessä kentässä. Yksittäiset lausunnot voivat myös sisältää tarinointia sekä lausunnon kontekstin ulkopuoliseen tietoon viittaavia huomioita, kuten mediassa käytyyn keskusteluun tai voimassa olevaan lainsäädäntöön. Lausuntoja ei myöskään anneta aina vain lausuntopalvelussa, vaan osa saatetaan antaa esimerkiksi sähköpostin välityksellä. Lausuntojen kerääminen eri tietolähteistä tekee datan hallinnoinnista haasteellisempaa tekoälyn kannalta. Tekoälyjärjestelmän voisi esimerkiksi yhdistää lausuntopalveluun siten, että se hakisi lausuntoja suoraan lausuntopalvelusta. 

VNK:n kokeilussa testattiin kielimallin hyödyntämistä sekä rakenteistetuilla että rakenteistamattomilla lausuntokierroksilla. Rakenteistamattomat lausunnot jaoteltiin ensin aihekohtiin tekoälyn avulla, jonka jälkeen generatiivinen tekoäly tuotti tiivistelmän. Tekoäly suoriutui tehokkaammin rakenteistetun aineiston käsittelyssä.  

Kokeiluissa myös todettiin, että lausuntojen yhtenäistämiseksi ja polveilevan kerronnan välttämiseksi lausuntokierroksia luotaessa tulisi käyttää selkeää kysymysten asettelua. 

2. Vaativan tehtävän opettaminen tekoälylle tarvitsee usein tuekseen kattavaa ja laadukasta esimerkkiaineistoa

Haastavan tehtävän opettaminen tekoälylle voi vaatia kattavaa ja laadukasta esimerkkiaineistoa kielimallien ohjeistamista varten. Avoimesti jaettua suomenkielistä koulutusaineistoa, jonka avulla voidaan hienosäätää esikoulutettuja kielimalleja käytännön sovelluksiin, on tällä hetkellä huonosti saatavilla.

esimerkki kokeilusta

Koulutusaineistoa voi kasvattaa myös keksityillä esimerkeillä 

Lausuntoyhteenvetojen tekeminen on tekoälylle monimutkainen tehtävä. Kielimalli ei pelkästään tiivistä aineistoa, vaan sen tulee tunnistaa lausunnossa annetuista kommenteista lausunnon kanta (kannatus tai vastustus). Sen tulee myös tiivistää lausunnoissa annetut muutosehdotukset ja perustelut.  

Tätä varten kielimallille tuli ohjeistaa esimerkkien avulla, miten tehdään oikeanlainen yhteenveto. Kokeilussa kielimallille opetettiin sekä aikaisemmista lausuntokierroksista kerättyjä että kuvitteellisia ja itse kirjoitettuja esimerkkejä, jotta saatiin mahdollisimman kattava koulutusaineisto. 

3. Hyödynnettävät tekoälymenetelmät tulee valita sovelluskohteen mukaan

Toimivat tekoälysovellukset vaativat usein eri kielimallien ja menetelmien käyttämistä yhdessä. Kompleksinen tehtävä voi olla hyödyllistä pilkkoa osiin ja rajata aluksi selkeästi, mitä haastetta tai haasteita lähdetään ratkaisemaan milläkin kielimallilla.

Joskus myös “perinteinen” tekoäly generatiivisen sijaan voi olla sopivampi tai tehokkaampi vaihtoehto. Asiantuntijat voivat auttaa ymmärtämään, mitkä tehtävät soveltuvat parhaiten juuri generatiivisen tekoälyn ratkottaviksi.

esimerkki kokeilusta

Lainsäädännön läpikäynti on kielimallille monivaiheinen tehtävä  

LVM:n kokeilussa keskityttiin tukemaan lainvalmistelijaa voimassa olevan lainsäädännön läpikäynnissä ja lainsäädäntöjen yhtäläisyyksien tunnistamisessa. Lainsäädännön läpikäynti on kielimallin näkökulmasta monivaiheinen tehtävä, jossa vertaillaan, haetaan, tiivistetään ja tuotetaan tekstiä.

Kokeilussa hyödynnettiin eri vaiheissa eri kielimalleja: Finnish Sentence BERT-kielimallia hyödynnettiin lainsäädäntöjen vertailuun ja hakuun, kun taas generatiivisia kielimalleja käytettiin vastausten tuottamiseen. 

4. Kielimallien rajoitukset tulee huomioida suunnittelussa 

Kielimallin tiedot rajoittuvat niiden koulutuksessa käytettyyn aineistoon. Sen ajantasaisuus riippuu koulutuksen ajankohdasta. Kielimallille voi kuitenkin syöttää ajantasaista tietoa eri menetelmillä, kuten integroimalla siihen ulkoisia tietolähteitä tai syöttämällä tieto suoraan sen kontekstiin.  

Kielimallin konteksti-ikkuna taas rajoittaa kerralla käsiteltävän tekstin määrää, eli mallille annettavan tekstisyötteen sekä sen tuottaman tekstin määrää.  

esimerkki kokeilusta

Lainvalmistelussa on tarvetta käsitellä suuria jatkuvasti päivittyviä aineistomääriä

Molemmissa kokeilussa lainvalmistelun sovelluskohteet vaativat niin suurien aineistomäärien käsittelyä, etteivät suomenkielisten kielimallien konteksti-ikkunat riittäneet kaiken tekstin käsittelemiseen yhdellä kerralla. Suomen lainsäädäntö ja lakitekstin erityispiirteet eivät myöskään olleet kokeiluissa käytetyille suomenkielisille kielimalleille ennestään tuttuja, sillä kyseisiä kielimalleja ei ole esikoulutettu lakiteksteillä. 

Molemmissa kokeiluissa tunnistettiin niin kutsuttu RAG-menetelmä (engl. retrieval augmented generation, suom. haun avulla laajennettu generointi) hyödylliseksi ratkaisuksi näihin haasteisiin. RAG-menetelmässä kielimalliin yhdistetään tiedonhakujärjestelmä.

Menetelmässä haetaan ensin käyttäjän kysymykseen liittyvää tietoa järjestelmälle määritellyistä tietolähteistä (esim. verkkosivut). Tämän jälkeen kielimalli luo vastauksen käyttäjälle haettuja tietoja hyödyntäen. RAG-menetelmän avulla voidaan myös parantaa vastausten läpinäkyvyyttä lähdeviitteillä. Se vähentää kielimallien taipumusta hallusinoinnille eli kielimallin virheellisille päätelmille sekä hyödyntää ajantasaista tietoa ilman kielimallin jatkuvaa kouluttamista.  

Vielä yksi huomio: Säästöjä alkaa syntyä vasta alun haasteiden jälkeen 

Kokeilut ovat osoittaneet lupaavaa näyttöä generatiivisen tekoälyn hyödyntämisestä lainvalmistelutyössä.

Tuottavuutta tehostavan työkalun kehittäminen on monivaiheista. Jatkokehityksen ja kattavan koulutusaineiston keräämisen on tapahduttava pitkäjänteisessä ja tiiviissä yhteistyössä yksityisen sektorin toimijoiden kanssa. 

Valtionhallinnossa on tehty erilaisia tekoälykokeiluja jo useita vuosia. On ensiarvoisen tärkeää, että kokeiluista kerätyt opit pannaan käytäntöön ja että lupaaviksi osoittautuneita kokeiluja edistetään ja skaalataan. 

Generatiivisen tekoälyn hyödyntäminen tehokkaasti yhdessä muiden teknologioiden kanssa mahdollistaa merkittävää tuottavuuden kasvattamista, mutta säästöjä alkaa syntymään vasta alkukankeuksien jälkeen. 

Mistä on kyse?