Generatiivinen tekoäly on hyvin lyhyessä ajassa noussut suureksi maailmanlaajuiseksi trendiksi, jolla on vaikutus lähes kaikkien ihmisten työelämään ja arkeen. Harva ala kokee niin suuren muutoksen generatiivisen tekoälyn suhteen kuin journalistinen uutismedia.
8-9 helmikuuta selvitin miten 100 suomalaista sanomalehteä ja muuta uutismediaa julkaisevaa verkkosivustoa on varautuneet siihen, että heidän alkuperäistä sisältöä hyödynnetään generatiivisen tekoälyn kouluttamiseen. Mukaan tuli kaikki tunnetut kansalliset uutismediat ja iso määrä verkkosivustoja ylläpitäviä paikallisia uutispalveluja.
Tutkimuksen tarkoitus oli ymmärtää kuinka laajasti uutismediat ja eri mediakonsernit Suomessa estävät sisällönsä käytön generatiivisen tekoälyn palvelujen kouluttamisen. Ennen tuloksia katsotaan ensin miksi tämä on tärkeää.
Tekoäly mahdollistaa aikaisempaa tehokkaampia tapoja tutkia eri aihepiirejä ja luoda uutta sisältöä. Samalla generatiivinen tekoäly himmentää rajoja alkuperäisen sisällön luojien ja sisällön uudelleenkäyttäjien välillä.
Monet generatiivisen tekoälyn ratkaisut kuten ChatGPT perustuvat suuriin kielimalleihin. Yksinkertaisesti sanottuna nämä kielimallit keräävät paljon ihmisten luomaa sisältöä ja tulkitsevat missä yhteydessä sanoja ja tietoa on käytetty kouluttaakseen generatiivisen tekoälyn algoritmejä. Generoinnin prosessissa harva tietää mihin tietolähteeseen vastaus perustuu. Tekoäly yksinkertaisesti luo parhaan arvion siitä missä yhteydessä eri sanat liittyvät toisiinsa ja pyrkii jatkossa vastaamaan käyttäjien kysymyksiin kehittyneen koulutusdatan mukaan.
Vaikka generatiivisen tekoälyn kehittäjät eivät anna tarkkaa kuvaa koulutusdatansa tietolähteistään tiedetään, että monet hyödyntävät verkkosivuston hakubotteja. Googlen hakukoneen tavoin, nämä hakubotit, tai indeksointirobotit, käyvät läpi erilaisilla internetistä löytyvillä verkkosivustoilla ja pyrkivät koneistetusti tulkitsemaan niiden sisältöä. Ainoastaan hakubotin omistaja tietää lopulta miten niitä käytetään. Esimerkiksi ChatGPT:n omistaja OpenAI ei ole tähän päivään mennessä antanut tarkkaa ja yksityiskohtaista tietoa miten heidän botit toimivat.
Generatiivinen tekoäly ja hakubotti ei itsessään ei ole eettisesti hyvä tai huono työkalu. Paljon riippuu siitä miten niitä käytetään. Joulukuussa 2023 New York Times ilmoitti, että he haastavat OpenAI:n oikeuteen tekijänoikeuksien rikkomisesta tekoälyn koulutusprosessissa. Vaikka OpenAI ei itse pyrkisi rikkomaan julkaisijoiden tekijänoikeuksia, monet sisällön kehittäjät ovat voineet hyödyntää ChatGPT:ssä New York Timesin laajaa sisältöä oman samankaltaisen sisällön generoimiseen.
Hakubottien käyttöä voi rajoittaa. Verkkosivuston omistajat voivat estää hakubottien pääsyn verkkosivustojensa sisältöön yksinkertaisella tavalla hyödyntämällä "Disallow"-koodia verkkosivustonsa lähdekoodissa. Haaste tässä käytännössä on, että jokainen hakubotti on estettävä erikseen. ChatGPT:n hyödyntävien GPTBot- ja ChatGPT-user bottien lisäksi on jo olemassa useita muita samankaltaisia tekoälyä kouluttavia hakubotteja. Verkkosivuston ylläpitäjän pitäisi olla hyvin kartalla mitä botteja käy sivustollaan.
Kysymys kuuluukin miten Suomalaiset sanomalehdet ja uutismediat ovat lähestyneet tekoälyn hakubotteja, ja kuinka moni estää bottien mahdollisuuden kouluttaa tekoälyä sisällönsä perusteella?
Tutkimuksen suoritti tämän artikkelin kirjoittaja ja tekoälystä kiinnostunut markkinointikonsultti Lari Numminen. Tutkin 8 ja 9 helmikuuta, 2024 kuinka 100 suomalaista sanomalehteä ja muuta uutismediapalvelua estää tekoälyä kouluttavia hakubotteja verkkosivustojensa robots.txt-tietokannassa. Lähdetieto löytyy Google Spreadsheetin muodossa täältä.
Käytännössä katsoin läpi yksitellen tunnetuimpien suomalaisten sanomalehtien ja uutismediapalveluiden verkkosivustojen robots.txt tiedostot, ja merkitsin miten eri tekoälyn koulutuksessa käytettäviä hakubotteja on estetty "Disallow" merkinnällä.
Tutkin ainoastaan hakubotteja joilla tiedän olevan vaikutusta suurien kielimallien koulutukseen. En siis laskenut Googlebotin, tai muiden tunnettujen indeksointirobottien käyttöä, jos niillä ei ole suoraa yhteyttä tekoälyn koulutukseen.
Määritelmät:
Tämä ajankohtainen tutkimus osoitti, että monet Suomalaiset mediakonsernit ja uutismediat tiedostavat jo generatiivisen tekoälyn koulutuksen heidän sisällöllään. Toisaalta, monille mediakonserneille yksittäisten hakubottien seuraaminen ja estäminen voi tuntua haastavalta, kun yhä enemmän erilaisia tekoälyn ratkaisuja tulee markkinoille.
Uutissisällön julkaisijoille hakubottien esto voi olla selkeä ja turvallinen ratkaisu. Kunnes tiedämme enemmän siitä, miten eri hakubotit käyttävät journalistista sisältöä on varmempi estää suosituimpien bottien pääsy arvokkaimpaan tietoon. Nähtäväksi jää kuinka paljon esimerkiksi OpenAI on valmis maksamaan julkaisijoille tekoälynsä kouluttamisesta.
Toisaalta, generatiivinen tekoäly voi myös tarjota uutissisällön luojille uusia luovia mahdollisuuksia. Mediakonsernit ja julkaisijat voivat hyödyntää generatiivisen tekoälyn työkalujen kasvavaa suosiota ja luoda uutta sisältöä niitä varten. Esimerkiksi Google on alkanut kokeilla generatiivisen tekoälyn vaikutuksia hakutuloksiin Search Generative Experience:n muodossa. Tekoälystä voi tulla uutismedioille tapa kohdata uusia maksavia asiakkaita.
Lopulta minusta olisi hyvä että suurien kielimallien kouluttamisesta ja generatiivisen tekoälyn lähdetiedoista puhuttaisi avoimemmin Suomessa sekä maailmalla. Pelkkä GPTBotin kielto ei tue pienen kansan ja kieliryhmän intressejä. Pysyäksemme kehityksessä mukana meillä pitäisi olla omia tapoja pysyä kehityksessä mukana. Mielenkiintoisena pidän esimerkiksi hiljattain Silo.ai:n julkaisemaa Poro-kielimalliperhettä. Tutkimuksessa ei ilmennyt että Poroa olisi erityisemmin estetty Suomalaisilla uutissivustoilla, mutta ei ole myöskään viitteitä siitä että sen kehityksessä hakubotteja olisi käytössä.
Pyrin päivittämään tutkimuksen tuloksia säännöllisesti ja päivitän tätä artikkelia kun tuloksiin tulee merkittäviä muutosia. Tutkimuksen tuloksiin voi viitata ja lähdetietoa voi hyödyntää vapaasti, kunhan mainitaan viittaus alkuperäiseen tutkimukseen.
Jos löydät virheen tai muutoksen tutkimuksen tuloksissa, lähettäkää tieto osoitteeseen lari@generatemore.ai.