Suomalaiset uutismediat ja generatiivisen tekoälyn hakubotit -tutkimus

Kirjoittanut Lari Numminen | 12.2.2024 7:25:30

Generatiivinen tekoäly on hyvin lyhyessä ajassa noussut suureksi maailmanlaajuiseksi trendiksi, jolla on vaikutus lähes kaikkien ihmisten työelämään ja arkeen. Harva ala kokee niin suuren muutoksen generatiivisen tekoälyn suhteen kuin journalistinen uutismedia.

8-9 helmikuuta selvitin miten 100 suomalaista sanomalehteä ja muuta uutismediaa julkaisevaa verkkosivustoa on varautuneet siihen, että heidän alkuperäistä sisältöä hyödynnetään generatiivisen tekoälyn kouluttamiseen. Mukaan tuli kaikki tunnetut kansalliset uutismediat ja iso määrä verkkosivustoja ylläpitäviä paikallisia uutispalveluja.

Tutkimuksen tarkoitus oli ymmärtää kuinka laajasti uutismediat ja eri mediakonsernit Suomessa estävät sisällönsä käytön generatiivisen tekoälyn palvelujen kouluttamisen. Ennen tuloksia katsotaan ensin miksi tämä on tärkeää.

Suuret kielimallit, hakubotit ja tekoälyn koulutus

Tekoäly mahdollistaa aikaisempaa tehokkaampia tapoja tutkia eri aihepiirejä ja luoda uutta sisältöä. Samalla generatiivinen tekoäly himmentää rajoja alkuperäisen sisällön luojien ja sisällön uudelleenkäyttäjien välillä.

Monet generatiivisen tekoälyn ratkaisut kuten ChatGPT perustuvat suuriin kielimalleihin. Yksinkertaisesti sanottuna nämä kielimallit keräävät paljon ihmisten luomaa sisältöä ja tulkitsevat missä yhteydessä sanoja ja tietoa on käytetty kouluttaakseen generatiivisen tekoälyn algoritmejä. Generoinnin prosessissa harva tietää mihin tietolähteeseen vastaus perustuu. Tekoäly yksinkertaisesti luo parhaan arvion siitä missä yhteydessä eri sanat liittyvät toisiinsa ja pyrkii jatkossa vastaamaan käyttäjien kysymyksiin kehittyneen koulutusdatan mukaan.

Vaikka generatiivisen tekoälyn kehittäjät eivät anna tarkkaa kuvaa koulutusdatansa tietolähteistään tiedetään, että monet hyödyntävät verkkosivuston hakubotteja. Googlen hakukoneen tavoin, nämä hakubotit, tai indeksointirobotit, käyvät läpi erilaisilla internetistä löytyvillä verkkosivustoilla ja pyrkivät koneistetusti tulkitsemaan niiden sisältöä. Ainoastaan hakubotin omistaja tietää lopulta miten niitä käytetään. Esimerkiksi ChatGPT:n omistaja OpenAI ei ole tähän päivään mennessä antanut tarkkaa ja yksityiskohtaista tietoa miten heidän botit toimivat.

Generatiivinen tekoäly ja hakubotti ei itsessään ei ole eettisesti hyvä tai huono työkalu. Paljon riippuu siitä miten niitä käytetään. Joulukuussa 2023 New York Times ilmoitti, että he haastavat OpenAI:n oikeuteen tekijänoikeuksien rikkomisesta tekoälyn koulutusprosessissa. Vaikka OpenAI ei itse pyrkisi rikkomaan julkaisijoiden tekijänoikeuksia, monet sisällön kehittäjät ovat voineet hyödyntää ChatGPT:ssä New York Timesin laajaa sisältöä oman samankaltaisen sisällön generoimiseen.

Hakubottien käyttöä voi rajoittaa. Verkkosivuston omistajat voivat estää hakubottien pääsyn verkkosivustojensa sisältöön yksinkertaisella tavalla hyödyntämällä "Disallow"-koodia verkkosivustonsa lähdekoodissa. Haaste tässä käytännössä on, että jokainen hakubotti on estettävä erikseen. ChatGPT:n hyödyntävien GPTBot- ja ChatGPT-user bottien lisäksi on jo olemassa useita muita samankaltaisia tekoälyä kouluttavia hakubotteja. Verkkosivuston ylläpitäjän pitäisi olla hyvin kartalla mitä botteja käy sivustollaan.

Kysymys kuuluukin miten Suomalaiset sanomalehdet ja uutismediat ovat lähestyneet tekoälyn hakubotteja, ja kuinka moni estää bottien mahdollisuuden kouluttaa tekoälyä sisällönsä perusteella?

Kuinka suomalaiset uutismediat estävät tekoälyn hakubotteja helmikuussa 2024

Tutkimuksen suoritti tämän artikkelin kirjoittaja ja tekoälystä kiinnostunut markkinointikonsultti Lari Numminen. Tutkin 8 ja 9 helmikuuta, 2024 kuinka 100 suomalaista sanomalehteä ja muuta uutismediapalvelua estää tekoälyä kouluttavia hakubotteja verkkosivustojensa robots.txt-tietokannassa. Lähdetieto löytyy Google Spreadsheetin muodossa täältä.

Tutkimuksen metodologia

Käytännössä katsoin läpi yksitellen tunnetuimpien suomalaisten sanomalehtien ja uutismediapalveluiden verkkosivustojen robots.txt tiedostot, ja merkitsin miten eri tekoälyn koulutuksessa käytettäviä hakubotteja on estetty "Disallow" merkinnällä.

Tutkin ainoastaan hakubotteja joilla tiedän olevan vaikutusta suurien kielimallien koulutukseen. En siis laskenut Googlebotin, tai muiden tunnettujen indeksointirobottien käyttöä, jos niillä ei ole suoraa yhteyttä tekoälyn koulutukseen.

Määritelmät:

sanomalehti on tässä tapauksessa verkkosivusto joka julkaisee säännöllisesti maanlaajusia tai paikallisia uutisaineistoa.
muu uutismedia on tässä tapauksessa muu merkittävä uutismedialähde, jolla on merkittävä määrä uutisia ja kirjoitettua sisältöä luettavissa verkkosivustojen kautta.
yhtymä on mediapalvelun omistaja tai julkaisija. Tutkimuksessa näkyy merkittäviä eroja miten eri mediayhtymät lähestyvät generatiivisen tekoälyn estämistä.
kieli on uutismedian pääasiallinen julkaisukieli, eli joko suomi tai ruotsi.
en sisältänyt mukaan suurelta osin käyttäjien julkaisemaa sisältöä sisältävät sivustot (esim. vauva.fi, tai suomi24.fi), enkä myöskään uutismedioita, joiden sisältöä ei voinut helposti lukea kirjautumatta verkkosivustojen kautta.
jos on kysymyksiä tai korjauksia tilastotietoihin, ne voidaan lähettää osoitteeseen lari@generatemore.ai.

Tutkimuksen tärkeimmät johtopäätökset:

58% kaikista suomalaisista uutismediapalveluista estää jonkun generatiivista tekoälyä kouluttavan hakubotin pääsyn verkkosivuston sisältöönsä.
64% verkkossa ilmestyvistä sanomalehdistä estää tekoälyä kouluttavat hakubotit, joten luku on hieman isompi verrattuna laajempaan kansalliseen uutismediaan.
CCBot, Google-Extended, GPTBot ja ChatGPT-user ovat Suomessa useimmiten estetyt tekoälyn koulutuksessa käytettävät botit.
35% uutismediasivustoista Suomessa estää myös Facebookin ja Amazonin käyttämät tekoälyä kouluttavat hakubotit.
Suurista mediakonserneista Keskisuomalainen ja Sanoma estävät eniten erilaisten bottien päästyä sisältöönsä.
Yle ei toistaiseksi näytä antavan ohjeistusta ollenkaan tekoälyä hyödyntäville hakuboteille yle.fi -sivustolla.
Ruotsinkieliset uutismediat estävät tekoälyä kouluttavia hakubotteja selvästi vähemmän kuin suomenkieliset sivustot. Löysimme estoja vain 37,5% Suomen ruotsinkielisistä uutissivustoista ja sanomalehtien verkkosivuista.
Mikään sivusto ei estänyt hiljattain Amazonilta merkittävästi rahoitusta saanutta Anthropicia, eli anthropic-ai hakubottia.

Tutkijan kommentteja tutkimuksen tuloksista

Tämä ajankohtainen tutkimus osoitti, että monet Suomalaiset mediakonsernit ja uutismediat tiedostavat jo generatiivisen tekoälyn koulutuksen heidän sisällöllään. Toisaalta, monille mediakonserneille yksittäisten hakubottien seuraaminen ja estäminen voi tuntua haastavalta, kun yhä enemmän erilaisia tekoälyn ratkaisuja tulee markkinoille.

Uutissisällön julkaisijoille hakubottien esto voi olla selkeä ja turvallinen ratkaisu. Kunnes tiedämme enemmän siitä, miten eri hakubotit käyttävät journalistista sisältöä on varmempi estää suosituimpien bottien pääsy arvokkaimpaan tietoon. Nähtäväksi jää kuinka paljon esimerkiksi OpenAI on valmis maksamaan julkaisijoille tekoälynsä kouluttamisesta.

Toisaalta, generatiivinen tekoäly voi myös tarjota uutissisällön luojille uusia luovia mahdollisuuksia. Mediakonsernit ja julkaisijat voivat hyödyntää generatiivisen tekoälyn työkalujen kasvavaa suosiota ja luoda uutta sisältöä niitä varten. Esimerkiksi Google on alkanut kokeilla generatiivisen tekoälyn vaikutuksia hakutuloksiin Search Generative Experience:n muodossa. Tekoälystä voi tulla uutismedioille tapa kohdata uusia maksavia asiakkaita.

Lopulta minusta olisi hyvä että suurien kielimallien kouluttamisesta ja generatiivisen tekoälyn lähdetiedoista puhuttaisi avoimemmin Suomessa sekä maailmalla. Pelkkä GPTBotin kielto ei tue pienen kansan ja kieliryhmän intressejä. Pysyäksemme kehityksessä mukana meillä pitäisi olla omia tapoja pysyä kehityksessä mukana. Mielenkiintoisena pidän esimerkiksi hiljattain Silo.ai:n julkaisemaa Poro-kielimalliperhettä. Tutkimuksessa ei ilmennyt että Poroa olisi erityisemmin estetty Suomalaisilla uutissivustoilla, mutta ei ole myöskään viitteitä siitä että sen kehityksessä hakubotteja olisi käytössä.

Tutkimustulosten seuranta ja käyttöoikeudet

Pyrin päivittämään tutkimuksen tuloksia säännöllisesti ja päivitän tätä artikkelia kun tuloksiin tulee merkittäviä muutosia. Tutkimuksen tuloksiin voi viitata ja lähdetietoa voi hyödyntää vapaasti, kunhan mainitaan viittaus alkuperäiseen tutkimukseen.

Jos löydät virheen tai muutoksen tutkimuksen tuloksissa, lähettäkää tieto osoitteeseen lari@generatemore.ai.

Näytä koko julkaisu

Suomalaiset uutismediat ja generatiivisen tekoälyn hakubotit -tutkimus

Suuret kielimallit, hakubotit ja tekoälyn koulutus

Kuinka suomalaiset uutismediat estävät tekoälyn hakubotteja helmikuussa 2024

Tutkimuksen metodologia

Tutkimuksen tärkeimmät johtopäätökset:

58% kaikista suomalaisista uutismediapalveluista estää jonkun generatiivista tekoälyä kouluttavan hakubotin pääsyn verkkosivuston sisältöönsä.

64% verkkossa ilmestyvistä sanomalehdistä estää tekoälyä kouluttavat hakubotit, joten luku on hieman isompi verrattuna laajempaan kansalliseen uutismediaan.

CCBot, Google-Extended, GPTBot ja ChatGPT-user ovat Suomessa useimmiten estetyt tekoälyn koulutuksessa käytettävät botit.

35% uutismediasivustoista Suomessa estää myös Facebookin ja Amazonin käyttämät tekoälyä kouluttavat hakubotit.

Suurista mediakonserneista Keskisuomalainen ja Sanoma estävät eniten erilaisten bottien päästyä sisältöönsä.

Yle ei toistaiseksi näytä antavan ohjeistusta ollenkaan tekoälyä hyödyntäville hakuboteille yle.fi -sivustolla.

Ruotsinkieliset uutismediat estävät tekoälyä kouluttavia hakubotteja selvästi vähemmän kuin suomenkieliset sivustot. Löysimme estoja vain 37,5% Suomen ruotsinkielisistä uutissivustoista ja sanomalehtien verkkosivuista.

Mikään sivusto ei estänyt hiljattain Amazonilta merkittävästi rahoitusta saanutta Anthropicia, eli anthropic-ai hakubottia.

Tutkijan kommentteja tutkimuksen tuloksista

Tutkimustulosten seuranta ja käyttöoikeudet