Kätketyn aarteen metsästys
Mikä yhteistä on Jorma Ollilan Sveitsin-osoitteella, Teemu Selänteen Kalifornian-kodin verotiedoilla ja CIA:n vankilalennon yksityiskohdilla? Kaikkien tiedot löytyvät internetistä. Toimittajat Esko Varho ja Hanna Takala kertovat, miten.
![]() |
Ensi vilkaisulla kaikki näyttää normaalilta: etusivulla asiallisen harmaalle pohjalle on sijoiteltu asiallisella fontilla kirjoitettuja sanoja, kuvia, linkkejä. Tarkempi katsaus martinlutherking.org-sivustoon herättää kuitenkin epäilykset. Etusivulle nostetusta lehtisiteerauksesta silmille rävähtävät virkkeet ”I’m fucking for God!” ja ”I’m not a Negro tonight!”. Ei sittenkään kovin asiallista. Mikä on tämä sivusto ja kuka on sen takana?
Täältä se selviää. A-studion toimittaja Esko Varho klikkaa tietokoneellaan uuden välilehden ja naputtaa osoiteriville domaintools.com. Ruudulle avautuu internetsivujen ylläpitäjien tietoja ympäri maailmaa kokoava sivu. Hakusarakkeeseen kirjoitettu verkko-osoite kertoo pian, että Kingiä käsittelevät sivut on rekisteröity Don Black -nimisen henkilön ja Stormfront-nimisen organisaation nimiin.
Kävijä saa tietää myös sivujen rekisteröinnin päivämäärän, paikan ja ylläpitäjän yhteystiedot. Sanan Stormfront googlaus paljastaa, että kyse on Yhdysvalloissa toimivasta uusnatsijärjestöstä. Mistään neutraalista Kingin hahmoa taustoittavasta sivustosta ei siis ole kyse. Silti moni lienee mennyt lankaan.
”Olemme tottuneet siihen, että Googlessa etsimämme löytyy ensimmäisten hakutulosten joukosta. Martin Luther Kingin googlaus tuo tämän uusnatsijärjestön sivuston yhdeksi ensimmäisistä tuloksista. Se on klassinen, muttei mitenkään harvinainen esimerkki”, Varho kertoo.
Kingin tapaus osoittaa, että mikään ei ole yhtä tärkeää kuin kriittisyys, kun verkosta etsitään tietoa. Kaiken tiedon kyseenalaistamista peräänkuuluttaa Varhon lisäksi Hanna Takala, 45 minuuttia -ohjelman toimittaja.
”Jos verkossa joku sanoo jotakin, aivan liian harvoin otetaan selvää, kuka sanoja on ja mitkä ovat hänen kytköksensä. Lapsuuden sankareideni neiti Marplen ja Hercule Poirot’n sanoin: älkää olko niin herkkäuskoisia!”
Takalalle itselleen asioiden tarkistaminen on lähes neuroottinen rutiinitoimenpide.
”Tarkistan kaikki tietoni kolmeen kertaan. Kirjoitan myös ylös lähteiden löytymisen ajankohdat ja merkitsen ne Excel-taulukoihin. Jos tieto on saatu puhelinkeskustelun aikana, kirjoitan ylös senkin. Verkkolähteet tallennan yleensä kahteen kertaan, sekä itse verkkosivun että jpeg-kuvan siitä.”
Tietokoneavusteista journalismia CARia (computer assisted reporting) työssään hyödyntävät Takala ja Varho muistuttavat, että tehokkaan verkkotiedonhaun lähtökohta ei itse asiassa ole etsiä itse tietoa vaan sen paikkaa, useimmiten tietokantaa. Tärkeintä on käyttää maalaisjärkeä: ”Jos etsisit tietoa fyysisestä maailmasta, mieti missä tieto voisi sijaita. Millaisesta virastosta, rekisteristä tai yrityksestä tietoa kyselisit? Mitä paikan ovessa lukee?” Varho kehottaa miettimään.
Ajattelu on hyvä pitää yksinkertaisena. Jos siis pitäisi saada selville Jorma Ollilan Sveitsin-asunnon osoite ja puhelinnumero, mistä etsisit? Puhelinluettelosta, tietysti. Yksinkertaiset hakusanat phone
book switzerland antavat Googlessa ensimmäiseksi hakutulokseksi maksuttoman sveitsiläisen verkkopuhelinluettelon osoitteen, tel.search.ch. Sieltähän se löytyy: Ollilan kotipuhelinnumero, osoite ja kartta, jonka avulla voi navigoida perille.
Usein tärkeää onkin jakaa haku vähintään kahteen osaan. Ensin siis tiedon paikka, esimerkiksi opetusministeriö, ja vasta sitten ministeriön verkkosivuilta löytyvällä hakukoneella itse tieto. Paikkaa etsiessä hyviä hakusanoja ovat esimerkiksi tietokanta, hakemisto, database, registry/register, directory ja archive.
Toinen tehokkaan haun edellytys on rajaaminen.
”Jos tiedät etsiväsi verkosta vaikkapa puhetta, rajaa hakemasi tiedostomuoto. Jos etsit ruotsinkieliseltä verkkosivulta, valitse haettujen tiedostojen kieleksi pelkkä ruotsi. Jos etsit tietoa ihmisestä, muista, että
mitä tavallisempi nimi, sitä enemmän hakutuloksia ja sitä tärkeämpää on rajata hakuehtoja”, Hanna Takala neuvoo.
Esimerkiksi tilastot ovat verkossa usein pdf-muodossa, jolloin haku kannattaa rajata pelkkiin pdf-tiedostoihin.
Hakusanallakin on merkitystä. Takala antaa esimerkin: ”Etsin tietoa villisikatarhoista ja kirjoitan Googleen hakusanaksi villisikatarha tai villisikatarhat. Hakutulokseksi tulee yksittäisiä yrityksiä, kotisivuja ja tutkimustuloksia. Jos taas haen hakusanoilla kotisivu villisika yhdistys, löydän heti kaikkien suomalaisten villisiankasvattajien yhteystiedot. Suomessa jokaisella taudilla, aatteella ja eläimellä on oma yhdistyksensä, joista jokainen löytyy verkosta, kun vain osaa etsiä.”
Esko Varhon mukaan myös spesifin kysymyksen esittäminen tuottaa silloin tällöin tulosta. Siis kuten: Kuka on Paradise Oscar? Missä sijaitsee Palau? Onko kuu juustoa?
”Jos joku muu on jo esittänyt kysymyksen verkossa, on hyvin mahdollista, että samasta yhteydestä löytyy myös vastaus”, sanoo Varho.
Jos ei heti tärppää, kannattaa olla kärsivällinen. Se, ettei tietoa heti löydy, ei tarkoita, etteikö sitä verkossa olisi – hakumetodi vain todennäköisesti on väärä. Google on hakukoneena älykäs ja osaa tulkita käyttäjäänsä arvaamalla, mitä tämä tarkoitti. Tietokannoista etsittäessä on kuitenkin käytettävä niiden omia hakukoneita, jotka eivät anna yhtä paljon anteeksi. Hakulauseen pitää usein olla juuri oikea, esimerkiksi muodossa sukunimi, etunimi. Väärä muoto ei tuota välttämättä mitään tulosta.
”Jos haluaa päästä pintaa syvemmälle, on luotettava siihen, että tietoa löytyy pintaa syvemmältä. Pitää vain kaivaa”, Varho sanoo.
Mutta niin kehittynyt kuin Google nykyään onkin, aina ei sekään tietoa löydä. Koska hakukone yleensä tarjoaa ensimmäisenä juuri oikeaa, etsimäämme sivua, luulemme, että jos se ei tietoa löydä, sitä ei verkossa ole. Toisin kuin usein kuvitellaan, hakukone ei kuitenkaan etsi tietoa internetistä, vaan omasta indeksistään. Hakukoneen robotit indeksoivat eli haravoivat verkkoa koko ajan, mutta jos tieto on ilmestynyt verkkoon robotin käynnin jälkeen, sitä ei hakukoneella löydy.
”Aiemmin hakukoneet eivät pystyneet indeksoimaan esimerkiksi pdf-tiedostoja, mutta nykyään ne löytyvät hakutuloksista. Esimerkiksi tietokantojen sisältöihin hakukoneet eivät kuitenkaan pääse vieläkään käsiksi”, Esko Varho kertoo.
Verkkosivujen ylläpitäjä on myös voinut itse estää indeksoinnin. Niin toimivat esimerkiksi monet mediatalot.
Muun muassa verkossa olevat puhelinluettelot, patenttirekisteri, verotietorekisteri, yhdistysrekisteri ja kaikki muut sekä avoimet että suljetut tietokannat ovat useimmiten Googlen ja muiden hakukoneiden ulottumattomissa. Ne sijaitsevat niin sanotussa deep webissä (syvä verkko) tai invisible webissä (näkymätön verkko), jonka on arvioitu olevan useita kertoja avointa verkkoa suurempi.
”On hyvä muistaa myös, että vaikka Google-haku toisi oikean vastauksen heti ensimmäisten tulosten joukossa, tärkeää tietoa voi olla myös kaukana listan alapäässä”, Varho sanoo.
”Mitä tuntemattomampi asia tai ihminen, sitä useammin kannattaa avata hakutulosten loppupäässä olevia osumia”, Takala täydentää.
Sekä Esko Varho että Hanna Takala käyttävät säännöllisesti työssään myös erilaisia ulkomaisia tietokantoja. Monista löytyy tietoa myös Suomen ulkomailla asuvista kansalaisista.
”Meillä ei ole maailman huonoin julkisuuslainsäädäntö, mutta esimerkiksi Yhdysvaltoihin verrattuna Suomessa kerrotaan aika vähän”, Takala sanoo.
Esko Varho todistaa väitteen näyttämällä, miten yhdysvaltalaisten tietokantojen avulla saa selvitettyä esimerkiksi Teemu Selänteen talon arvon. Haku on monivaiheinen, ja aluksi on selvitettävä, missä Selänne asuu. Tieto löytyy vaivatta monesta eri osoitteesta. Whitepages.com tärppää ensimmäisenä.
”Seuraavaksi on ajateltava loogisesti. Kuka tietää ihmisten raha-asioista? No verottaja. Googlataan sanoilla tax records california. Huomaamme, että nyt pitäisi tietää, missä piirikunnassa talo sijaitsee. Jälleen googlataan, ja niin löytyy Orange county.”
Kaliforniassa verotietohakua ei voi tehdä nimellä, mutta osoitteella vastaus löytyy parissa minuutissa.
Internetistä löytyneen tiedon avulla on syntynyt lukuisia sekä paikallisia että maailmanlaajuisia skuuppeja. Yksi suurimmista käsitteli CIA:n vankilalentoja. Sitä oli paljastamassa muun muassa Stephen Grey, brittiläinen tutkiva journalisti. Hän etsi tietoa verkosta, jäljitti peitehenkilöllisyydellä toimineita lentäjiä pilottirekisteristä, tutki verkosta löytyvää lentodataa ja lentokonebongareiden rekistereitä ja seurasi sivustoja, jotka näyttävät reaaliaikaisesti Yhdysvaltain ilmatilassa olevien lentokoneiden liikkeet.
Tietokantojen avulla Grey kaivoi esiin tiedonmurusia, joiden avulla syntyi maailmanlaajuinen tutkivan journalismin taidonnäyte.
Kuten Greyn tutkimukset, moni verkkotiedonhakuprosessi saattaa vaikuttaa monimutkaiselta. Hanna Takala ja Esko Varho vakuuttavat kuitenkin, että toimittaja ei tarvitse minkään sortin koodaustaitoja. Onnistuminen on kiinni aivan muusta kuin teknisestä osaamisesta.
”Onnistunut tiedonhaku on ennen kaikkea ajattelukysymys. Aivot on saatava tiettyyn asentoon, sen jälkeen homma toimii”, Varho sanoo.
Samaa mieltä on Takala: ”Tärkeintä on yleissivistys ja yhteiskunnan tuntemus. Voidakseen analysoida loputonta tietomäärää, joka verkossa avautuu, on tiedettävä, miten yhteiskunta toimii, miten ihmiset toimivat. Mitä enemmän verkkoa käyttää, sitä tärkeämpää se on.”
pipl.com Hyvä aloituspaikka. Etsii tietoa ihmisistä ympäri maailmaa, myös useista deep web -lähteistä.
people.yahoo.com Kätevä amerikkalaisten tietojen etsimisessä. Etsii myös puhelin-numerolla.
whitepages.com Tietoa erityisesti Yhdysvalloissa asuvista ihmisistä.
publicrecords.onlinesearches.com
Sekä maksullisia että maksuttomia hakuja. Rekisteritietoa avioliitoista -eroihin ja syntymistä kuolemiin.
mugshots.com Pidätyskuvia erityisesti amerikkalaisista julkisuuden henkilöistä.
wayp.com ja infobel.com Kansainvälisiä puhelinluetteloita.
...tietoa organisaatioista
prh.fi Kaupparekisteri, yhdistysrekisteri, säätiörekisteri, yrityskiinnitykset.
asiakastieto.fi Yritysten raportteja, luottotietoja, kiinteistötietopalveluita.
...tietoa verkkosivuista
domaintools.com Paljastaa ip-numeron ja serverin sijainnin.
domaintools.com/research/whois-history/ Kun haluat tietää, kenelle tunnus on aiemmin rekisteröity.
who.is/domain_archive-net Maksuton historiallinen who is -palvelu.
...tilastoja ja arkistoja
stat.fi Tilastokeskus. Tietoja koulutuksesta kansantalouteen ja vaaleista väestöön.
kotaplus.csc.fi/online/Etusivu.do Opetusministeriön palvelu, jossa yliopisto- ja koulutusalakohtaista tilastotietoa vuodesta 1981.
thl.fi Tietoa ja tilastoja kaikilta terveyden ja hyvinvoinnin alueilta.
makupalat.fi Hämeenlinnan kaupunginkirjaston linkkikirjasto. Myös muilla kirjastoilla sekä Suomessa että maailmalla loistavia, toimitettuja hakemistoja.
arkisto.fi/ Arkistolaitos. Loputon määrä kansalliseen kulttuuriperintöön kuuluvia asiakirjoja.
archives.gov ja archive.org Historiallisia arkistoja.
wayback.archive.org/web/ Kaivaa verkosta poistettuja sivuja vuosien takaa. Sivustoa käytetty muun muassa Jussi Halla-ahon vanhojen blogikirjoitusten etsimiseen.
...tietoa laivojen ja lentokoneiden liikkeistä
marinetraffic.com Alusten reaaliaikaiset
liikkeet maailman merillä. Palvelu myös suomeksi.
flightstats.com Näyttää reaaliajassa, missä Yhdysvaltain ilmatilassa olevat lentokoneet ovat.
Muita hyödyllisiä rekistereitä Ammattilisenssirekisterit, ammattikäyttöön tarkoitetut tietokannat, yritysten lakisääteiset ilmoitukset viranomaisille, kuten pörssiyhtiöiden ilmoitukset Yhdysvalloissa.


