ZAGREB, 17. lipnja (Hina) - Hrvatski Internet prostor je jednostavan, u njemu se rabi mali broj različitih formata, tekst i slike imaju znatnu dominaciju nad video i audio zapisima, a stručnjaci njegovu veličinu procjenjuju na oko
318,7 GB podataka kojima se može pristupiti s javno dostupnih web stranicama u .hr vršnoj domeni.
ZAGREB, 17. lipnja (Hina) - Hrvatski Internet prostor je
jednostavan, u njemu se rabi mali broj različitih formata, tekst i
slike imaju znatnu dominaciju nad video i audio zapisima, a
stručnjaci njegovu veličinu procjenjuju na oko 318,7 GB podataka
kojima se može pristupiti s javno dostupnih web stranicama u .hr
vršnoj domeni. #L#
Rezultati su to danas predstavljenog mjerenja koje je za potrebe
Nacionalne i sveučilišne knjižnice (NSK) od 28. ožujka do 5.
svibnja ove godine proveo stručni tim Sveučilišnog računarskog
centra (SRCE), posebno dizajniranim i razvijenim programskim
sustavom MWP gatherer, odnosno robot programom. U SRCE-u je za tu
namjenu bio posebno dizajniran jedan poslužitelj, a niz oko
četrdesetak klijentskih softverskih proizvoda prikupljao je
stranice i slao ih u zajedničku bazu podataka.
Mjerena je veličina Internet prostora, korišteni formati zapisa
prema MIME standardu, te obim i sadržaj meta podataka, a obuhvaćeni
su bili elektronički resursi dostupni HTTP protokolom s
poslužitelja u .hr vršnoj internetskoj domeni.
Istraživanje se odnosilo samo na tzv. "surface web" stranice, jer
nije bilo moguće obuhvatiti stranice s zaštićenim pristupom,
dinamički generirane stranice kao i baze podataka dostupne putem
weba. Stručnjaci su pregledali oko 6.564 poslužitelja s preko šest
milijuna datoteka, od čega je uspješno obrađeno preko 4,6 milijuna.
Za 79 posto obrađenih resursa izmjerena je veličina od 263,4 GB, dok
je veličina preostalih 21 posto "nevidljivog" hrvatskog Weba,
odnosno onoga kojemu nisu mogli pristupiti, procijenjena na 55,3 GB
podataka. No, iznesena je mogućnost da je taj nevidljivi dio
Interneta i 40 puta veći od procjene.
Voditelj projekta Miroslav Milinović kazao je da je hrvatski web
prostor velik kao švedski u 1999., te da rezultati odgovaraju
sličnim istraživanjima provedenim u svijetu. Hrvatski Internet
prostor je jednostavan i u njemu se rabi mali broj različitih
formata, rekao je, ocijenvši to značajnim za one koje se žele baviti
arhiviranjem. Upozorio je da autori Internet stranice na brinu
dovoljno o meta podacima, te da inventivne, ali nestandardne
uporabe Internet tehnologija onemogućuju pobiranje podataka.
Gledano prema tipovima i formatima podataka, najveći broj resursa,
67 posto, otpada na HTML format, na slikovne formate otpada 23
posto, a na različite aplikativne formate poput PDF-a i Microsoft
Worda tek sedam posto, dok je udio audio i video zapisa samo 1
posto.
Uporaba meta podataka zabilježena je u 31 posto web stranica. Od
standarda na tom polju Dublin Core koristi se samo na 0,09 posto
Internet stranica, 25 posto ima meta podatke koje automatski
upisuju alati za izradu Internet stranica, a oko 20 posto ima
zapisane meta podatke prema preporukama Internetskih tražilica.
Kao programska podrška Apache Web poslužitelj koristi se na 57
posto poslužitelja, dok se Microsoft Internet Information Server
koristi na 29 posto, a udio Netscapea iznosi samo 1,26 posto.
Globalna procjena je da danas u svijetu ima oko dvije milijarde
Internet stranica, dok je prema istraživanju provedenom 1999. u
svijetu bilo 800 milijuna stranica s oko 15 TB podataka.
(Hina) nz db