ZAGREB/RIM, 31. siječnja (Hina) - Citat "Biti ili ne biti, pitanje je sad" automatski je među čitateljima prepoznatljiv kao dio Shakespeareovog "Hamleta", a uskoro će i računala automatski moći identificirati dijelove teksta ili tekst
i pripisati ih određenom autoru.
ZAGREB/RIM, 31. siječnja (Hina) - Citat "Biti ili ne biti, pitanje
je sad" automatski je među čitateljima prepoznatljiv kao dio
Shakespeareovog "Hamleta", a uskoro će i računala automatski moći
identificirati dijelove teksta ili tekst i pripisati ih određenom
autoru.#L#
Znanstvenici na sveučilištu La Spienza u Rimu pronašli su nove
načine analiziranja tekstova pomoću 'kompresijskog' programa
Gzip, koji je moguće besplatno naći na interetu, objavljeno je u
četvrtak na internet stranicama ABC newsa.
Kompresijski programi poput Gzipa inače smanjuju veće računalne
datoteka - npr. tekstove - traženjem informacija koje se
ponavljaju.
Pronalaženjem i identificiranjem takvih dijelova, kompresijski
program može veličinu originalne datoteke smanjiti ograničavajući
sadržaj na osnovne jedinice s podacima i uputama kako ih koristiti
kako bi se ponovno kreirale originalne datoteke.
Jedan od autora izvješća Emmanuele Caglioti kaže da se programski
proces kompresije može koristiti i u identificiranju datoteka s
nepoznatim podacima, navodi se u članku će biti objavljen u listu
"Physical Review Letters".
Kada program poput Gzipa smanji neku datoteku "on uči nešto o
datoteci", rekao je Caglioti.
On zapravo uči entropiju datoteke ili najmanju količinu podataka
potrebnih za kodiranje datoteke. Tako će datoteke sličnog sadržaja
dijeliti sličnu entropiju s obzirom da će dijeliti zajedničke
osnovne jedinice, rekao je Caglioti.
"Ako npr. odlučite smanjiti datoteku koja je sastavljena od
engleskog teksta, Gzip će, dok ga bude čitao, učiti statistiku
engleskog jezika", objašnjava Caglioti. "Što ga više čita to ga
više smanjuje", rekao je.
Dodavanjem drugih engleskih tekstova datoteka se neće jako
mijenjati u veličini jer joj je entropija već poznata.
Međutim, ističe Caglioti, ako drugi tekst bude na talijanskom,
cijeli proces mora ići iz početka. Program tada mora učiti
talijanski, dodao je talijanski znanstvenik.
On i njegov istraživački tim smatraju da isto načelo i proces mogu
biti iskorišteni u "identificiranju" djela nekog autora. Oni su u
svom istraživanju tako sakupili 90 tekstova 11 talijanskih pisaca i
u 93 posto slučajeva metoda se pokazala uspješnom u 'sparivanju'
manjih tekstova s određenim piscima.
No, Caglioti ide i dalje. On smatra da nema razloga vjerovati da
kompresijski program ne može biti upotrijebljen i u druge svrhe.
"Osim u prepoznavanju teksta, program može biti upotrijebljen u
uspoređivanju web stranica i pronalaženju sličnih", rekao je
Caglioti.
(Hina) bis dv