Keresünk a Hálón
Cserháti András
1998.11.14 v1.01
utoljára aktualizálva 2000.10.08 v.1.2
Hol vannak a
tűk a sok ezer szalmakazalban?
Az alábbiakban arról lesz szó, hogy hol, mit, mivel, hogyan kereshetünk
a hálózaton. Példaként keresünk közérdekű információkat is telefonkönyvben,
menetrendben, könyvtárakban, műsorokban, sajtóban stb. Jelen feldolgozás
egy 15-20 perces, internetes demonstrációval egybekötött előadás anyaga,
ami korlátozza mélységét, terjedelmét.
A világháló méretei,
növekedési trendje. Nem kilátástalan itt keresni?
Az internet hatalmas, és szédítő ütemben töretlenül növekszik. Erről
minden nap friss elemzések készülnek, az internetre
kötött gépek száma mára (2000. október eleje) majdnem 95 millióra
tehető. Az ábrára kattintva annak napi aktuális változata jön elő:
Az összes gépből a .hu
végződésű névvel azonosított magyarországi gépek száma mintegy 132 ezer.
Egyszerű osztással kijön, hogy a csatlakozó magyar gépek most az internet
kb. 1,4 ezrelékét képezik.
A gépek területi
elosztása messze nem egyenletes, főként
az északi féltekére összpontosul. A tavaly nyári eloszlás lényegét tekintve
ma is érvényes. Dominál Észak-Amerika, Nyugat- és Észak-Európa, Japán és
Korea.
A déli féltekén csak kisebb koncentráció van elsősorban Argentína-Brazília,
Dél-Afrika, Ausztrália és Új Zéland körzetében.
Ezeknek a gépeknek kisebb része szolgáltató, a többeiekről pedig el
lehet érni a szolgáltatásokat. A szolgáltató gépeken a lapokszáma
milliárdos nagyságrendbe esik. Tehát már ma is több
milliárdnyi lapból kell megtalálni azt
a néhányat, amelyen a számunkra szükséges tartalom van! Ekkora feladatot
ember nem képes megoldani, ezért rábízták számítógépekre.
Keresőrobotok és
keresőgépek. Működésről röviden.
Manapság két alapvető keresési módszer létezik:
-
A nyers erőre, számítógépes teljesítményre alapozó módszer. A lényege a
következő: Erős és nagy tárolójú gépekben működő speciális
programok (más
néven robotok vagy pókok)
folyamatosan olvassák a világháló szolgáltató gépein lévő lapokat, az ott
talált adatokat tárolják, az előforduló szavakat szószedetekbe töltik.
Ezt indexálásnak nevezzük. Kereséskor a megadott szavakat nagyon gyorsan
megtalálják a sorba rendezett hatalmas indexben, ahonnan kiolvassák, hogy
melyik lapokon fordult elő ez a szó. Néhány ilyen keresőgép:
-
Tematikus összerendezettség módszere. A lapokat emberek
előzetesen kialakított, több szintű kategóriákba
rendezik. A kereséskor egyre szűkülő kategóriákból választva
közelíthetünk a keresett témához. A gépi munkán alapuló robotos-pókos módszernél
lassúbb. Kevesebb lapot lehet így feldolgozni, vagy megtalálni, de a kapott
eredmény pontosabb. Néhány ilyen kereső:
A két eltérő keresési módszer némileg összemosódik, például pontosan
a Lycosnál. Az ember készítette kategóriák között is lehet szavakra keresni,
illetve robotos keresők is egyre többször felajánlanak bizonyos kategóriákat.
Néhány kereső teljesítményének
összevetése
Egy aktuális
összevetés szerint a mostani csúcstartó
kereső - a Google - összesen 560
millió dokumentumról tárol adatokat. A hivatkozások kezelésének
hatékony módja miatt ráadásul a Google olyan lapokat is meg tud mutatni,
amelyeket maga meg sem látogatott. Az élvonalbeli keresők sorrendeje:
A tárolt dokumentumok száma szerint:
|
Hány százalékát látja a teljes internetnek?
|
jelmagyarázat:
GG=Google, WT=WebTop.com, AV=AltaVista, FAST=FAST,
NL=Northern Light, EX=Excite, INK=Inktomi, Go=Go (Infoseek)
Mit jeleznek ki
a keresők eredményként?
Az eredménylap az egyes keresőknél eltérő, de sok közös elemük van.
Az eredmények megjelenítése legtöbbször beállítható.
Leggyakrabban megjelenő elemek:
-
a kereső fejléce,
-
reklámcsík (sokszor a témába vág),
-
valamilyen aktualitás,
-
találatok száma,
-
találati % vagy valamilyen számszerűrített sorbarendezési szempont,
-
internetes cím (URL),
-
pár soros összefoglaló (általában a lap kezdetének a szövege),
-
dátum (a
-
lapméret (kBájtban),
-
a lap nyelve,
-
hasonló témájú lapok, stb.
Csordába fogott
keresők (metakeresők)
Ahogy a keresők elszaporodtak, lusta emberek kitalálták, hogyan lehet
egyszerre vagy látszólag egyszerre több segítségével keresni. Már metakeresőből
is egyre több van. Néhány ilyen:
-
Egyik legelső - mára elavult - képviselőjük az All4one
volt. Négyablakos keretbe foglalt élvonalbeli keresőket (AltaVista, Lycos,
HotBot, Excite), mindnek elküldte a keresőszavakat, és szinte egyidőben
válogathattunk a befutó válaszokból..
-
Az Inference Find, a gyors, párhuzamos
kereső szétküldi a kérdést több robotnak, és a válaszokat egységes listába
rendezi, az ismétlődéseket kiszűri.
-
A legutóbbi összevetések szerint a leghatékonyabb metakereső az Ixquick
. Gyors és alapos, 14 keresőgép adatait fogja össze. Az eredmények fontosság
szerint rendezettek, megjelenik az utalás a találatot adó keresőgépre is.
Hogyan szűrhetők
ki a legjobb lapok a találatok tengeréből?
Ahogy nő a szalmakazlak száma, növekszik a megtalált tűk száma is. Ha
a keresés eredménye százas, ezres vagy tízezres nagyságrendű, tovább kell
finomítani a keresést új szavak vagy kizáró támpontok megadásával.
A találati lista elejére kerülnek az értékesebbnek vélhető találatok,
így azt nem kell végignézni. De milyen alapon dönthető el, hogy melyek
a legjobb találaltok? Erre a sorba rendezésre is sokféle, automatizálható,
tanulási elemeket tartalmazó módszer létezik:
-
mekkora az előfordulási gyakorisága a keresett szavaknak a lapon (darabszám
vagy darabszám/szöveghossz),
-
hány hivatkozás van az adott lapra a többi találatot tartalmazó lapon
-
hányszor választották az adott lapot keresések eredménylistáiból stb.
A jó boltos is a keresett árut a legfeltűnőbb helyre teszi.
Különleges szolgáltatások
A kezdetben egyszerű keresőlapok mára egyre több kiegészítő szolgáltatást
nyújtanak:
-
elugrás a legfrisebb hírekre
-
könyvvásárlás a keresett témában (amazon.com)
-
ingyenes fordítószolgálat (http://babelfish.altavista.com/translate.dyn)
-
leskelődés (mások mit keresnek)
-
a legtöbbet keresett 10 vagy 100 téma, vagy lap listája
-
weblap felajanlas feldolgozasra
-
saját kereső letöltése és üzembe állítása gépünkön
-
keresőlap testreszabása (szín, tartalmi bőség, elrendezés)
folytatás
(c) CsaTolna Egyesület az internet megyei fejlesztéséért,
1998-2000