Google: the next generation

  

Ik zit me al een tijdje af te vragen waar ze blijven. De volgende generatie superzoek machines. Google is cool. Basta. En waarvoor die gemaakt is, rss zoekenis feedster heerlijk. Maar waar ik op zit te wachten is de gecombineerde machine. Google indexeert internet pagina's. Van alle soort, dus ook weblogs en nieuwssites. En van de laaste soort komen er steeds meer. We tikken wat af met zijn allen, en publiceren dat allemaal maar op het web, want dat is soms al met een muisklik gebeurd. En google ziet dat en indexeert dat.

Alleen er is een probleem, je krijgt vervuiling van je index als je weblogs indexeert als waren ze een webpagina. Nieuws sites en weblogs hebben op hun hoofdindex een heleboel dingetjes staan. (redelijk) snel wegzakkende 'nieuws berichten', balken aan de zijkant met nog sneller wegzakkende berichten of juist balken met nooit veranderende links.

we publiceren de hele structuur van onze website als een document. We hebben een hekel aan frames omdat frames browser technisch inferieur zijn aan dynamische pagina's die te bookmarken zijn. dat lukt je niet in een framed site.

Maar deze manier van publiceren plaats indexeermachines als google voor een enorm probleem. Omdat ze pagina's indexeren leggen ze de verkeerde associaties. Daar kunnen ze weinig aan doen gezien dit juist het kenmerk is van wat ze doen. Woorden van de pagina zoeken en alle pagina's teruggeven waar dat woord in voor komt.

De kans dat je mis prikt op een google search wordt steeds groter aangezien het aantal dynamische websites groeit.

Feedster als toegevoegde techniek aan google kan de ommekeer in dit probleem geven.

En google weet dit. Het is niet voor niets dat ze blogger hebben overgenomen. Ze zijn daar waarschijnlijk druk aan het testen.

Mijn voorspelling wat ze gaan presenteren op niet al te lange termijn.

Een indexeer machine die rss of yarss(yet another rss)/atom/(n)echo/pie kan combineren. Als volgt. De machine gaat het web af struinen naar pagina's om te cachen en indexeren. vroem vroem botje struint het web af, ziet een robots.txt leest die, geeuw eens zien waar ik niet mag komen ... en hoppa index.php .jsp .html ... volgen. lekker lezen, linkjes zoeken en hop volgen ...

dan 's avonds thuisgekomen van een lange dagen pagina's lezen en linkjes volgen. headers lezen..

heej een rss versie van deze site, haalt rss versie op, en werpt ondertussen de index in de vuilnis bak. volgt de permanente links in de rss en indexeert deze juist wel en een lange werkdag is gedaan.

feedster doet juis dit laatste. rss indexeren. en als je actuele dingen zoekt, als je iets kwijt bent waarover je gisteren iets dacht gelezen te hebben, dan zoek je op feedster.

de kans is groot dat je dit soort korte termijngeheugen zaken bij feedster vind. google kan dit trucje ook. iedereen kan het in principe (een beetje dan) dus google zeker. Waar het om draait is om twee dingen te combineren. Het weggooien van de index en de losse items indexeren. Google - (weblogs / nieuwssites) + (weblog per item / nieuwssites per item).

Dat is de killer database voor een zoekmachine.

En google gaat dat bouwen. hoop / denk ik.

Microdoc beweert van niet

Why did google by blogger

previous item: Voer voor de junkies next item: Deugd
thank you for watching  Creative Commons License