Naar de inhoud

Blog

  • 14 jun 2010 r.lohman

    Google Caffeine

    maandag 14 juni 2010

    Afgelopen dinsdag (8 Juni 2010) heeft Google, Google Caffeine geïntroduceerd. Google Caffeine is het nieuwe web indexatie systeem van Google en deze moet ervoor gaan zorgen dat Google websites sneller kan indexeren. In het officiële blog van Google is te lezen dat Google Caffeine ervoor zorgt dat de zoekresultaten die Google terug geeft tot wel 50% verser zijn. Dit wil zeggen dat wanneer er op een website een nieuwe reactie komt op een forum, een nieuwe blog of een Twitter bericht, deze eerder in Google gevonden kunnen worden.

    Google Caffeine

    Eerst een klein stukje achtergrond informatie: Wanneer u een zoek opdracht invoert bij Google, zal deze niet “live” op het internet uitgevoerd worden. Google gaat zoeken in zijn eigen index naar de opgegeven zoekopdracht. Je kan dit vergelijken met de index die achter in een boek staat. De index van Google helpt u de locatie van de informatie die u zoekt te bepalen en verwijst u (door middel van een link) hier naartoe. Om deze index op te bouwen, en up-to-date te houden, maakt Google gebruik van een zogenaamde “web crawler” deze crawler doorzoekt webpagina’s en voegt deze toe aan de Index van Google.
    Maar waarom heeft Google dit nieuwe systeem voor indexeren gemaakt? Het internet is steeds meer in beweging. Het is steeds makkelijker geworden om nieuwe informatie, afbeeldingen of video’s te delen op internet en doordat social media als Twitter steeds sneller groeien wordt er steeds sneller informatie verspreid via internet. Ook verwacht de gebruiker van een zoekmachine dat hij de meest relevante en actuele informatie vindt. De gebruiker die een item (bijv. een blog) plaatst op internet verwacht dat deze zo snel mogelijk kan worden gevonden via Google.

    In het verleden waren web pagina’s statisch. De inhoud wijzigde niet zo vaak dus het indexeren van deze pagina’s was ook niet zo vaak nodig. Om de ene pagina sneller veranderd dan een andere, werkte Google met verschillende lagen waarvan de ene laag sneller wordt ververst dan de andere. Het gevolg van deze manier van indexeren is dat het lang duurt voordat het hele web geïndexeerd is, en dat de zoekresultaten die gevonden worden in de index van Google dus eigenlijk verouderd zijn.

    Google Caffeine

    Google Caffeine gaat op een andere manier de Index van Google vernieuwen. Webpagina’s worden real-time door geanalyseerd door Caffein. Door het analyseren van kleine stukjes van een webpagina kan Google Caffeine zien of er dingen gewijzigd zijn. Alleen de gewijzigde pagina’s worden dan verwerkt in de Google Index. Hierdoor is het mogelijk dat de resultaten die Google vindt op uw zoektermen, veel recentere informatie bevat. Met Google Caffeine is het voor Google mogelijk om enorme hoeveelheden data te indexeren. Elke seconde kan Google Caffeine honderd duizenden pagina’s verwerken. Stelt u zich een stapel van bijna vijf kilometer papier voor. Dit is de hoeveelheid pagina’s die Google Caffeine elke seconde toevoegt aan zijn index. De door Google opgeslagen data is nu al meer dan 100 miljoen gigabytes groot. Om deze hoeveelheid aan data op te slaan zouden ongeveer 625.000 van de grootste iPods nodig zijn. Aaneengeschakeld zouden deze een lijn vormen van meer dan 65 kilometer.

    Nu vraagt u zich natuurlijk af wat dit kan gaan betekenen voor uw website? Wanneer u een pagina toevoegt aan uw website, of wijzigingen op een pagina aanbrengt zullen deze eerder worden gevonden door Google. Het wordt dus steeds belangrijker de informatie op uw website up to date te houden zodat Google de goede informatie weergeeft. Wanneer uw site up to date is, worden de nieuwe of aangepaste pagina’s eerder gevonden door Google.

    In de onderstaande video legt Matt Cutts van Google meer uit over de werking van caffeine.
    YouTube voorvertoningsafbeelding