Papy Geek

Un blog différent sur tous les bons trucs du Web

Google : un mystère fascinant et bien gardé

stats 3,305 lectures.

L’infrastructure utilisée par le géant de la recherche Google est un mystère que beaucoup aimeraient percer, que ce soit les concurrents ou les utilisateurs étonnés de la réactivité sans faille des services malgré un nombre d’utilisateurs record.

google-pingdom-tools

Voici quelques réponses et hypothèses concernant les Data centers de Google.

La culture du secret

Google estime que leurs Data Centers leur donnent un avantage important face à la concurrence, c’est pourquoi peu d’informations filtrent sur le nombre de centres, leur taille, leur localisation, leur puissance ou encore la consommation électrique de ceux-ci.

Pour rester discrets, les data centers ne sont d’ailleurs pas créés sous le nom de Google, mais par des sociétés LLCs (Limited Liability Corporations) soit l’équivalent de nos sociétés à responsabilité limité en France.

Où sont les Data Centers ?

Si on compte les sites en construction, les connaissances actuelles font état de 19 sites aux Etats-Unis, de 12 en Europe, 3 en Asie, 1 en Russie et 1 en Amérique du Sud. Tous les data centers ne sont pas la propriété de Google, qui continue à louer de l’espace dans des centres tiers (principalement pour du Peering).

datacenters-google-dans-le-monde
datacenters-google-en-europe

Les plus de 500 adresses IP utilisées par le moteur de recherche Google donnent d’ailleurs peu d’informations quant à la localisation des centres puisque la plupart pointent vers le quartier général de Google à Mountain View en Californie.

Voir la carte des Data Centers ici.

Le gigantisme

D’après les rapports de comptes de Google, la firme aurait dépensée 1.9 milliards de dollars en 2006 pour ses centres et 2.4 milliards de dollars en 2007. Chaque nouveau projet de data center coûterait 600 millions de dollars.
De quoi payer la consommation électrique de chaque centre qui serait de 50 MegaWatts pour les centres majeurs et pourraient atteindre la valeur estimée de 103 MegaWatts.

Dans l’Oregon, le site de Google serait composé de 3 Data Centers de 6380m², un bâtiment administratif de plus de 1800m², d’un dortoir de 1500m² pour les employés de passage et 1600m² pour les tours de refroidissement.

google-south-carolina

Le choix des sites

Le choix de l’emplacement des Data Centers est déterminé par plusieurs critères :

  • La disponibilité d’une source d’énergie bon marché à proximité,
  • La présence de sources d’énergie renouvelable : éoliennes, énergie hydro-électrique,
  • La proximité de larges sources d’eau pour les besoins de refroidissement (rivières ou lacs),
  • La présence de larges espaces pour facilité la sécurité et la confidentialité du site,
  • La répartition des Data Centers : afin de maintenir une communication efficace entre les sites, les observateurs pensent que la proximité et la bonne répartition des centres est un élément important pour des temps de réponse faibles,
  • Les réductions d’impôts : beaucoup de régions ou d’Etats fournissent des avantages à Google en échange de son installation.

L’architecture matérielle et logicielle

Google utilise des machines à bas prix montées en cluster et y ajoute des alimentations à très bon rendement. Ces alimentations sont modifiées pour y intégrer des batteries, leur permettant de fonctionner en “Alimentations sans Interruption” (UPS) plus communément appelées onduleurs.

Google fabriquerait aussi ses propres switchs 10 Gigabit à faible consommation. En 2006, le nombre de serveurs estimé était de 450 000.

Pour la partie logicielle, Google utilise des logiciels maison pour tirer pleinement partie de son architecture répartie :

  • Google File System (GFS) : c’est un système de fichier distribué fiable et extensible pour les applications ayant un recours intensif aux données. Le système est basé sur Linux et ext3. Il est optimisé pour les fichiers de grande taille et conçu pour continuer à fonctionner en cas de panne de certains éléments du cluster (résilience). Voir aussi l’article de Wikipedia.
  • Google Web Server (GWS) et Google Front End (GFE) sont des versions personnalisées d’Apache utilisées pour héberger les sites Web de la firme. Google GFE/1.3 est par exemple utilisé pour héberger Gmail ou Blogger. GWS est utilisé entre autres pour Google Images (Version 2.1). Voici une liste non exhaustive des services de Google et de la technologie serveur correspondante :

    Main Search: GWS/2.1
    Google Accounts: GFE/1.3*
    Google AdSense: GFE/1.3*
    Google AdWords: GFE/1.3*
    Google Analytics (Login Page): GWS/2.1
    Google Analytics (Auth Page): GFE/1.3*
    Google Analytics (Other Pages): ucfe*
    Google Analytics (Analysis Image and JS): ucfe
    Google Analytics (Images/JS/CSS/Flash): ga-reporting-fe
    Google Answers: GFE/1.3
    Google Base: asfe
    Blogger: Apache
    Google Book Search: OFE/0.1
    Google Calendar: GFE/1.3
    Google Catalogs: OFE/0.1
    Google Code: codesite/2104877
    Google Desktop: GFE/1.3
    Google Directory: GWS/2.1
    Google Downloads: GWS/2.1
    Google Finance: SFE/0.8
    Google Finance Stock Charts (Images): FTS (C)1997-2006 IS.Teledata AG
    Froogle: cffe
    Google Groups: GWS-GRFE/0.50
    Hello: Apache/2.0.53
    Google Help Pages: TrakhelpServer/1.0a
    Google Images: GWS/2.1
    Google Labs: Apache
    Google Local / Maps: mfe
    Google Local/Maps (Images): tfe
    Google Mail: GWS/2.1
    Google Mobile: GWS/2.1
    Google Moon: mfe
    Google Moon (Images): GWS/2.1
    Google Music Search: mws
    Google News: NFE/1.0
    Orkut: GFE/1.3*
    Google Pack: COMINST/1.0
    Picasa (.com): Apache/2.0.53
    Picasa (.google.com): GWS/2.1
    Google Page Creator (Sign-up page): GFE/1.3*
    Google Page Creator (User pages): GFE/1.3
    Google Personalized Homepage: igfe
    Google Scholar: GWS/2.1
    Google Search History: Search-History HTTP Server
    Google Sets: Apache
    Google Site-Flavored: GWS/2.1
    Google Sitemaps: GFE/1.3
    Google SMS: GWS/2.1
    Google SMS Search Requests: SMPP server 1.0
    Google SMS (GMail Registration): GFE/1.3*
    Google SMS (Page Viewer): GFE/1.3
    Google Suggest: Auto-Completion Server
    Google Transit: mfe
    Google Translate: TWS/0.9
    Google Video: GFE/1.3
    Google Reader: GFE/1.3
    Google Ride Finder: Apache
    Google Talk: GWS/2.1
    Google Toolbar: GFE/1.3
    Google Toolbar (PR Lookup): GWS/2.1
    Google Web Accelerator: GFE/1.3
    Google Web Alerts: PSFE/4.0

  • MapReduce: c’est un framework utilisé pour analyser et générer de grands volumes de données. Les programmes développés sur l’architecture MapReduce sont automatiquement parallélisées sur un ensemble des machines “standards” du cluster de Google. MapReduce traite couramment plusieurs TéraOctets de données sur plusieurs milliers de machines. Un exemple de traitement est de compter le nombre d’occurence d’un mot dans plusieurs documents : les occurences seront calculées pour chaque document sur des machines différentes et sommées à la fin.
    Au départ pensé pour être utilisé dans des cas spécifiques, le framework s’est révélé applicable dans beaucoup de traitements de données différents utilisés dans les applications Google.
    Pour plus d’informations, consultez ce document PDF.
  • BigTable : c’est un système de stockage distribué de données structurées prévu pour être extensible à des volumes de données dépassant le PetaOctet. Il est utilisé par le moteur de recherche de Google, par Google Earth ou encore Google Finance.
    Pour plus d’informations, consultez ce document PDF.

La Disponibilité

Cette infrastructure distribuée et résiliente permet aux services de Google d’afficher une disponibilité supérieure à 99,99% comme le confirme ce rapport de Pingdom qui s’intéresse aux différences de disponibilité du moteur de recherche entre les pays.

royal-pingdom-google-availability-differs-greatly-between-countries

La culture d’entreprise

La culture d’entreprise de Google est d’après moi un élément déterminant de sa réussite. On est très loin de la culture d’entreprise française.

google-zurich

Voici le reportage “Google, la machine à penser“, riche en informations sur cet esprit d’entreprise :

En quelques secondes, avec une exactitude stupéfiante, Google apporte aux internautes la réponse à la requête qu’ils ont lancée sur Internet. Le moteur de recherche, né il y a dix ans en Californie, a révolutionné notre vie quotidienne. Retour sur un phénomène de société.

En moins de dix ans, Google s’est transformé. La petite société créée en 1998 par deux copains de fac passionnés d’informatique est devenue en peu de temps un véritable empire qui compte aujourd’hui près de 14 000 employés.

Le moteur de recherche imaginé par Sergey Brin et Larry Page sur le campus de l’université de Stanford, en Californie, est devenu un outil utilisé quotidiennement par un demi-milliard de personnes à travers le monde.

Avec une simple idée - donner aux internautes la possibilité d’accéder gratuitement et en un seul clic aux informations qu’ils cherchent -, ils sont parvenus, au fil du temps, à générer quelque 10 milliards de dollars de chiffre d’affaires.

Mais qui se cache derrière Google ? Comment fonctionne cette entreprise ? Comment est-elle organisée ? N’est-elle pas trop puissante ? Peut-on utiliser ses services en toute confiance ? Autant de questions auxquelles Gilles Cayatte répond dans ce documentaire inédit.

Entre performance et prédation

En filmant l’envers du décor, il fait pénétrer le téléspectateur dans les coulisses de cet univers à part composé d’un googleplex (un siège social) et de googlers (des salariés) épris de googlitude.

Il révèle une organisation régie par une hiérarchie réduite au minimum, où les employés - à peine trentenaires - semblent tous être mus par un même désir : innover en permanence pour que leur entreprise soit toujours plus créative et performante.

Il montre aussi comment une ambition, au départ généreuse - la mise à disposition gratuite de tous les savoirs -, devient peu à peu une machine destructrice. “Google, explique Michael Malone, éditorialiste au Wall Street Journal, ressemble à un énorme prédateur.” Ceux qui se trouvent sur son passage n’ont que peu de chance de résister à sa puissance...

Quelques photos

D’autres ici ou ici.

Et si vous voulez voir où tout à commencé, vous pouvez lire ce rapport de Sergey Brin et Lawrence Page pour Stanford : The Anatomy of a Large-Scale Hypertextual
Web Search Engine
à l’origine du projet Google.

Pour chercher du travail chez Google, c’est par ici ou par là

Références :

Google Platform, Wikipedia.
Map of all Google data center locations, PingDom.
Google availability differs greatly between countries, PingDom.
Google DataCenter FAQ, Data Center Knowledge.
Google Architecture, High Scalability.
Papers Written by Googlers, Google Research.

Trouver des photos en un clin d’œil

stats 451 lectures.

Si vous cherchez des photos, Flickr peut être un bon début. Seulement, son moteur de recherche n’est pas aussi performant et rapide à utiliser qu’un Google Images qui lui n’a pas toujours un contenu pertinent.

C’est donc là que CompFight entre en scène en offrant un moteur de recherche pour les photos de Flickr.

Compfight - a flickr search tool

Les résultats s’affichent très rapidement sur une page allégée de tout texte envahissant.

L’intérêt de l’outil est également de pouvoir trier selon des critères Creative Commons pour ceux soucieux des droits d’auteurs, contrairement à Google Images où on ne sait pas grand chose des droits des photos.

Pour les fans de photos, c’est donc par ici.

Tester un site web de A à Z

stats 1,438 lectures.

Popularité

Plusieurs services permettent de tester la popularité d’un site au sens large.

SocialMeter permet de calculer le nombre de liens pointant vers un site Web sur différents services dont certains services “sociaux” comme Delicious ou Digg.

Social Meter

popuri.us affiche plusieurs indicateurs très connus concernant la popularité et la diffusion du site.

popuri.us -- quickly check your site\'s Google PageRank, Alexa Rank and more!

Le service Page Strength de SEOMoz permet de calculer la “force” de votre site, principalement en fonctions du nombre de liens qui pointent vers votre site sur Google, Yahoo, Technorati, Digg, etc.

SEOmoz | Page Strength SEO Tool

TalkDigger permet de voir qui parle d’un site sur Internet, en interrogeant plusieurs services simultanément : Technorati, Google Blog, Digg, BlogPulse, etc.

Talk Digger Search for: \

Technologies

Built With affiche des informations concernant les technologies utilisées dans l’architecture du site via son Technology Profiler.

Exemple :

BuiltWith has detected Google Analytics, Google Adsense, RSS, PHP, WordPress, Atom, UTF-8, XHTML Transitional, MyBlogLog, Friends Network, Really Simple Discovery, WordPress Stats, Live Writer Support, Pingback Support, Cascading Style Sheets, Wordpress Plugins, Javascript already being used on papygeek.com

Technology and SEO Profile for papygeek.com

Affichage et Design

BrowserShots permet de tester le design d’un site dans différents navigateurs sous plusieurs systèmes d’exploitation (Linux, Windows et MacOS) :

Testez le design de votre site dans différents navigateurs - Browsershots

IE NetRenderer teste le rendu (et donc la compatibilité) dans plusieurs version d’Internet Explorer de Internet Explorer 5.5 à Internet Explorer 8 Beta 1.

IE NetRenderer - Browser Compatibility Check - www.papygeek.com

BrowsrCamp fait la même chose, mais avec les navigateurs de MacOSX (Safari pour la version gratuite disponible en ligne).

BrowsrCamp

Pour connaître le rendu sur un dispositif mobile, vous pouvez utiliser la démo Live d’OperaMini.

Opera Mini

Performances

L’outil de Pingdom Tools permet de simuler le téléchargement complet d’une page Web et d’obtenir le temps de téléchargement de chaque élément ainsi que de la page complète.

Pingdom Tools

Vous pourrez ainsi déterminer les éléments pénalisants comme les scripts externes.

WebPageAnalyser de Site24×7 fera le même genre d’analyse :

Site24x7 - Online tool to analyze webpage and its objects

Pour un rapport textuel, WebSiteOptimizer fera l’affaire.

Web Page Speed Report - WebSiteOptimization.com

L’extension Firefox Firebug permet de faire de nombreuses choses comme regarder le temps de chargement de chaque élément d’une page Web directement depuis son navigateur (ou modifier en live une page Web).

Firebug Net

Pour aller plus loin, il est possible d’installer l’extension développée par Yahoo YSlow qui permet de tester les performances et de donner une note au site testé. Les résultats sont donnés sous forme de conseils permettant d’améliorer son score.

Accessibilité/Navigation

Pour tester l’accessibilité d’un site Web, le validator du W3C est très efficace.

[Valid] Markup Validation of http://www.papygeek.com/ - W3C Markup Validator

HTML2TXT permet de tester le rendu du site au format texte. C’est utile pour l’accessibilité mais aussi d’un point de vue SEO, puisque ce contenu est à peu de choses près celui qui sera utilisé par les moteurs de recherches pour vous référencer.

html2txt- online service to convert web pages to plain text

SEO / Optimisation pour les moteurs de recherche

Google Webmaster Tools permet d’obtenir un nombre très important d’informations sur votre site Web : erreurs HTTP, pages non trouvées, liens morts, analyse du contenu (balises meta, titre... ), top des recherches, informations sur les liens internes et liens externes, gestion des sitemaps, etc.

Google Webmaster Tools - Overview

WebSite Grader permet de générer un rapport complet avec analyse des meta, du contenu, liens externes dans les annuaires et moteurs de recherche, etc. Le site obtient alors une note sur 100.

Web Site Marketing SEO Tools, SEO Score

La SEO Toolbox de SEOMoz fournit une compilation de plusieurs outils intéressants :

SEOmoz | SEO Toolbox - Free SEO Tools

Ranks.fr permet lui de suivre votre positionnement dans Google pour les mots clés choisis.

Ranks.fr Suivi de référencement google & position google

Supervision

ozMonitor permet de superviser votre site Web, et notamment de vous avertir par mail en cas d’indisponibilité.

ozMonitor ( Solution de supervision et de gestion des performances des sites web )

Ping

Just-Ping.com est un service permettant de voir si le site est disponible à travers le monde. Contrairement aux autres services de ping, Just-Ping utilise une vingtaine de lieux différents depuis lesquels les tests sont effectués. Alors, on vous entend en Chine ?

Just ping - Online ping - Online web-based ping- remote ping a server or web site using our network with 26 checkpoints worldwide

Who-Is et DNS

Who Is The Owner est un service de WhoIs plutôt complet qui vous donnera les informations sur le propriétaire de la page. Intéressant également si vous voulez voir quelles informations trainent à propos de votre site.

Who Is The Owner- - Universal Whois Online Service

Vous pouvez également utiliser le WhoIs de Domain Tools.

Domain Tools Who Is

Ou pour ceux qui aiment l’Ajax : AjaxDNS.

DNS Tools - Ajax DNS

Qui partage votre hébergement ?

Si vous êtes sur un hébergement mutualisé, plusieurs sites possèdent la même adresse IP que la votre et partagent donc vraisemblablement les ressources du serveur Web avec vous. Si un gros site est parmi ceux-ci, les performances de votre site peuvent être pénalisées.

Il existe plusieurs services permettant d’effectuer une requête IP inversée, c’est à dire connaître les noms de domaines correspondant à une adresse IP.

On peut citer notamment le “Reverse IP DNS Domain Check Tool” de seologs.com :

Reverse IP DNS Tool - Find Domains That Share Your IP Address.

Ou le “Reverse IP Domain Check” de YouGetSignal :

YouGetSignal.com - Find Other Web Sites Hosted on a Web Server

Quel est l’hébergeur ?

Vous trouvez qu’un site répond à une vitesse folle alors que le votre est plutôt lent ? Pour connaître quel est l’hébergeur d’un site Web vous pouvez intérogger le site Who Is Hosting This.

Who is Hosting fr.techcrunch


N’hésitez pas à proposer les services que vous utilisez fréquemment dans les commentaires de l’article, je les rajouterai à la liste.

Si vous cherchez à optimiser votre blog sous WordPress pour les moteurs de recherche, le livre blanc “SEO for WordPress Blogs” peut être une ressource intéressante.

SEO for WordPress Blogs

L’auteur aborde certains éléments fondamentaux :

  • Utilisation de l’URL Rewriting avec le paramétrage de la structure des permaliens dans l’administration de WordPress,
  • Des conseils d’ordre général : effectuer des pings vers les moteurs de recherche pour les nouveaux articles, relire ses articles et vérifier qu’il n’y a pas de lien mort (404), que les titres et descriptions sont bien renseignées, utiliser des mots clés dans ses titres, etc.,
  • Utiliser des liens dans ses articles, des liens vers les articles liés, et afficher une blogroll,
  • Faire un article par sujet (permet d’avoir des mots clés significatifs dans le contenu et dans le titre, il faut se concentrer sur quelques mots clés),
  • Utiliser des “extraits optionnels” pour éviter le duplicate content,
  • Utiliser l’attribut “No-Index” dans les META des pages d’archives pour là aussi éviter le duplicate content,
  • Soumettre son blog dans les annuaires, et dans les sites sociaux (Technorati, del.icio.us, Stumble Upon, etc.)
  • Rédiger régulièrement de nouveaux articles, commentez sur d’autres blogs, utilisez les trackbacks et les flux RSS,
  • Devenez une ressource en écrivant des TOP 10, des Best of, des tutoriaux et des guides,
  • Utiliser des plugins spécialisés pour WordPress : SEO Title Tag, Ultimate Tag Warrior, Add Meta Tags, Follow URL, Contextual Related Posts, Social Bookmarks.

Alors ? Vous avez déjà tout bon dans cette checklist ? Utile en tous cas pour les petits nouveaux sous WordPress.

RedZee : un moteur de recherche visuel

stats 398 lectures.

RedZee est un moteur de recherche visuel à l’effet plutôt réussi.

Lire la suite »

Moteur de recherche de .torrent

stats 1,177 lectures.

Il y a quelque jours est apparu un moteur de recherche de torrent entièrement en flash, plutôt apprécié puisque rapide et plutôt joli. Seulement, l’aventure pour torrent’em a été de courte durée lorsque l’administrateur de torrentz, un autre moteur de recherche de torrent très célèbre, s’est aperçu qu’un nombre anormalement élevé de requêtes provenaient de la même IP, provoquant des difficultés sur le serveur.

Lire la suite »

Etes-vous indexé rapidement ?

stats 481 lectures.

Google Reader a rajouté plusieurs fonctionnalités dans sa dernière mise à jour. Parmi celles-ci, les plus visibles étaient certainement la nouvelle favicon colorée ainsi que la demande de confirmation lorsque l’on veut marquer tous les articles comme lus.

Lire la suite »

Encore un moteur de recherche de MP3

stats 789 lectures.

Voici encore un moteur de recherche permettant de rechercher et d’écouter en streaming des MP3. L’originalité de MP3shki.ru est qu’il est hébergé en russie (tout est légal en russie... ) et qu’il gère les playlists.

Lire la suite »

mp3zy : streaming et téléchargement de MP3

stats 1,297 lectures.

Voici encore un nouvel outil pour télécharger et écouter des MP3 : mp3zy. Le site se présente sous la forme d’un moteur de recherche où il est possible d’entrer l’artiste, l’album ou le titre recherché.

Lire la suite »

Super Mario Doom

stats 1,082 lectures.

Le premier niveau de Super Mario Bros refait avec le moteur de Doom, y’a pas à dire, c’est quand même sympa de poutrer du goomba au fusil à pompe.

Lire la suite »

Apartés