L’infrastructure utilisée par le géant de la recherche Google est un mystère que beaucoup aimeraient percer, que ce soit les concurrents ou les utilisateurs étonnés de la réactivité sans faille des services malgré un nombre d’utilisateurs record.
Voici quelques réponses et hypothèses concernant les Data centers de Google.
La culture du secret
Google estime que leurs Data Centers leur donnent un avantage important face à la concurrence, c’est pourquoi peu d’informations filtrent sur le nombre de centres, leur taille, leur localisation, leur puissance ou encore la consommation électrique de ceux-ci.
Pour rester discrets, les data centers ne sont d’ailleurs pas créés sous le nom de Google, mais par des sociétés LLCs (Limited Liability Corporations) soit l’équivalent de nos sociétés à responsabilité limité en France.
Où sont les Data Centers ?
Si on compte les sites en construction, les connaissances actuelles font état de 19 sites aux Etats-Unis, de 12 en Europe, 3 en Asie, 1 en Russie et 1 en Amérique du Sud. Tous les data centers ne sont pas la propriété de Google, qui continue à louer de l’espace dans des centres tiers (principalement pour du Peering).
Les plus de 500 adresses IP utilisées par le moteur de recherche Google donnent d’ailleurs peu d’informations quant à la localisation des centres puisque la plupart pointent vers le quartier général de Google à Mountain View en Californie.
Voir la carte des Data Centers ici.
Le gigantisme
D’après les rapports de comptes de Google, la firme aurait dépensée 1.9 milliards de dollars en 2006 pour ses centres et 2.4 milliards de dollars en 2007. Chaque nouveau projet de data center coûterait 600 millions de dollars.
De quoi payer la consommation électrique de chaque centre qui serait de 50 MegaWatts pour les centres majeurs et pourraient atteindre la valeur estimée de 103 MegaWatts.
Dans l’Oregon, le site de Google serait composé de 3 Data Centers de 6380m², un bâtiment administratif de plus de 1800m², d’un dortoir de 1500m² pour les employés de passage et 1600m² pour les tours de refroidissement.
Le choix des sites
Le choix de l’emplacement des Data Centers est déterminé par plusieurs critères :
- La disponibilité d’une source d’énergie bon marché à proximité,
- La présence de sources d’énergie renouvelable : éoliennes, énergie hydro-électrique,
- La proximité de larges sources d’eau pour les besoins de refroidissement (rivières ou lacs),
- La présence de larges espaces pour facilité la sécurité et la confidentialité du site,
- La répartition des Data Centers : afin de maintenir une communication efficace entre les sites, les observateurs pensent que la proximité et la bonne répartition des centres est un élément important pour des temps de réponse faibles,
- Les réductions d’impôts : beaucoup de régions ou d’Etats fournissent des avantages à Google en échange de son installation.
L’architecture matérielle et logicielle
Google utilise des machines à bas prix montées en cluster et y ajoute des alimentations à très bon rendement. Ces alimentations sont modifiées pour y intégrer des batteries, leur permettant de fonctionner en “Alimentations sans Interruption” (UPS) plus communément appelées onduleurs.
Google fabriquerait aussi ses propres switchs 10 Gigabit à faible consommation. En 2006, le nombre de serveurs estimé était de 450 000.
Pour la partie logicielle, Google utilise des logiciels maison pour tirer pleinement partie de son architecture répartie :
- Google File System (GFS) : c’est un système de fichier distribué fiable et extensible pour les applications ayant un recours intensif aux données. Le système est basé sur Linux et ext3. Il est optimisé pour les fichiers de grande taille et conçu pour continuer à fonctionner en cas de panne de certains éléments du cluster (résilience). Voir aussi l’article de Wikipedia.
- Google Web Server (GWS) et Google Front End (GFE) sont des versions personnalisées d’Apache utilisées pour héberger les sites Web de la firme. Google GFE/1.3 est par exemple utilisé pour héberger Gmail ou Blogger. GWS est utilisé entre autres pour Google Images (Version 2.1). Voici une liste non exhaustive des services de Google et de la technologie serveur correspondante :
Main Search: GWS/2.1
Google Accounts: GFE/1.3*
Google AdSense: GFE/1.3*
Google AdWords: GFE/1.3*
Google Analytics (Login Page): GWS/2.1
Google Analytics (Auth Page): GFE/1.3*
Google Analytics (Other Pages): ucfe*
Google Analytics (Analysis Image and JS): ucfe
Google Analytics (Images/JS/CSS/Flash): ga-reporting-fe
Google Answers: GFE/1.3
Google Base: asfe
Blogger: Apache
Google Book Search: OFE/0.1
Google Calendar: GFE/1.3
Google Catalogs: OFE/0.1
Google Code: codesite/2104877
Google Desktop: GFE/1.3
Google Directory: GWS/2.1
Google Downloads: GWS/2.1
Google Finance: SFE/0.8
Google Finance Stock Charts (Images): FTS (C)1997-2006 IS.Teledata AG
Froogle: cffe
Google Groups: GWS-GRFE/0.50
Hello: Apache/2.0.53
Google Help Pages: TrakhelpServer/1.0a
Google Images: GWS/2.1
Google Labs: Apache
Google Local / Maps: mfe
Google Local/Maps (Images): tfe
Google Mail: GWS/2.1
Google Mobile: GWS/2.1
Google Moon: mfe
Google Moon (Images): GWS/2.1
Google Music Search: mws
Google News: NFE/1.0
Orkut: GFE/1.3*
Google Pack: COMINST/1.0
Picasa (.com): Apache/2.0.53
Picasa (.google.com): GWS/2.1
Google Page Creator (Sign-up page): GFE/1.3*
Google Page Creator (User pages): GFE/1.3
Google Personalized Homepage: igfe
Google Scholar: GWS/2.1
Google Search History: Search-History HTTP Server
Google Sets: Apache
Google Site-Flavored: GWS/2.1
Google Sitemaps: GFE/1.3
Google SMS: GWS/2.1
Google SMS Search Requests: SMPP server 1.0
Google SMS (GMail Registration): GFE/1.3*
Google SMS (Page Viewer): GFE/1.3
Google Suggest: Auto-Completion Server
Google Transit: mfe
Google Translate: TWS/0.9
Google Video: GFE/1.3
Google Reader: GFE/1.3
Google Ride Finder: Apache
Google Talk: GWS/2.1
Google Toolbar: GFE/1.3
Google Toolbar (PR Lookup): GWS/2.1
Google Web Accelerator: GFE/1.3
Google Web Alerts: PSFE/4.0 - MapReduce: c’est un framework utilisé pour analyser et générer de grands volumes de données. Les programmes développés sur l’architecture MapReduce sont automatiquement parallélisées sur un ensemble des machines “standards” du cluster de Google. MapReduce traite couramment plusieurs TéraOctets de données sur plusieurs milliers de machines. Un exemple de traitement est de compter le nombre d’occurence d’un mot dans plusieurs documents : les occurences seront calculées pour chaque document sur des machines différentes et sommées à la fin.
Au départ pensé pour être utilisé dans des cas spécifiques, le framework s’est révélé applicable dans beaucoup de traitements de données différents utilisés dans les applications Google.
Pour plus d’informations, consultez ce document PDF. - BigTable : c’est un système de stockage distribué de données structurées prévu pour être extensible à des volumes de données dépassant le PetaOctet. Il est utilisé par le moteur de recherche de Google, par Google Earth ou encore Google Finance.
Pour plus d’informations, consultez ce document PDF.
La Disponibilité
Cette infrastructure distribuée et résiliente permet aux services de Google d’afficher une disponibilité supérieure à 99,99% comme le confirme ce rapport de Pingdom qui s’intéresse aux différences de disponibilité du moteur de recherche entre les pays.
La culture d’entreprise
La culture d’entreprise de Google est d’après moi un élément déterminant de sa réussite. On est très loin de la culture d’entreprise française.
Voici le reportage “Google, la machine à penser“, riche en informations sur cet esprit d’entreprise :
En quelques secondes, avec une exactitude stupéfiante, Google apporte aux internautes la réponse à la requête qu’ils ont lancée sur Internet. Le moteur de recherche, né il y a dix ans en Californie, a révolutionné notre vie quotidienne. Retour sur un phénomène de société.
En moins de dix ans, Google s’est transformé. La petite société créée en 1998 par deux copains de fac passionnés d’informatique est devenue en peu de temps un véritable empire qui compte aujourd’hui près de 14 000 employés.
Le moteur de recherche imaginé par Sergey Brin et Larry Page sur le campus de l’université de Stanford, en Californie, est devenu un outil utilisé quotidiennement par un demi-milliard de personnes à travers le monde.
Avec une simple idée - donner aux internautes la possibilité d’accéder gratuitement et en un seul clic aux informations qu’ils cherchent -, ils sont parvenus, au fil du temps, à générer quelque 10 milliards de dollars de chiffre d’affaires.
Mais qui se cache derrière Google ? Comment fonctionne cette entreprise ? Comment est-elle organisée ? N’est-elle pas trop puissante ? Peut-on utiliser ses services en toute confiance ? Autant de questions auxquelles Gilles Cayatte répond dans ce documentaire inédit.
Entre performance et prédation
En filmant l’envers du décor, il fait pénétrer le téléspectateur dans les coulisses de cet univers à part composé d’un googleplex (un siège social) et de googlers (des salariés) épris de googlitude.
Il révèle une organisation régie par une hiérarchie réduite au minimum, où les employés - à peine trentenaires - semblent tous être mus par un même désir : innover en permanence pour que leur entreprise soit toujours plus créative et performante.
Il montre aussi comment une ambition, au départ généreuse - la mise à disposition gratuite de tous les savoirs -, devient peu à peu une machine destructrice. “Google, explique Michael Malone, éditorialiste au Wall Street Journal, ressemble à un énorme prédateur.” Ceux qui se trouvent sur son passage n’ont que peu de chance de résister à sa puissance...
Quelques photos
Et si vous voulez voir où tout à commencé, vous pouvez lire ce rapport de Sergey Brin et Lawrence Page pour Stanford : The Anatomy of a Large-Scale Hypertextual
Web Search Engine à l’origine du projet Google.
Pour chercher du travail chez Google, c’est par ici ou par là 
Références :
Google Platform, Wikipedia.
Map of all Google data center locations, PingDom.
Google availability differs greatly between countries, PingDom.
Google DataCenter FAQ, Data Center Knowledge.
Google Architecture, High Scalability.
Papers Written by Googlers, Google Research.
- 27 commentaires
- Classé sous : Web

Je viens de revisioner l’épisode 11 ( accro de la vie lol ) et je trouve...