Par Emmanuelle Delsol - le 29 08 2013
15 ans de Google : de moteur de recherche à maître du monde
Avec le Knowledge graph, lancé l’année dernière, l’américain révolutionne son moteur de recherche. Il capte toute la connaissance mondiale dans une base de données au service de son business model.
Le 16 mai 2012, alors que tout le monde attendait fébrilement l’entrée en Bourse de Facebook, Google annonçait la première évolution majeure de son moteur de recherche depuis ses débuts : le Knowledge graph (graphe de la connaissance). Une base de données que le géant du web met au service de son moteur de recherche afin que celui-ci affiche des résultats de requête structurés en langage naturel. Le Knowledge graph est le pivot de la mutation progressive du moteur Google en moteur sémantique. Rien de moins… Un premier pas vers la concrétisation du rêve de Google : créer l’ordinateur de Star Trek, une machine à laquelle on peut poser n’importe quelle question, qui la comprend et qui répond précisément, sur le ton de la conversation…
La mine Google
50,175 milliards de dollars de chiffre d’affaires en 2012
55 000 personnes
3,3 milliards de requêtes par jour
570 millions d’objets dans le Knowledge graph
Le moteur de recherche reste le pilier de la stratégie du groupe de Mountain View, centrée sur la publicité ciblée, qui représente 87% de ses revenus ! C’est sur lui que Google réalise la majorité des investissements. Car plus il sera efficient, plus les internautes l’utiliseront et plus ils l’alimenteront avec des informations sur les requêtes, mais aussi avec des données sur leurs usages des autres services, tels Google maps, Google translate, Gmail, Google+, Google glass, Google now, YouTube, Google car, Google street view, Google earth… Des données qui alimenteront à leur tour Google glass et sa réalité augmentée, par exemple, ou Google now, l’assistant personnel pour Android. Le cercle vertueux peut continuer… Plus les services sont riches, plus ils attirent et fidélisent les internautes. Et plus les annonceurs sont au rendez-vous. "Aujourd’hui, Google arrive à envoyer de la publicité ciblée au moment-même où l’internaute recherche une information", note Christine Balagué, titulaire de la chaire Réseaux sociaux à l’Institut Mines-Télécom.
Des alchimistes de la techno
Le 16 mai 2012, alors que tout le monde attendait fébrilement l’entrée en Bourse de Facebook, Google annonçait la première évolution majeure de son moteur de recherche depuis ses débuts : le Knowledge graph (graphe de la connaissance). Une base de données que le géant du web met au service de son moteur de recherche afin que celui-ci affiche des résultats de requête structurés en langage naturel. Le Knowledge graph est le pivot de la mutation progressive du moteur Google en moteur sémantique. Rien de moins… Un premier pas vers la concrétisation du rêve de Google : créer l’ordinateur de Star Trek, une machine à laquelle on peut poser n’importe quelle question, qui la comprend et qui répond précisément, sur le ton de la conversation…
La mine Google
50,175 milliards de dollars de chiffre d’affaires en 2012
55 000 personnes
3,3 milliards de requêtes par jour
570 millions d’objets dans le Knowledge graph
Le moteur de recherche reste le pilier de la stratégie du groupe de Mountain View, centrée sur la publicité ciblée, qui représente 87% de ses revenus ! C’est sur lui que Google réalise la majorité des investissements. Car plus il sera efficient, plus les internautes l’utiliseront et plus ils l’alimenteront avec des informations sur les requêtes, mais aussi avec des données sur leurs usages des autres services, tels Google maps, Google translate, Gmail, Google+, Google glass, Google now, YouTube, Google car, Google street view, Google earth… Des données qui alimenteront à leur tour Google glass et sa réalité augmentée, par exemple, ou Google now, l’assistant personnel pour Android. Le cercle vertueux peut continuer… Plus les services sont riches, plus ils attirent et fidélisent les internautes. Et plus les annonceurs sont au rendez-vous. "Aujourd’hui, Google arrive à envoyer de la publicité ciblée au moment-même où l’internaute recherche une information", note Christine Balagué, titulaire de la chaire Réseaux sociaux à l’Institut Mines-Télécom.
Des alchimistes de la techno
Depuis 2005, c’est le « Chief internet evangelist » de Google. Un titre sur mesure pour celui qui connaît bien les arcanes d’internet. Et pour cause, il est l’un des deux inventeurs du réseau sur lequel est venu se nicher le World wide web dans les années 1990… Qui mieux que lui pourrait « identifier pour Google de nouvelles technologies et des applications puissantes sur internet et d’autres plates-formes » ? Ce lobbyiste s’exprime autant sur IPv6 que sur la neutralité du net ou les nouveaux modèles économiques de la télévision.
Raymond Kurzweil, le cerveau.
Raymond Kurzweil, le cerveau.
« Comment créer un cerveau ». Tel est le titre du dernier livre de Ray Kurzweil, informaticien, inventeur, spécialiste de l’intelligence des machines. Depuis un an, il dirige une équipe d’ingénierie chez Google afin de réaliser son rêve, le même que celui du californien : construire un ordinateur qui comprenne le langage humain. Google s’est ainsi offert les services de l’homme du « deep learning », technologie logicielle qui imite l’activité des neurones du néocortex. Et enseigne aux machines à comprendre le monde.
Comprendre le monde réel Ce n’est qu’une étape. "Il s’agit désormais de comprendre le monde réel, raconte John Giannandrea, le directeur de l’ingénierie Google et l’ancien parton de Metaweb, une start-up spécialisée dans le web sémantique rachetée par Google en 2010. Je compare souvent le Knowledge graph à une carte géographique. Pour faire une cartographie des connaissances, il faut une base de données de tout !" Voilà pourquoi, petit à petit, Google agrège dans sa gigantesque base de données tous les "objets" connus (lieux, personnes, œuvres…) dans le monde. La tour Eiffel, Édimbourg, Ryan Gosling sont ainsi référencés et documentés. Surtout, toutes les entités du Knowledge graph sont reliées entre elles par des liens du type : "construit par", "capitale de", "joue dans le film"… Ces liens peuvent se multiplier à l’infini. De quoi tisser un graphe de la connaissance qui contient déjà 570 millions d’éléments reliés par 18 milliards de connexions ! Et ce n’est qu’un début : il n’aurait atteint que 1% de son potentiel…
En piochant une entité dans le Knowledge graph, le moteur de Google peut désormais apporter une réponse qui a du sens. Il fournit une information structurée sur l’objet de la requête, affichée à droite de la première page de résultats, en supplément des liens habituels vers des sites. Jusque-là, il effectuait sa recherche sur le web à partir de la reconnaissance des lettres formant les mots tapés par les internautes. La version française de l’outil ne fonctionne que depuis début 2013, le changement n’est donc pas toujours spectaculaire. Mais la différence est visible lorsqu’on lance une recherche dont la réponse se trouve déjà dans la base de données du Knowledge graph. Ainsi, si l’on demande au moteur "quel est l’âge de François Hollande ?", celui-ci répond tout simplement : 58 ans. Plus besoin de cliquer sur un lien, ni de sortir de Google… L’information apportée par le Knowledge graph contient la description de l’entité et des éléments connexes. Pour François Hollande, on trouve ainsi Nicolas Sarkozy, Valérie Trierweiler et Jean-Marc Ayrault. Rechercher "Ford" renvoie à des informations sur l’industriel et à un lien vers sa page Google+, ainsi qu’à une entrée sur Henry Ford. Le moteur a "compris" que l’internaute cherchait des informations sur l’entreprise et ne le dirige pas uniquement vers des sites contenant le mot "Ford". Enfin, lorsque la requête est ambiguë, comme c’est le cas pour "Shetland", le moteur propose un choix à l’internaute. Ici, entre le cheval, les îles, et le chien.
Derrière la simplicité, la technologie de pointe
À l’origine du Knowledge graph, il y a Freebase, la base de données créée par Metaweb. "Elle a été remplie en partie à la main, raconte John Giannandrea. Mais nous avons aussi regardé par-dessus l’épaule d’autres acteurs qui avaient déjà construit des bases de données, comme Wikipédia. Nous avons intégré le CIA world factbook, les informations sur la télévision de TVRage, d’autres sur la nutrition ou sur les modèles d’automobiles. De nombreux passionnés ont construit des collections de données sur un grand nombre de sujets qui sont publics." Le Knowledge graph se nourrit aussi de toutes ces informations. Sans parler des quelques bases de données achetées par Google.
Le géant du net insiste néanmoins sur un point : aucune donnée personnelle concernant les utilisateurs de ses services n’entre dans son Knowledge graph. Même si, la géolocalisation des internautes inscrits aux services de Google, lorsqu’ils sont connectés en tant que tels, sert, par exemple, à leur apporter une réponse plus adaptée. Alors que Freebase était ouverte et collaborative, le Knowledge graph est, lui, réservé au moteur Google. Ce dernier a d’ailleurs rapidement fait fermer l’initiative Open knowledge graph.
"Cette base de connaissance est une idée simple, mais techniquement très complexe", résume Guilhem Fouetillou, le cofondateur de Linkfluence, une société d’analyse des médias sociaux. Loin d’une simple collecte de données, le Knowledge graph est une toile, dont la structure est en évolution perpétuelle, et qui cache des technologies de pointe. Comme le "machine learning", l’un des pans de l’intelligence artificielle. "Une fois les données récoltées, les algorithmes prennent le relais, poursuit Guilhem Fouetilhou. On définit des modèles en s’appuyant sur les caractéristiques structurelles du corpus initial de données. Modèles qui servent ensuite à taguer de nouveaux corpus." L’historique des requêtes dont dispose Google lui sert ainsi à mieux comprendre l’organisation des nouveaux ensembles d’informations qu’il récolte.
"On essaie d’enseigner aux machines les liens qui existent entre des choses qui ne sont, en apparence, pas liées. Peu de points communs, a priori, entre Gandhi et Einstein. Pourtant, beaucoup de gens cherchent les deux, précise John Giannandrea. On essaie de comprendre pourquoi." Pour compléter le graphe de connaissance, les équipes du Knowledge graph utilisent aussi les modèles de réseaux bayésiens. Ils permettent de calculer la probabilité qu’une réponse corresponde à une requête donnée. Et ce, en partant des réponses sur lesquelles les internautes ayant déjà posé la même question ont fréquemment cliqué.
Ces technologies sont utilisées depuis longtemps par les informaticiens, Google ne les a pas inventées. Mais il pousse très loin leur utilisation et contribue à leur développement grâce à son incommensurable puissance de calcul, à son modèle d’innovation permanente, à sa capacité à attirer les meilleurs ingénieurs du monde et des personnalités éminentes de la high-tech dont Ray Kurzweil, l’initiateur du "deep learning", ou Vinton Cerf, l’un des créateurs d’internet…
En piochant une entité dans le Knowledge graph, le moteur de Google peut désormais apporter une réponse qui a du sens. Il fournit une information structurée sur l’objet de la requête, affichée à droite de la première page de résultats, en supplément des liens habituels vers des sites. Jusque-là, il effectuait sa recherche sur le web à partir de la reconnaissance des lettres formant les mots tapés par les internautes. La version française de l’outil ne fonctionne que depuis début 2013, le changement n’est donc pas toujours spectaculaire. Mais la différence est visible lorsqu’on lance une recherche dont la réponse se trouve déjà dans la base de données du Knowledge graph. Ainsi, si l’on demande au moteur "quel est l’âge de François Hollande ?", celui-ci répond tout simplement : 58 ans. Plus besoin de cliquer sur un lien, ni de sortir de Google… L’information apportée par le Knowledge graph contient la description de l’entité et des éléments connexes. Pour François Hollande, on trouve ainsi Nicolas Sarkozy, Valérie Trierweiler et Jean-Marc Ayrault. Rechercher "Ford" renvoie à des informations sur l’industriel et à un lien vers sa page Google+, ainsi qu’à une entrée sur Henry Ford. Le moteur a "compris" que l’internaute cherchait des informations sur l’entreprise et ne le dirige pas uniquement vers des sites contenant le mot "Ford". Enfin, lorsque la requête est ambiguë, comme c’est le cas pour "Shetland", le moteur propose un choix à l’internaute. Ici, entre le cheval, les îles, et le chien.
Derrière la simplicité, la technologie de pointe
À l’origine du Knowledge graph, il y a Freebase, la base de données créée par Metaweb. "Elle a été remplie en partie à la main, raconte John Giannandrea. Mais nous avons aussi regardé par-dessus l’épaule d’autres acteurs qui avaient déjà construit des bases de données, comme Wikipédia. Nous avons intégré le CIA world factbook, les informations sur la télévision de TVRage, d’autres sur la nutrition ou sur les modèles d’automobiles. De nombreux passionnés ont construit des collections de données sur un grand nombre de sujets qui sont publics." Le Knowledge graph se nourrit aussi de toutes ces informations. Sans parler des quelques bases de données achetées par Google.
Le géant du net insiste néanmoins sur un point : aucune donnée personnelle concernant les utilisateurs de ses services n’entre dans son Knowledge graph. Même si, la géolocalisation des internautes inscrits aux services de Google, lorsqu’ils sont connectés en tant que tels, sert, par exemple, à leur apporter une réponse plus adaptée. Alors que Freebase était ouverte et collaborative, le Knowledge graph est, lui, réservé au moteur Google. Ce dernier a d’ailleurs rapidement fait fermer l’initiative Open knowledge graph.
"Cette base de connaissance est une idée simple, mais techniquement très complexe", résume Guilhem Fouetillou, le cofondateur de Linkfluence, une société d’analyse des médias sociaux. Loin d’une simple collecte de données, le Knowledge graph est une toile, dont la structure est en évolution perpétuelle, et qui cache des technologies de pointe. Comme le "machine learning", l’un des pans de l’intelligence artificielle. "Une fois les données récoltées, les algorithmes prennent le relais, poursuit Guilhem Fouetilhou. On définit des modèles en s’appuyant sur les caractéristiques structurelles du corpus initial de données. Modèles qui servent ensuite à taguer de nouveaux corpus." L’historique des requêtes dont dispose Google lui sert ainsi à mieux comprendre l’organisation des nouveaux ensembles d’informations qu’il récolte.
"On essaie d’enseigner aux machines les liens qui existent entre des choses qui ne sont, en apparence, pas liées. Peu de points communs, a priori, entre Gandhi et Einstein. Pourtant, beaucoup de gens cherchent les deux, précise John Giannandrea. On essaie de comprendre pourquoi." Pour compléter le graphe de connaissance, les équipes du Knowledge graph utilisent aussi les modèles de réseaux bayésiens. Ils permettent de calculer la probabilité qu’une réponse corresponde à une requête donnée. Et ce, en partant des réponses sur lesquelles les internautes ayant déjà posé la même question ont fréquemment cliqué.
Ces technologies sont utilisées depuis longtemps par les informaticiens, Google ne les a pas inventées. Mais il pousse très loin leur utilisation et contribue à leur développement grâce à son incommensurable puissance de calcul, à son modèle d’innovation permanente, à sa capacité à attirer les meilleurs ingénieurs du monde et des personnalités éminentes de la high-tech dont Ray Kurzweil, l’initiateur du "deep learning", ou Vinton Cerf, l’un des créateurs d’internet…
Aucun commentaire:
Enregistrer un commentaire