Bonjour Ă toutes et tous, vous Ă©coutez Dans la Tech, le podcast oĂč on partage ce qui nous fait vibrer ou pas dans le Dev, le Cloud et le DevOps.
Et on est du coup trĂšs heureux de vous retrouver pour une saison 2 du podcast Dans la Tech.
Et pour ça et pour commencer cette nouvelle saison, je vais accueillir l'équipe originale de Dans la Tech, c'est-à -dire Mathieu.
Mathieu, comment tu vas et es-tu prĂȘt pour cette nouvelle saison ?
Je reviens de deux semaines de vacances, donc je suis au bouillon là . Et toi, comment ça va Damien ?
Ăcoute, moi ça vient trĂšs bien. Je reviens d'une semaine de vacances, une semaine et un jour pour ĂȘtre prĂ©cis.
Donc ça va trĂšs bien aussi, mĂȘme si je suis un tout petit peu fatiguĂ©, mais on va dire que c'est le temps qui veut ça.
Et puis bien sĂ»r, Maxence que j'accueille aussi. Maxence, toi, est-ce que tu es prĂȘt pour cette nouvelle saison et en pleine forme ?
Toujours. Moi, je n'Ă©tais pas en vacances comme vous deux, mais prĂ©sent, prĂȘt.
En plus, on n'a presque pas raté notre rentrée. L'année derniÚre, on avait commencé en novembre.
Donc là , c'est bon. On est presque pas mal. On devrait arriver début octobre. C'est cool.
Oui, ne vous inquiétez pas. La saison 5, bien sûr, le podcast commencera presque en septembre.
Mais l'intention est lĂ , en tout cas. Et ça, c'est l'essentiel. Et en plus, Maxence n'a pas besoin de vacances pour ĂȘtre en forme, ce qui est quand mĂȘme super.
J'espÚre que de votre cÎté, les auditeurs, vous avez autant de facilité à rester en forme.
Et pour attaquer cette rentrée, on va choisir un sujet qui nous concerne toutes et tous et qui, pour le coup, est une question qu'on peut se poser souvent.
Et pour le coup, je ne vois pas tant cette question sur les réseaux sociaux, mais il y a un vrai sujet là -dessus.
C'est pourquoi le monitoring, soit il est trop cher, soit il est inefficace.
Pourquoi on n'arrive pas Ă trouver un Ă©quilibre lĂ -dessus ?
Aujourd'hui, on a un tas de solutions out of the box. On a de plus en plus de choses qui existent.
Mais on a vraiment l'impression que ce monitoring, je vais caricaturer, soit vous donnez votre carte de crédit à Datalog et vous espérez que votre banquier ne vous croise pas dans la rue.
Soit vous allez le mettre en interne avec des statuts.
On va dire traditionnel du Victor Ametrix, du Prometheus, des choses comme ça.
Auquel cas, ça va s'avérer soit inefficace, soit ultra chronophage à configurer, à setup.
Est-ce que dĂ©jĂ , vous ĂȘtes tous les deux dans ce constat-lĂ ? Je pense qu'on a dĂ©jĂ un peu discutĂ©.
Toi, Mathieu, qu'est-ce que tu en penses de ça ?
Bien sĂ»r, le monitoring et mĂȘme l'ossabilitĂ© en gĂ©nĂ©ral, les solutions vont dĂ©pendre de la taille de l'entreprise.
On va dire la petite PME ou la petite startup qui a juste un site web.
Avec une application, une base de donnĂ©es, ça va pas ĂȘtre pareil qu'une grosse scale-up, une trĂšs grosse boĂźte, on va dire, avec un dĂ©goĂ»t ici.
Je suis plutÎt dans le cas avec une infrastructure assez conséquente.
Et mĂȘme dans le passĂ©, je travaillais un peu dans ce genre de contexte.
Et c'est vrai qu'aujourd'hui, moi, je vois un gros problĂšme dans l'industrie.
C'est que soit, c'est ce que tu as dit en fait, Damien, je ne sais pas qui peut se payer des services cloud d'Observability.
Aujourd'hui, je ne vois pas qui a l'argent de faire ça.
Je veux dire, je suis quand mĂȘme dans une scale-up qui a levĂ© des centaines de millions d'euros.
On ne peut pas se payer les clouds d'Observability.
C'est trop cher.
C'est trop cher, vraiment.
Un truc de fou.
Donc, on refait en interne, mais il y a aussi beaucoup de limitations qu'on pourra discuter.
Donc, ouais, on a tous un peu, j'ai l'impression, dans le domaine, le cul entre deux chaises.
Entre devoir faire de l'on-prem, mais ça a aussi un coût, un coût différent que les SaaS.
Mais les SaaS sont juste hors de prix.
C'est limite, enfin, c'est mĂȘme pas limite, c'est du vol.
Clairement, je veux dire, moi, c'est mon avis du moins.
Je ne sais pas ce que vous en pensez, vous.
Mais je ne sais pas qui veut rebondir.
En fait, j'ai un poil plus mitigé.
Parce que, alors, est-ce que c'est cher ?
Ăa, je pense qu'il suffit d'aller voir une page pricing d'un Datadog, New Relic, Grafana Cloud ou autre,
et vous aurez votre réponse tout seul.
AprÚs, quand on voit la qualité de ce qu'ils sont capables de ressortir,
enfin, j'étais utilisateur de Datadog il y a encore quelques années.
Globalement, out of the box, en fait, ils arrivent directement avec des dashboards.
Tu leur dis que tu fais du cube, bam, il y a les dashboards.
Il t'indique.
Il t'indique comment récupérer tes logs, tes métriques par défaut.
Tu as les alertes qui sont lĂ directement.
En fait, c'est trĂšs plug and play.
Donc, tu payes ce cÎté trÚs plug and play aussi.
Et c'est ce qu'ils te font payer.
Et c'est, pour moi, un des problĂšmes aussi de la partie open source.
C'est que la partie open source, en fait, dĂ©jĂ , avant mĂȘme de pouvoir envoyer le moindre log, mĂ©trique,
je ne parle mĂȘme pas encore des traces pour en parler.
En fait, déjà , tu dois installer un nombre d'outils qui est juste ultra conséquent.
Et alors, c'est sûr qu'une fois que ça tourne, ça tourne et tu l'oublies un peu.
Mais il y a énormément de configs à faire, de petites modifications, etc.
Ă faire en permanence qui reviennent aussi chĂšres Ă la fin.
Mais moins chĂšres qu'un Datadog quand mĂȘme.
AprÚs, oui, Datadog, perso, moi, je l'ai utilisé deux, trois fois.
D'un point de vue, on va dire efficacité, je n'ai rien à redire.
Je pense qu'aujourd'hui, si on veut du monitoring rapidement,
aprÚs, il y a d'autres solutions, il y a du Dynatrace, des choses comme ça.
Ce sont des solutions qui sont extrĂȘmement rapides pour ĂȘtre, on va dire, utilisables.
Entre le temps oĂč vous le setup et globalement, vous rentrez,
votre numĂ©ro de carte de crĂ©dit et le moment oĂč vous avez des dashboards
qui sont compréhensibles par vos équipes, le temps est relativement court.
Donc lĂ -dessus, il n'y a pas de souci.
Mais c'est vrai que le scaling du prix est violent.
Moi, Datadog, c'est vraiment, moi, j'ai eu deux, trois expériences.
Ouais, dans l'autre, c'était qu'un POC, mais j'ai eu deux expériences complÚtes.
On a fait une migration vers Datadog, dont une fois de solution un peu ancienne type Centrion.
Le prix était tellement une horreur qu'au bout d'un an, la boßte a décidé de quitter Datadog.
Parce qu'à part pour des besoins trÚs spécifiques, ils n'étaient plus sur Datadog.
Parce que c'Ă©tait trop cher, en fait, et les BU ne pouvaient pas assumer, les clients ne pouvaient pas assumer.
Donc du coup, on s'est retrouvé à un peu revenir faire marche arriÚre
et faire notre solution un peu custom pour le coup.
Et pour ça, je pense que c'est efficace, mais c'est clairement pas abordable pour la plupart des entreprises.
AprĂšs, il y a aussi un autre truc que moi, je vois et c'est une impression que j'ai.
J'ai l'impression que autant...
Pour faire un parallÚle avec le cloud, je trouve que nos exigences en matiÚre de qualité ont vachement augmenté comparé à avant le cloud.
Donc, c'est-à -dire tout ce qui est appellisation, tout ce qui est infrastructure, tout ce qui est réactivité.
On est beaucoup plus exigeant aujourd'hui qu'avant.
Et j'ai l'impression que le monitoring, c'est un peu le mĂȘme cas, en fait.
LĂ oĂč, et je ne parle pas d'il y a...
C'est quand mĂȘme bientĂŽt il y a 10 ans, mais je parle mĂȘme d'il y a 5, 6 ans, et mĂȘme dans beaucoup d'entreprises.
Il y a encore des simples systĂšmes avec des super sondes.
C'est SNM.
Je crois le protocole et du centréon et tout ce qui s'ensuit derriÚre.
Avec des alertes binaires en mode tel host, tel truc dessus et down ou up, etc.
Et ça, il y en a encore beaucoup.
Et pour moi, le gap, autant en termes de prix, est énorme entre ça et un Datadog ou une solution, on va dire, maison on-prem, open source, bien foutu.
Le gap est Ă©norme.
Mais le gap en termes de qualité, il est énorme aussi.
Il est conséquent.
Je ne sais pas si vous ĂȘtes d'accord avec ça.
Oui, il y a une grosse marche.
C'est sûr par rapport à avant.
Moi, j'ai fait aussi du Nagio, ces choses comme ça, il y a trÚs, trÚs, trÚs longtemps.
Et là , on est dans un mode complÚtement différent.
On parle souvent de Blackbox versus Whitebox Monitoring, des choses comme ça.
AprĂšs, comme disait Maxence, c'est vrai que les services SaaS, enfin les SaaS, tout arrive built-in.
C'est trĂšs, trĂšs puissant.
Quand je disais que c'est du vol tout Ă l'heure, je troll.
Ce n'est pas du vol.
C'est vrai qu'on sait pourquoi on paye.
Ăa marche trĂšs bien.
On pourra parler du lock-in aussi.
Parce que les agents magiques proprios, ça marche bien.
Puisque vous, on veut changer de SaaS.
Et lĂ , ah !
En fait, ce n'est pas le mĂȘme protocole.
Il y a des solutions aujourd'hui, mais il faut faire attention à ça.
Et comme tu l'as dit, David, les besoins, ce n'est plus du tout les mĂȘmes.
Aujourd'hui, par exemple, on s'attend à ce qu'une application web classique, une API, expose des métriques sur ses IOs.
Par exemple, les requĂȘtes HTTP.
Souvent, on parle des méthodes RAID ou des choses comme ça.
Donc, en fait, les requests, le rate de requĂȘtes par seconde avec des labels par pass, par mĂ©thode, par statut code.
Pour pouvoir en situer.
Faire des requĂȘtes lĂ -dessus.
La latence Ă©galement.
Donc, sur les performances.
Donc, en entrée et en sortie.
On s'attend à avoir des métriques internes.
Par exemple, sur la JVM.
Je ne sais pas, sur le garbage collector.
MĂȘme en Go, des choses comme ça.
Ou sur des thread pools.
On s'attend Ă avoir mĂȘme des mĂ©triques mĂ©tiers aujourd'hui.
Pas seulement des métriques techniques, mais des métriques métiers.
Qui vont aider le business à comprendre comment l'application est utilisée.
Donc, des métriques custom.
Donc, ça va trÚs trÚs loin.
Et c'est vrai que c'est pour ça aussi que ça coûte cher.
Parce que là , je parle des métriques.
Mais on pourrait parler des traces aussi.
Et des logs.
Et bien, en fait, ça fait énormément de signaux qui sont générés.
Qui doivent ĂȘtre stockĂ©s, analysĂ©s.
Et de maniĂšre efficace.
Parce qu'en plus, quand on stocke des teras de métriques.
Des teras de traces.
Moi, c'est mon cas.
Ben, forcément, les traiter, ça a un coût.
MĂȘme les faire passer sur le rĂ©seau.
Si vous ĂȘtes sur le cloud.
Par exemple, sur Amazon.
Rien que le coût réseau du transit.
Ăa coĂ»te trĂšs cher.
Donc, ouais.
C'est des contraintes qu'on n'avait pas forcément avant.
Ou bien, beaucoup moins.
Parce qu'il y avait une tolérance un peu.
Enfin, on monitorait pour moi beaucoup moins bien.
AprĂšs, je trouve que...
Enfin, si on continue Ă comparer un peu Datadog versus...
Enfin, Datadog et Consor, on parle beaucoup de Datadog.
Mais ils ont tous Ă peu prĂšs les mĂȘmes idĂ©es de pricing.
Versus un truc maison.
Il y a aussi pour moi un point intéressant.
C'est que quand tu es Ă la maison.
Un teras de plus sur ton S3.
Parce que globalement, tes logs et tes métriques ont souvent tendance à finir sur ton S3.
Un teras de plus, un teras de moins.
Ăa te coĂ»te 5 euros par mois.
Tu t'en fiches en fait.
Donc, tu vas accepter de tout loguer.
Et de tout récupérer.
De tout récupérer dans tes logs.
Alors que chez Datadog, tu vas trĂšs vite avoir une logique de...
Oula, tout coûte tellement cher.
Que tu vas dire...
Oula, non, mes logs, en fait, je ne les envoie plus.
Et je n'envoie que les erreurs.
Mais je n'envoie que 10% des erreurs que j'ai dans mes logs.
Les traces, c'est pareil.
Les traces, pendant trĂšs longtemps...
Je ne sais pas si vous avez connu l'Ă©poque.
Un peu avant, au plan de télémétrie et compagnie.
OĂč ces Datadog avaient leur agent.
Et ils utilisaient vraiment des méthodes Datadog.
Etc.
Il y avait Ă©crit partout qu'il fallait absolument sampler tes requĂȘtes.
Etc.
Et on voyait qu'il y a un petit pourcentage de tes requĂȘtes.
Et la logique, je trouve, est toujours la mĂȘme.
Sur tes métriques, tu n'envoies pas les métriques si elles ne sont pas utilisées dans un dashboard ou quoi.
Parce qu'en fait, sinon, Ă l'Ă©chelle...
Par exemple, Mathieu, chez toi, si tu essaies de calquer ce que tu as en monitoring chez toi,
en termes de volume, chez un Datadog, en effet, la facture, c'est impossible.
Par contre, si tu commences Ă te dire, en fait, je vais filtrer...
Peut-ĂȘtre que dans tes mĂ©triques, tu as 80% des mĂ©triques qui ne sont pas utilisĂ©es.
Je dis ça, j'en sais rien, je ne connais pas.
Mais souvent, on a tendance à tout récupérer, à utiliser quelques trucs.
Mais en fait, on ne fait jamais le...
Dans les collecteurs, on ne fait jamais le tri.
On peut dire, non, en fait, tous ces trucs-lĂ , je les vire, tu vois.
Je ne les utilise pas.
Par exemple, tout ce qui est en Go, toutes les métriques Go, je n'utilise pas.
Je les vire et je ne récupÚre que celles qui m'intéressent trÚs spécifiquement.
On est plutĂŽt dans le mode inverse.
Et pour le coup, ça, chez Datadog, tu vas le payer vite, trÚs cher.
Moi, j'ai fait du Datadog, j'ai fait du Graphana Cloud aprĂšs.
Les deux me disaient la mĂȘme chose, globalement.
En fait, il faut inverser ta logique et juste, tu envoies ce que tu as besoin.
Mais ce qui me pose moins un problĂšme sur ça, c'est que le jour oĂč j'ai un problĂšme,
en fait, des fois, je n'ai pas pensé à envoyer la bonne métrique ou le bon log.
Donc, tu te retrouves Ă ne pas avoir l'information.
Et c'est lĂ oĂč je trouve que la logique est mauvaise.
C'est que pour moi, j'attends en tout cas, dans mon systÚme de log, de métrique et de trace,
d'avoir 100% de la data.
Je lui envoie tout, je lui brune sa tronche parce que justement, je vais avoir, en cas de problĂšme,
je vais pouvoir réutiliser.
Je vais pouvoir récupérer tous mes logs, je vais pouvoir récupérer toutes mes traces,
je vais pouvoir récupérer tout pour essayer de comprendre au maximum
quel est le problÚme que j'ai rencontré et pourquoi je l'ai rencontré
et essayer de mettre un peu en corrélation tout ça.
Et dĂšs que tu samples, en fait, c'est mort.
Je ne fais plus de ça.
Je suis d'accord avec toi sur le fait que moi, je ne suis pas fan de cette approche
de ne pas tout envoyer pour deux raisons.
La premiĂšre, c'est celle que tu Ă©voquais.
ForcĂ©ment, le jour oĂč tu as une merde, la mĂ©trique dont tu auras besoin,
tu ne l'as pas mise dans celle que tu récupÚres.
Ăa, c'est la mĂȘme chose.
C'est la loi des séries.
On le connaĂźt tous.
On l'a tous déjà eu.
Et la deuxiĂšme raison, qui est une raison, on va dire, peut-ĂȘtre un peu plus spĂ©cifique,
peut-ĂȘtre que clairement, on ne sera pas d'accord avec moi,
mais quand on fige, on va dire, on shortlist les métriques qu'on va récupérer, etc.
pour du coup Ă©viter de surfacturer ou autre,
j'ai l'impression que ça fige aussi beaucoup la création de dashboard,
la création d'indicateurs, etc. de l'autre cÎté,
dans le sens oĂč les gens auront moinsâŠ
Il faut qu'ils aient la main sur l'ajout de métriques dans les choses qui sont remontées, etc.
C'est beaucoup plus contraignant.
On ne peut pas faire de test rapidement, etc.
Donc lĂ -dessus, je trouve que c'est trĂšs, trĂšs vite aussi un frein.
On va à l'innovation, mais en tout cas, à la création,
à l'amélioration de dashboard avec des métriques autres.
Parce qu'il y a énormément de métriques.
Généralement, quand on rajoute du monitoring,
je vais prendre l'exemple cÎté Waze de globalement comment ça se passe.
En général, quand on a un nouveau produit qu'on monite,
je prends un exemple, mĂȘme s'il est dĂ©jĂ monitorĂ©,
mais imaginons demain, on veut rajouter du monitoring sur Achat Proxy.
On va rajouter un exporteur.
Et cet exporteur, on va récupérer toutes les métriques.
Et Ă partir de lĂ , on va construire un dashboard
avec les métriques qui nous semblent pertinentes
par rapport à notre expérience qu'on a dessus.
Et typiquement, ce qui arrive réguliÚrement,
c'est qu'on fait de l'amĂ©lioration continue, mĂȘme tout le temps du coup.
Ce qui arrive,
c'est que la plupart du temps, le dashboard,
on va le créer, on va l'initialiser avec une vision minimale
qu'on avait avant les métriques.
Et au bout d'un mois, Ă force d'avoir potentiellement
des bugs d'incidents, des bugs de perfs, etc.,
on va savoir quelle métrique n'est pas complÚte,
quelle il faut potentiellement corréler avec d'autres.
Et on va se rendre compte qu'entre les métriques qu'on avait au moment X
et ce qu'on en a eu comme expérience Y,
on va pouvoir l'améliorer en ajoutant justement ces nouvelles métriques.
Et lĂ -dessus, j'en reviens aux deux points.
C'est que le premier point, c'est comme tu dis, Maxence,
en général, les métriques que tu veux ajouter, tu ne les aurais pas mis de base.
Donc du coup, lĂ , on ne pourra pas savoir si elles sont pertinentes,
alors que là , on peut de suite faire une corrélation et se dire
quand on avait cet incident-lĂ , on ne l'avait pas vu sur le dashboard.
Par contre, la métrique l'a montré.
Et d'un autre cĂŽtĂ©, lĂ oĂč c'est intĂ©ressant,
c'est que c'est trĂšs rapide Ă ajouter dans le dashboard.
Globalement, on l'ajoute dans le Grafana,
on commit dans notre Git l'export JSON et c'est déployé.
Donc du coup, on a tous nos dashboards qui ont,
du coup, cette mise Ă jour.
Et pour moi, si on ne remonte pas tous les métriques,
ce cycle, on va dire, d'amélioration continue,
il est beaucoup plus lourd et beaucoup plus contraignant.
Je ne sais pas, toi, quelle expérience tu as avec tout ça, Mathieu ?
Est-ce que tu en penses ?
Maxence a déjà raison que parfois, il y a de l'abus.
Les métriques, nous, pour le coup, moi, j'ai beaucoup travaillé sur le sujet.
Je monitore la cardinalité des services.
Je fais trĂšs attention Ă ce qu'il y a en label.
J'ai mĂȘme des alertes qui remontent
si des services ont des cardinalités de métriques élevées.
Donc si généralement...
Il y a beaucoup de métriques.
Par contre, sur les logs, en effet,
les logs et l'optimisation à faire, ça, c'est sûr.
Il y a beaucoup de boĂźtes, mĂȘme, j'en ai connu dans le passĂ©,
qui logent n'importe quoi.
Mais par contre, aujourd'hui,
mĂȘme des mĂ©triques de base, ça coĂ»te trĂšs cher.
Je vais faire le calcul en live.
Vous mettez du Prometheus sur un serveur HTTP
et vous mettez juste les métriques de base HTTP,
c'est-Ă -dire un bucket pour la latency de vos requĂȘtes HTTP
et un counter pour l'error rate,
le request rate.
Un bucket Prometheus, c'est 12 séries.
Pour 4 verbes HTTP,
vous faites x4.
Pour 5 status codes,
parce que généralement, c'est par status code,
donc 200, 201, 400, 401, 500,
en réalité, il y en aurait plus.
Pour 100 passes,
je fais 12 x 4 x 5 x 100, un truc comme ça.
Je suis déjà à 24 000 séries.
Et là , sur le cloud, je suis déjà à des milliers d'euros par mois.
Je ne compte mĂȘme pas l'infra,
je ne compte pas les coûts réseaux,
je ne compte pas...
Voilà , et donc, vous multipliez ça par...
En fait, lĂ , en plus, c'est des petits chiffres.
En réalité, il y a beaucoup plus de status codes,
donc vous faites x10.
Et trĂšs rapidement, vous avez des services avec, voilĂ ,
20 000, 30 000, 40 000, 100 000 séries,
multipliées par le nombre de services,
plus les métriques infra, etc.
Eh bien, la facture cloud, elle est déjà à 100 000, 200 000,
300 000, 400 000 par an.
En fait, ça monte extrĂȘmement vite aujourd'hui.
Et c'est ça, le gros problÚme des services cloud.
C'est pour ça que je disais au début,
j'ai du mal à voir qui peut se payer ça,
parce que mĂȘme en faisant gaffe,
gaffe, notamment sur la partie métrique,
ça coûte une fortune.
Et sur les traces, moi, ça m'embĂȘte de drop des traces.
On est, comme disait Maxence,
les traces, c'est un outil trÚs utile pour débuguer.
D'ailleurs, on pourra en parler,
mais je pense que les traces vont remplacer les logs.
En fait, je préfÚre avoir aucun log et des traces.
Ăa me coĂ»tera aussi moins cher.
Les traces, c'est vraiment quelque chose,
pour moi, une brique de base.
Et donc, j'essaye de les garder.
Mais voilĂ , moi, je reste un peu sur ma position
qu'aujourd'hui, le cloud, c'est trop cher.
Et moi, j'ai des expériences aussi dans le passé
de migrer de cloud vers l'on-prem
et diviser.
Par deux, trois, quatre, la facture.
On parle de facture Ă six chiffres, parfois.
Ou mĂȘme de faire des devis pour repartir dans le cloud
parce que personne n'aime maintenir sa stack de monitoring.
Moi, ce n'est pas un intĂ©rĂȘt personnel Ă faire ça.
Mais quand on vous dit que ça va coûter,
vous avez des devis,
c'est un tiers de votre facture cloud
qui est déjà trÚs élevé,
juste pour envoyer des traces.
Mais c'est impossible.
Et ça, c'est aprÚs les réductions,
aprÚs les négociations, etc.
C'est un truc de fou.
AprÚs, quand tu héberges ta stack,
ce n'est pas magique non plus.
Enfin, moi, je vois le temps que j'ai pu passer
Ă configurer Loki,
Ă aprĂšs virer Loki pour mettre QuickWit Ă la place.
Pareil pour mes traces.
Je ne sais plus c'est quoi le soft de Graphana Labs
pour les traces,
mais c'Ă©tait la mĂȘme logique.
J'ai fini par le dégager pour QuickWit.
AprÚs, j'ai eu les métriques.
Enfin, j'ai commencé par les métriques.
Sinon, tu commences toujours par lĂ .
Au début, j'ai fait du Prometheus.
AprÚs, j'ai commencé à faire du Thanos.
Puis, j'ai fini sur Victoria Metrics.
Et en fait, on arrive vite Ă toujours la mĂȘme chose.
Typiquement, je me rappelle mon Loki
avec le stockage sur S3.
C'est vachement bien.
Ăa ne te coĂ»te pas cher.
Il ne faut juste pas vouloir le requĂȘter.
Oui, je suis d'accord.
En fait, moi, le problĂšme que j'ai
avec les stacks open source,
c'est que globalement,
elles veulent toutes se baser sur S3.
Sauf qu'elles sont toutes lentes,
inefficaces, voire impossibles.
Quand je vois dans Loki,
des fois, tu fais une requĂȘte,
le truc, il mouline,
et tu n'as jamais ta réponse.
Je suis désolé,
mais si je ne peux pas utiliser
ma stack de monitoring,
elle ne me sert Ă rien.
Et sur Loki, c'est vite le cas.
Sur Tempo, je n'entends la mĂȘme part.
LĂ , je suis en train de tester des tools
pour faire du profiling.
Il y a aussi celui de Grafana.
C'est pareil, en fait.
DĂšs qu'il commence Ă stocker
des trucs sur S3,
c'est tout pourri.
Mais c'est vraiment tout, tout, tout pourri.
Oui, mais c'est un standard,
et ce n'est pas cher.
Donc, c'est pour ça que...
Oui, mais sauf que moi,
tu es en astreinte.
Tu as un truc qui sonne.
Si je ne peux pas avoir
l'information rapidement
et avoir mes logs, etc.,
en fait, je ne fais plus d'astreinte.
On va gagner du temps.
De toute façon, je ne peux pas
débloquer parce que je n'ai pas d'info.
C'est pour ça qu'on a appelé le podcast...
Enfin, le titre, c'est inefficace
ou trop cher parce que c'est vrai
qu'on est coincé entre les deux.
Et moi, je suis tout Ă fait d'accord
avec toi, Maxence.
Moi, je self-host, voilĂ , aujourd'hui.
Du Thanos, du Tempo,
des choses comme ça.
C'est mégalent.
Parce que tout est basé
sur S3.
RĂ©cemment, il y a une nouvelle
release de Tempo qui est sortie
oĂč on peut transformer
des traces en métriques
via une query.
Bon, il y a quelqu'un
dont on déploie,
il y a quelqu'un qui teste.
Sur un service,
faire un quantile,
en gros,
calculer le P99
sur un service
sur la derniĂšre heure,
sur des requĂȘtes HTTP,
sur les traces HTTP,
voilĂ .
Vu que c'est une requĂȘte simple,
le truc, il time-out
au bout de...
Le truc, il est Ă 5 gigabits
de seconde, la query,
pendant 5 minutes
et elle finit par time-out.
Tu fais bon, OK.
Enfin, c'est des chiffres du style.
Rien que le cool du réseau.
Ouais, non, mais voilĂ .
Rien que le cool du réseau.
C'est exactement ça.
J'ai dit la mĂȘme chose.
J'ai dit, la query,
elle a coûté 10 balles
sur la facture Amazon.
Enfin, je ne sais pas.
Mais c'est...
Et donc, c'est le mĂȘme problĂšme.
Thanos, c'est pareil.
Thanos, c'est méga long.
Franchement,
tu ne peux pas ouvrir
un dashboard sur une semaine.
LĂ , je vais dire un truc
que vous allez me détester,
mais en soi,
lĂ -dessus,
ELK, j'aime bien le fait
qu'elle soit quand mĂȘme
bien plus rapide
pour faire des recherches.
Oui, mais pourquoi
c'est bien plus rapide ?
Parce que le stockage
n'est pas S3,
c'est de l'ES.
Pourquoi j'ai viré mon Thanos
pour ma DeVictoria Matrix ?
C'est juste parce qu'il y a
des disques, quoi.
Et que juste,
quand je veux le requĂȘter,
quand je veux faire une requĂȘte
alors j'attends un petit peu,
mais j'ai ma réponse.
Est-ce que je ne peux pas
avoir un Vectanos ?
Je suis vu dans l'OK
des fois faire des recherches
de 10 secondes en 10 secondes
dans mes logs
tellement c'Ă©tait lent.
Pour avoir une réponse rapide,
j'avançais de 10 secondes
par 10 secondes par 10 secondes.
Non, non, enfin...
Donc OK,
on parlait tout Ă l'heure
qu'on a gagné en outillage
par rapport Ă avant,
par rapport au Nagios,
machin, etc.
Mais des fois,
je n'ai pas l'impression
qu'à la finalité,
est-ce que mon infrastructure
est mieux monitorée qu'avant ?
Des fois,
je me pose la question.
Dans combien de boĂźtes
le monitoring,
c'est juste un call HTTP
sur une URL de l'application
et en final,
tout le reste,
c'est de la fleuriture inutile.
C'est souvent,
malheureusement,
ça se finit comme ça
tellement le reste
n'est pas fiable.
J'avoue que LK,
c'est rapide,
on en fait aussi.
Ăa marche plutĂŽt bien.
D'ailleurs,
l'opérateur cube
marche trĂšs bien.
Je tenais à le préciser
sur le fait du cube,
testez-le.
Mais oui,
comme tu dis,
Maxence,
c'est frustrant
parce que beaucoup de solutions
sont un peu terribles.
MĂȘme l'UX de Prometheus,
j'ai toujours trouvé ça
un peu dégueu,
pour ĂȘtre honnĂȘte.
J'ai toujours préféré
le push au pouls.
Déjà , ça n'aide pas.
Et on pourrait aussi parler
du coût à implémenter
le monitoring.
Parce que tu parlais
tout Ă l'heure,
Maxence,
de mettre un agent
et que ça marche trÚs bien.
Il y a le problĂšme
du locking toujours pour moi
sur les protocoles propriétaires,
mĂȘme si OpenTelemetry,
je pense,
résout ça
et est déjà en train de résoudre.
Mais c'est vrai qu'aujourd'hui,
il y a un vrai coût
que je vois aussi
sur demander aux devs
avec des Ă©quipes
qui ne sont pas forcément
toutes familiĂšres
avec l'Observability
en général,
implémenter les bonnes métriques,
c'est-Ă -dire comprendre
comment ça marche prom,
les histogrammes,
les counters,
les gauges,
etc.
Implémenter les traces,
comment ça marche,
les traces,
comment je crée une span,
qu'est-ce que je dois mettre dedans,
les attributs,
Semconf et tout.
Log,
loguer correctement.
Parce que les logs,
c'est qu'est-ce que je dois loguer,
attention,
j'ai des PII,
il ne faut pas que je logue
des données sensibles,
il faut faire des logs level propres,
etc.
Et donc,
c'est un vrai coût
pour les Ă©quipes,
en fait,
Ă©galement,
ce n'est pas que le coût infras,
en fait,
il y a le coût aussi
de maintenance de l'Observability
dans le code
qui est trĂšs important
aujourd'hui,
et mĂȘme en standardisant,
en faisant des librairies,
etc.
C'est un vrai coût
et ça met du temps
également à implémenter.
LĂ ,
je vais peut-ĂȘtre ĂȘtre
un peu l'avocat du diable,
mais en vrai,
aujourd'hui,
si tu regardes
sur le taux d'entreprise,
je pense qu'il n'y en a pas
beaucoup qui l'ont implémenté.
La partie vraiment,
on va dire,
rien qu'avoir un APM basique,
il y a quand mĂȘme
beaucoup d'entreprises
et de boĂźtes
qui n'en ont pas.
Et aprĂšs,
qui passent des heures
à essayer de débug
avec des informations partielles
pour des problĂšmes de perf,
pour des problĂšmes de call
sur des URL externes
et tout ça,
alors que tu fous un APM,
tu gagnes du temps en débug.
Mais énormément de boßtes,
je pense que la grande majorité
des boĂźtes aujourd'hui
n'ont pas d'APM,
n'ont pas de traces,
n'ont pas tout ça.
Et lĂ ,
c'est un peu des problĂšmes,
on va dire,
de riches.
Mais ce qui est dommage,
c'est qu'il y a une vraie,
du coup,
valeur ajoutée.
Est-ce que tu dis
que ça t'enlÚve aussi
beaucoup de temps de débug ?
Parce que j'ai déjà vu
des cas de débug
oĂč l'application est lente
depuis deux semaines,
il n'y a personne
qui sait pourquoi.
Le dev,
il a passé une semaine dessus.
Tu dis,
mais tu as mis un APM ?
Non,
tu fous un APM.
Le mec,
tu fais,
ah bah oui,
mais c'est bizarre,
lĂ ,
tu as un appel
Ă telle API externe
et elle prend
tant de secondes de trop
et tu te rends compte
que c'est ça
qui te provoque
toute la merde.
Et ça,
pour le coup,
c'est,
je pense,
quelque chose
qu'on oublie aussi.
C'est tout ce temps
à débug
qui a un coût
qui est Ă©norme
en société
et qui,
la majorité des sociétés
le payent aujourd'hui
par ce temps-lĂ .
Moi,
j'ai une chose
que j'aime bien,
j'ai beaucoup d'amis
qui sont dans le métier
mais qui ne sont pas
forcément dans,
je dirais,
dans des boĂźtes
cutting edge
ou dans des boĂźtes
qui cherchent Ă
innover,
le mot est peut-ĂȘtre
un peu fort,
mais à toujours améliorer
les choses
et qui sont dans des boĂźtes
assez classiques
et je pense
que vous n'imaginez pas
le nombre de boĂźtes
qui sont dans un Ă©tat
Ă ce niveau-lĂ
qui est vraiment,
qui te paraĂźtrait
l'Ăąge de pierre,
Mathieu,
sans exagérer.
Je sais,
je sais qu'on est
dans notre bulle.
AprĂšs,
tu parles d'APM,
c'est aujourd'hui
pour moi tout l'intĂ©rĂȘt
d'un open télémétrie,
c'est qu'en fait,
ça t'apporte un APM
plus digne
parce qu'en fin de compte,
ça fait la mĂȘme chose
et aprĂšs,
par contre,
tout dépend
de ton langage.
Tu prends Go,
par exemple,
parce que je pense
que Mathieu,
c'est aussi en Go
que tu l'utilises
de ton cÎté.
En Go,
il n'y a rien de magique.
De toute façon,
en Go,
en général,
il n'y a rien de magique
et donc,
si tu veux des traces,
tu es obligé,
une trace vers ta DB,
tu es obligé
de le faire toi-mĂȘme
Ă la main
ou utiliser une lib
qui va t'abstraire le truc
mais Ă la fin,
tu as du code
que tu as Ă©crit.
LĂ oĂč si tu fais
des langages différents,
qui sont plutĂŽt
des langages interprétés,
du PHP,
du Node,
etc.,
en fait,
souvent,
en PHP,
je ne sais pas si vous vous souvenez,
mais la lib Datadog
ou numérique,
c'est juste un binaire
en C ajouté dans la lib
et hop,
ton APM,
il est fait
parce que c'est plus facile
de le faire comme ça.
Je crois qu'en Node,
ça marche de la mĂȘme façon,
etc.
Donc,
tout dépend de ton langage aprÚs.
Donc,
c'est des choses
qui sont plus ou moins faciles
et puis,
tu as quand mĂȘme
une mouvance
qui est en train
de bouger sur ça
avec EBPF
oĂč l'idĂ©e,
justement,
c'est de venir
avoir ton layer le plus bas
qui va pouvoir te remonter
tes traces
de façon automatique.
Alors,
tu n'auras peut-ĂȘtre pas tout,
tu n'auras peut-ĂȘtre pas
la granularité des fonctions
dans ton code,
tes requĂȘtes HTTP
ou autres sortantes,
tes accĂšs
au MySQL,
au Postgres
ou autre
à ta base de données
que tu fais,
etc.
Et déjà ,
quand tu vois
tes requĂȘtes lentes
parce qu'il ne faut pas
ligner des index,
les index,
ça permet
de gagner du temps
ou tes requĂȘtes HTTP lentes,
tu vois assez vite
tes problĂšmes,
c'est clair.
Enfin,
c'est clair,
n'est-ce pas le coup ?
C'est vrai.
AprĂšs,
je ferai quand mĂȘme attention
avec EBPF,
etc.
Ăa marche trĂšs bien.
Enfin,
ça marche trÚs bien.
On est encore au début,
on va dire.
Il y a déjà des solutions,
on va dire.
Par contre,
il y a un truc
qui me dérange aussi sur ça,
c'est que,
OK,
ça marche,
il y a la base HTTP,
etc.
Mais le vrai intĂ©rĂȘt
de l'observability,
c'est aussi un peu
ce que je disais au début,
d'avoir des informations métiers.
C'est-Ă -dire,
moi,
j'adore attacher Ă mes spans,
si on parle de traces,
des informations métiers,
organization ID,
user ID,
action,
des trucs un peu vraiment
qui parlent au métier
pour pouvoir suivre
des flux utilisateurs
de maniÚre beaucoup plus précise,
comprendre quelle organisation
fait quoi,
Ă quel moment,
suivre son parcours.
Sur,
sur la partie métrique,
je pourrais aussi mentionner
les SLO.
Les SLO les plus intéressants,
ça reste les SLO produits,
donc avec des métriques
souvent un peu custom.
Moi,
je m'en fais,
mon client,
il m'en s'en fiche
que mon Kafka consumer rate,
il soit Ă 3% d'erreur,
je ne sais pas quoi.
Lui,
ce qu'il veut,
c'est un SLO de type,
j'arrive Ă faire
telle fonctionnalité.
Si je suis sur une marketplace,
ça va peut-ĂȘtre ĂȘtre
valider mon panier,
payer,
je ne sais pas,
moi,
naviguer,
enfin,
faire une recherche sur le site.
Donc,
des SLO comme ça,
c'est de la mĂȘme maniĂšre
qu'on ne peut pas ajouter
des attributs custom
sur les traces avec,
enfin,
sur les spans.
Ăa reste quelque chose
de trÚs générique,
en fait.
LĂ oĂč le vrai intĂ©rĂȘt
pour moi d'observabilité,
c'est d'aller quand mĂȘme
dans le spécifique,
dans le métier.
Oui,
pour moi,
ça te fait un premier niveau,
c'est-Ă -dire que
ce n'est pas parfait,
mais ça fait un premier pas
qui n'est pas trop dur
si ton systĂšme a dĂ©jĂ
le BPF,
etc.,
des prérequis.
Au moins,
ça te permet d'avoir
un premier niveau
qui serait plutĂŽt l'APM,
plutĂŽt que de la pure trace.
Et de lĂ ,
aprĂšs,
quand tu vas commencer
Ă avoir l'intĂ©rĂȘt,
c'est lĂ oĂč,
pour moi,
tu vas passer au level d'au-dessus
et te dire,
ah oui,
mais en fait,
maintenant,
je voudrais bien
pouvoir suivre vraiment
ma modernisation ID,
mon user ID,
machin,
et tout transférer.
Et c'est lĂ oĂč tu vas
commencer Ă aller modifier
ton code,
etc.
Mais New Relic
et Datadog,
au début,
ils se sont fait connaĂźtre,
c'est parce qu'ils avaient
des APM qui marchaient.
C'est ça qui les a fait connaßtre
en tout premier lieu.
Et aprĂšs,
ils ont développé leur business.
Enfin,
moi,
Ă Datadog,
j'ai découvert
parce qu'un jour,
j'avais un problĂšme de perf.
J'ai installé leur agent.
Cinq minutes,
mon truc était réglé.
Mon free trial n'Ă©tait pas fini
que j'avais réglé
tous mes problĂšmes de perf.
Mais je n'ai jamais payé.
C'est peut-ĂȘtre pour ça
qu'ils se sont rattrapés
maintenant sur les facturations
parce qu'il y a beaucoup
de gens comme moi
qui ont testé
et qui ont réglé
leurs problĂšmes
et fin.
Donc,
tu es en train de dire
que les gens,
il ne faut plus aller regarder
auprĂšs de Datadog,
mais auprĂšs de toi
pour les prix ?
Ils peuvent essayer.
Je ne suis pas sûr
que j'aurai un grand impact
chez Datadog par contre.
Je peux vous envoyer
un commercial Datadog
si vous voulez.
Non,
mais en vrai,
j'adorerais avoir acheté
pour acheter du SaaS.
J'adorerais,
mais franchement,
trop cher.
Enfin,
tout le monde est proche.
Ă partir du moment
oĂč le prix du SaaS,
tu peux avoir une Ă©quipe
de deux,
trois personnes
qui s'occupent de ça
full time,
plus le matos,
c'est vrai que c'est compliqué
de justifier ça.
AprĂšs,
il n'y a pas que ça.
C'est bien,
on a nos métriques,
on a nos traces,
on a nos logs.
Mais maintenant,
quand il faut faire des alertes,
des fois,
typiquement,
la derniĂšre fois,
je cherchais des alertes
pour Traffic,
j'ai l'impression
que j'ai demandé
un truc de fou.
Personne ne partage.
En fait,
on ne partage pas
les alertes qu'on a déjà .
c'est une bĂȘte alerte 500
pour toutes les 5 X en code HTTP.
C'est bon,
tu ne trouves rien sur Internet
ou le truc qui ne marche pas.
Et donc,
en fait,
chaque boßte réimplémente
la mĂȘme chose
pour le mĂȘme site.
Pour le mĂȘme soft,
il n'y a rien
qui est partagé.
Alors que tu arrives
sur un Datadog,
un Neuralink,
tu te dis que tu as
Traffic,
tu cliques sur le petit bouton,
tu as le dashboard qui arrive,
tu as les alertes
qui sont arrivées,
et tu n'as plus
qu'Ă reconfigurer les seuils
et dire vers oĂč
tu veux ĂȘtre notifiĂ©.
Et c'est ça,
pour moi,
c'est ça qui vante
ce cÎté trÚs plug and play
que tu n'as pas
du tout,
du tout,
du tout,
quand tu self-host.
Oui,
je suis tout Ă fait d'accord.
Les alertes,
tout le monde
réinvente sa sauce,
clairement,
moi aussi.
de plus en plus
pour que les devs
n'aient pas trop
à créer du promql,
des abstractions
pour ne pas créer
des fichiers,
etc.
Mais voilĂ .
Mais je suis désolé,
le pricing,
on parlait de Neuralink,
je connais bien la solution,
je l'ai utilisée dans le passé,
j'ai fait des devis et tout.
LĂ ,
je suis sur la page,
sur l'Enterprise,
pour l'utilisateur core,
ce n'est mĂȘme pas
le niveau supérieur,
on est à déjà 49 balles
par utilisateur.
Donc,
tu as 100 devs,
tu es déjà à 5000 balles
par mois,
tu n'as encore rien poussé
comme métrique.
Ou par an,
je ne sais plus,
non,
c'est par mois,
c'est par mois,
5000 balles par an,
tu n'as rien poussé.
Et pour les utilisateurs
full plateforme,
on est Ă 349 par mois.
Alors,
je pense que ça doit ĂȘtre
les admins,
mais mĂȘme sur les utilisateurs core,
sur des grosses Ă©quipes tech
oĂč il y a 200,
300 personnes,
on ne peut pas dire,
allez,
il y a déjà 200 000 qui partent
ou je ne sais pas,
150,
200 000 par an
qui partent rien que
dans la licence,
sur les sites,
alors qu'il y a zéro user.
Enfin,
il y a zéro métrique encore,
il n'y a rien de poussé,
il y a zéro trace.
Et donc,
c'est ça le vrai problÚme.
Moi,
je reparte.
En fait,
moi,
je suis coincé.
Je n'ai pas envie de maintenir
la stack d'Observity.
Enfin,
ce n'est plus vraiment moi
qui la maintiens aujourd'hui,
mais quand mĂȘme,
parce que c'est vrai que c'est du coup,
je suis vraiment tout Ă fait en accord,
les dashboards,
les alertes,
réinventer la roue en permanence,
mais qui peut payer ça ?
Qui peut payer NeuroDict at scale ?
Je ne comprends pas.
C'est ce que je disais tout Ă l'heure,
tu payes,
mais tu filtres.
MĂȘme en filtrant,
toi,
rien que les utilisateurs,
je ne peux pas filtrer et dire
tout le monde n'a pas accĂšs Ă la plateforme,
tu vois ?
Bah si.
Les devs,
de toute façon,
les devs,
ils ne veulent jamais regarder.
C'est la faute des devs.
Ils ne veulent pas.
Non,
je ne suis pas d'accord,
mais surtout nous.
C'est tout le problĂšme,
c'est que tu ne peux pas filtrer sur les users
parce que c'est dommage
parce que quelqu'un n'a pas les informations
dont il a besoin pour bosser.
Mais tu prends un graph Anaclote
qui a un pricing
qui est un poil plus simple,
mais en fait,
derriĂšre,
quand tu discutes avec eux,
il n'est pas plus simple
parce que tu as plein de facteurs
qui peuvent rajouter des multiples
sur n'importe quel indicateur.
Moi,
je me rappelle,
pour l'anecdote,
une fois,
chez Datadog,
au tout début de la boßte
oĂč je suis,
chez Farmance,
pour le coup,
on avait trois clusters cubes,
un staging,
un de,
enfin,
et deux de production.
Et en staging,
on activait le full log.
Donc,
ça débitait du log
Ă pleine balle.
On s'est amusé
pendant quelques temps,
pendant un petit moment,
on faisait des tests de perf,
machin,
etc.
Donc,
vraiment,
ça débitait,
Ah bah,
quand la facture de 12 000,
elle est arrivée,
le mois d'aprĂšs,
on n'Ă©tait plus chez Datadog.
C'est quand tu as
une facture mensuelle d'AWS
de 4 ou 5 000 euros
et que tu viens de te prendre
une facture de 12 000
de Datadog,
c'est injustifiable,
en fait.
Tu ne peux pas justifier
que ton petit monitoring
te coûte le double,
voire le triple
de ce que te coûte
ta plateforme de production
qui te rapporte
de l'argent techniquement.
Mais d'un autre cÎté,
le jour oĂč on a fait ce choix
de quitter Datadog,
on a aussi perdu des choses
parce que le monitoring
Ă©tait in fine
de meilleure qualité,
au moins dans un premier temps,
que ce qu'on a pu faire
nous-mĂȘmes en un mois
parce que le temps
d'installer les outils,
de virer Thanos
parce que c'est tout pourri,
de virer Loki
parce que c'est tout pourri,
en fait,
tout ça,
tu perds du temps.
Tu adaptes aprĂšs
Ă ton besoin,
Ă ton budget.
Tu peux aller acheter
une baguette de pain trĂšs vite
en prenant une Ferrari,
mais aprĂšs,
ça te revient trÚs cher.
Tu peux aussi y aller
à pied ou en vélo,
ça te revient moins cher,
mais ça te demande
de l'effort et du temps.
Et ça,
c'est dur aussi Ă savoir.
De un,
c'est trĂšs dur Ă estimer
parce qu'il ne faut pas
tomber non plus
dans le défaut,
je pense,
de power de métrique
parce qu'on retombe
dans le cas
oĂč je disais tout Ă l'heure
oĂč tu te retrouves
à avoir des coûts cachés
style les devs
qui débug des conneries
ou toi qui débug
des conneries d'infra
pendant des semaines
alors que ça pourrait
te prendre moins de temps.
Et dans un autre temps,
il ne faut pas vouloir
aller trop loin,
on va dire trop vite
et ne pas claquer
tout le budget
pour un monitoring fancy
mais tout le reste
qui ne va pas.
Et c'est trĂšs dur Ă juger.
Pour le coup,
ça,
c'est des décisions
pour moi
qui sont un peu
ce que j'attends
on va dire
d'un CTO
ou en tout cas
quelqu'un un peu
avec ce type
on va dire
de rĂŽle
dans la plupart des sociétés
ou pas toutes
mais c'est quelque chose
qui est un exercice compliqué
de savoir
quand investir dedans,
quand arrĂȘter d'investir,
quand se dire
lĂ c'est bon,
on a cette chose,
lĂ ce n'est pas bon,
ce n'est pas satisfaisant,
ça demande beaucoup de temps
mais moi,
ce que j'espĂšre
en tout cas au niveau
des alerting et tout ça,
ce que j'espĂšre,
ce que je suis curieux de voir
en fait,
c'est que je me dis
tout ce qui est dashboard,
c'est chronophage.
Franchement,
on a parlé des alerting,
moi je trouve
que les dashboards,
c'est pire.
Il n'y a rien de plus dur
que de faire sur Grafana,
alors j'ai quelqu'un
chez Waze
qui est le fondateur
qui est trĂšs bon lĂ -dedans
mais c'est ultra,
en fait,
on se rend compte
que c'est ultra chronophage
de faire un dashboard
qui soit parlant
pour les gens
qui vont le lire,
qui remonte les bonnes métriques,
qui soit lisible
et qui ne noie pas l'information.
C'est un exercice
qui est bien plus dur
je trouve
que les alertes.
Les alerting,
on peut adapter,
on part toujours
sur un seuil
de quelque chose,
une agrégation de métriques
ou des choses comme ça.
On arrive toujours
plus ou moins Ă quelque chose
et aprĂšs,
on l'adapte avec le temps
parce que les métriques,
les alertes,
ça se travaille beaucoup
je trouve,
beaucoup plus.
Mais les dashboards,
c'est une horreur
et c'est trĂšs dur
d'avoir du feedback dessus.
Les gens ne viennent pas
naturellement dire
j'ai été voir ce dashboard,
il n'y avait pas d'info lĂ
donc je l'ai rajouté
ou est-ce qu'on pourrait
voir ensemble pour le rajouter ?
Les gens n'ont pas ce réflexe
donc tu te retrouves
Ă des fois
te rendre compte
deux mois aprĂšs
que le dashboard super beau
que tu as fait,
tu Ă©tais content et tout.
En fait,
les gens ne l'utilisent pas.
Pourquoi ils ne l'utilisent pas ?
Parce que eux,
ce qu'ils voulaient,
c'Ă©tait l'info X
qu'ils ne t'ont pas demandé avant
parce qu'ils n'y ont pas pensé
mais il n'y a personne
qui a pensé à te remonter l'info
et je trouve que ça,
c'est le plus gros souci.
Ou voire,
ils ne savent pas
que le dashboard existe.
Ou qu'ils ne savent pas
mais ça,
c'est un problĂšme de com
plus général.
C'est un problĂšme de com
sur ce qui existe
mais c'est des vrais problĂšmes
qui sont chronophages
mais pour le coup,
c'est aussi des problĂšmes
qui existent un peu
on va dire sur du Datadog
ou autre
Ă partir du moment
oĂč tu n'as pas les infos.
Moi,
tu sors des dashboards génériques
parce que les dashboards génériques
sont bien
mais il y a forcément
un moment
oĂč tu sors pour 2-3K
tu vois notamment,
tu vois Mathieu,
tu parlais des métriques
un peu métier.
En général,
ça,
ça va ĂȘtre sur des trucs
vraiment trĂšs custom.
C'est surtout,
moi,
ce que je vois aussi
sur les dashboards,
c'est qu'au bout d'un moment,
le graphana,
il est bloated.
En fait,
les gens,
ils ont créé
150 000 dashboards.
Il y en a 15
qui font la mĂȘme chose
plus ou moins,
qui ont déforqué,
etc.
Et en fait,
il faut,
si dÚs le début,
il n'y a pas une consistance
forte avec mĂȘme des normes,
des conventions de nommage
sur les métriques,
les labels
pour pouvoir avoir
des dashboards
partagés entre applications,
mĂȘme entre langages,
je parle.
Mais voilĂ ,
toutes les requĂȘtes HTTP
s'appellent pareil,
toutes les métriques HTTP,
Kafka,
des spans,
etc.
Enfin,
tout soit standardisé
assez fortement
avec des dashboards de qualité,
avec des honneurs.
C'est sympa Ă envrer.
Mais ça,
on le voit aussi
sur d'autres outils.
Mais oui,
c'est trĂšs complexe.
C'est trĂšs complexe
ce qu'on observe ici.
Et c'est vrai qu'en réalité,
il y a assez peu de personnes,
je trouve,
sur le marché
qui ont vraiment
l'expérience complÚte,
c'est-Ă -dire sur ce sujet.
C'est-Ă -dire qu'ils ne sont pas
capables de proposer
une vision
avec,
connaĂźt bien
les différents outils,
les avantages,
les inconvénients,
mĂȘme les principes derriĂšre,
pas seulement les outils,
mais tous les principes
et mĂȘme un peu parfois les maths.
On parlait des histogrammes
pour Météus.
DĂ©finir des buckets
pour Météus.
On parlait du coup
pour les devs,
l'implémentation,
enfin,
qu'est-ce que ça demande
par rapport Ă un agent
comme Datadog, etc.
Rien que choisir
les bons buckets,
c'est compliqué.
Parce que des buckets
dans Météus,
ça fait des approximations
ensuite quand on fait
des quantiles.
Les approximations sont calculées
d'une certaine maniĂšre
en fonction de la taille
de chaque bucket,
etc.
Donc ça a des impacts
en fait.
Et ça,
c'est des choses,
c'est dur d'avoir
de trouver aussi
des profils
qui connaissent bien tout ça.
AprĂšs,
il y a quand mĂȘme
des trucs qui me manquent
dans la stack open source.
Je veux bien savoir
comment vous faites vous.
Mais par exemple,
Ă l'Ă©poque,
j'utilisais Datadog.
Un truc que j'utilisais énormément,
c'Ă©tait leur feature
de notebook.
En gros,
l'idée,
c'est que vous avez
un incident
ou vous ĂȘtes en train
d'investiguer sur un truc.
PlutĂŽt que d'avoir
40 000 onglets
ouverts en permanence,
grosso modo,
tu te lances dans un notebook,
c'est une espĂšce
de page Notion,
dans lequel tu peux venir
faire des graphes,
prendre des graphes,
etc.
Mais en fait,
tout est figé
sur la plage de temps
oĂč tu as fait ta requĂȘte.
Et donc,
c'est ultra pratique
parce que par exemple,
tu es en train
d'investiguer un incident.
En fait,
le mec qui a réglé
le problĂšme le soir,
par exemple,
s'il a tout bien figé
dans le notebook,
toi,
tu arrives dans le notebook,
tu as toutes les informations
qui lui ont permis
de retrouver l'information
et de lĂ ,
tu peux aller chercher
des informations supplémentaires,
etc.
Mais tout restera figé
dans ce notebook.
Et typiquement,
en open source,
je ne connais aucune solution
qui me permet
de faire ce genre de truc.
Et pour autant,
c'est ultra utile.
Mais pour ça,
il faut un environnement
hyper convergé.
Et c'est ce que ne propose
pas la partie open source
parce que mĂȘme si
tu es full solution graphana,
tu as quand mĂȘme
des trous dans la requĂȘte,
tu as quand mĂȘme
des trucs que tu n'as pas.
Et chez Datadome,
la data est quand mĂȘme
beaucoup mieux utilisée.
Enfin,
typiquement,
tu pousses dĂ©jĂ
tes logs,
tes traces,
tes métriques,
tu cliques sur un bouton,
bim,
tu as une partie sécurité
qui arrive avec
une espÚce de CM léger,
mais une espĂšce de CM
qui arrive.
Alors,
ils n'oublient pas
la facturation en parallĂšle,
mais c'est ce cĂŽtĂ©-lĂ
qui fait qu'ils arrivent
Ă signer aprĂšs
des gros clients,
Mathieu.
C'est qu'en fait,
tu n'y vas pas juste
pour tes logs,
métriques et traces,
tu y vas aussi
pour la partie sécurité,
pour la partie
débug plus facile,
etc.
Et en fait,
tu t'enlÚves ce cÎté
juste métrique,
traces et logs
et tu es prĂȘt Ă accepter
de payer cher,
entre guillemets,
parce que ça t'apporte
d'autres choses
et un jeu de responsabilité aussi.
Tu n'es plus responsable.
Peut-ĂȘtre que les SaaS,
c'est peut-ĂȘtre bien
pour les tout petites boĂźtes
qui n'ont pas trop de métriques,
peu de signaux,
ou les Ă©normes grands groupes
qui s'en foutent
de payer globalement.
Comme tu dis,
ils prennent le gros paquet
de jolines
avec un méga contrat
et puis voilĂ .
Mais les 90% des gens
qui sont au milieu,
galĂšrent.
C'est peut-ĂȘtre ça aussi le truc.
Je parlais de type d'entreprise
au début.
Pour moi,
un Datadog,
la relation commerciale
que j'avais avec eux
Ă l'Ă©poque
oĂč on Ă©tait vraiment tout petits,
on Ă©tait quatre dans la boĂźte,
ils ne savent pas gérer.
Pour moi,
Datadog,
ça a peut-ĂȘtre changĂ©
en deux ans,
trois.
Mais ils ne savent pas
gérer des relations
avec des petits comptes.
Tu n'as pas besoin
d'entretenir une relation
avec un petit compte,
c'est du sas.
Un petit compte,
il va te servir quoi ?
Parfaitement bien.
AWS,
j'ai des calls de synchro
avec eux tous les trimestres.
Des fois,
ça dure 15 minutes,
des fois,
ça dure une heure
et ils s'intéressent
Ă savoir oĂč est-ce qu'on en est,
est-ce qu'ils peuvent nous aider
sur certains sujets,
est-ce qu'on peut faire
de l'IA avec eux,
etc.
Tu crées une relation
sur l'avenir.
En fait,
si ton partenaire
t'a travaillé avec lui,
etc.,
mĂȘme s'il te coĂ»te cher,
tu n'auras pas envie
de le quitter en fait
parce qu'il t'apporte d'autres choses,
parce que tu as une relation
avec lui
et l'humain joue
quand mĂȘme vachement.
Oui,
je comprends.
Et les Datadogs,
ils sont incapables
de créer cette relation humaine.
En tout cas,
aujourd'hui,
Ă l'Ă©poque,
ils en Ă©taient incapables
avec des petits comptes.
Par contre,
quand j'Ă©tais dans
des trĂšs grosses boĂźtes
qui ont utilisé Datadog,
je faisais une trĂšs bonne
relation avec eux,
on avait nos calls
trĂšs souvent,
etc.
Mais c'est des stratégies
de boĂźte aprĂšs,
c'est des vraies stratégies
de boĂźte de choisir.
Oui,
c'est vrai qu'Amazon,
ils sont forts lĂ -dessus,
une trĂšs bonne relation avec eux.
Mais je crois,
mĂȘme moi,
c'est Dailymotion
qui tourne avec full Datadog
et il me semble
que ça leur coûte cher
et je crois qu'ils ont fait
un rex dessus
mais qui marche
trĂšs trĂšs bien.
AprĂšs,
moi,
je n'ai jamais connu
personne dire
que Datadog ne marchait pas
ou mal.
Moi,
c'est mĂȘme vrai
avec Datadome
ou des trucs comme ça,
des solutions
qui sont trĂšs puissantes.
AprĂšs,
du coup,
pour un peu,
parce que je pense
qu'on a fait un peu
le tour de tout ça,
j'ai un peu
fait une ouverture
sur un sujet
oĂč certains auditeurs,
bouchez-vous peut-ĂȘtre
les oreilles,
mais on parlait un peu
des difficultés
sur les dashboards,
la herting et tout ça
et on parlait un peu
tout Ă l'heure,
Mathieu va parler
des ouvertures
qui sont vraies,
notamment sur les solutions
comme EBPF
et tout ça
pour le tracing
et un peu,
on va dire,
une standardisation,
une amélioration
de tout ça
pour simplifier tout Ă terme
et un sujet
qui revient souvent
en ce moment
qu'il y a,
est-ce que vous ne pensez pas
sur toute cette partie
vraiment,
pour faire le tri
dans les métriques,
faire des dashboards
qui soient intéressants,
faire de l'alerting
qui soit pertinent,
ça n'a pas un rÎle à jouer
parce que moi,
si on parle d'une grosse
quantité de données
qui est Ă analyser,
Ă en retirer quelque chose
et Ă extrapoler
pour pouvoir faire sortir
un truc,
je me demande
si ça ne serait pas
un peu la chose
qu'on attendrait Ă terme.
Moi, sur ça,
j'ai un vieux rĂȘve
mais qui va encore plus loin
que l'IA
parce que je pense
que l'IA,
en tout cas,
l'IA,
elle est l'aime,
elle n'apportera pas
grand-chose sur ça.
Par contre,
je ne comprends pas
qu'aujourd'hui,
nos stacks de monitoring
ne soient pas blindés
de machine learning.
Moi, je rĂȘverais
de ne plus avoir
des alertes
parce qu'il y a
un truc qui ne marche pas
mais avoir des alertes
parce que le systĂšme
a détecté que
ça, c'était un peu chelou,
ce n'est pas dans
les scats d'habitude
et bim,
je reçois une alerte
et en fait,
je suis proactif.
Typiquement,
c'est ce que je faisais
Ă l'Ă©poque
chez la centrale
avec AWS.
On utilisait CloudWatch
et il y a une partie
machine learning
dans CloudWatch
qu'on peut activer
en Ă©change
d'un petit peu de pesos
et pour le coup,
combien de fois
ça nous a sauvé ?
La centrale a un trafic
trÚs prédictible.
La nuit,
trĂšs peu de trafic.
Les journées,
beaucoup de trafic.
DĂšs qu'ils font
des pubs télé,
gros pic de trafic,
c'est trÚs prédictible
et donc,
pour le coup,
le machine learning,
ça marche extrĂȘmement bien
et il y a des fois,
on s'est pris des pics
et en fait,
on a toujours réussi
Ă retrouver
pourquoi il y avait eu
ce pic-lĂ
et c'Ă©tait toujours
des choses de
ah, en fait,
il y a une pub
qui a été signée
au dernier moment
et on n'avait pas été
encore au courant.
Bon, une fois que c'est passé,
ça ne sert plus Ă ĂȘtre au courant
mais c'est des choses comme ça
et on a toujours pu retrouver
et le monitoring,
en fait,
on n'avait plus du tout
un monitoring
entre guillemets
de réactif.
Il y a un problĂšme,
on avait un monitoring
préventif
qui venait vraiment
nous alerter
quand on sortait
des seuils,
des machins,
etc.
Et mĂȘme sur des trucs
assez bĂȘtes,
on avait des alertes
sur le nombre
d'annonces,
etc.
qu'on avait mis
dans CloudWatch
et c'Ă©tait juste
trop bien.
Mais aujourd'hui,
par exemple,
en open source,
je crois que le seul
qui permet de faire
à peu prÚs ça,
c'est l'instaculastique
si ils ont un modĂšle
de machine,
enfin,
ils ont une partie
de machine learning
intégrée.
Mais par exemple,
chez Grafana,
ça n'existe pas.
Je crois que chez Datadog,
il y a quelques trucs
qui font un peu
comme AWS.
Mais moi,
j'aimerais,
enfin,
si on parle d'IA,
etc.,
de data,
pour moi,
le monitoring,
on devrait avoir
de la data
et du machine learning
Ă pleine balle
partout lĂ -dedans.
Et moi,
les dashboards,
je ne suis pas
un grand fan
de dashboards.
Je ne regarde pratiquement
jamais.
Par contre,
avoir une IA,
data,
appelle-la comme tu veux,
machine learning
ou autre
qui me trouve
les problĂšmes
et qui peut mĂȘme
me les corriger avant,
lĂ ,
tu peux prendre
ma CB
ou mon compte bancaire
en direct.
Si derriĂšre,
tu réduis
mes incidents,
etc.,
je signe
avec un trĂšs grand plaisir.
Alors,
mon avis sur
ça,
c'est que finalement,
le préemptif,
etc.,
c'est déjà possible
d'une certaine maniĂšre
avec des SLO.
Si on calcule
un error budget
avec un burn rate,
ça permet de rapidement
détecter,
en théorie,
des déviations,
on va dire,
des rés erreurs
qui commencent Ă monter
avant que ça devienne
critique.
Mais c'est vrai
qu'il n'y a pas
cette notion
d'auto-apprentissage.
Moi,
l'IA sur le monitoring,
je la vois sur deux parties.
On parlait tout Ă l'heure
de la difficulté
de trouver des dashboards,
de trouver des docs.
Parce qu'il y a bien sûr
de trouver pourquoi
il y a le problĂšme,
mais aussi comment le résoudre
quand on est en incident,
notamment en astreinte.
Et c'est vrai que moi,
j'y pensais d'ailleurs récemment.
J'aimerais bien des fois
quand je reçois
certaines alertes,
que le truc soit capable
de me dire,
ah bah tiens,
cette alerte-lĂ ,
basée sur la doc,
basée sur les incidents,
parce qu'on documente
énormément nos incidents,
les incidents précédents,
etc., etc.,
boum,
il y a déjà des guides,
des liens vers certains dashs,
certaines commandes.
On a beaucoup
d'outillages internes,
donc certaines commandes
pour Ă©ventuellement...
Enfin, voilĂ ,
déjà des suggestions,
en fait.
Un bot d'aide,
on va dire,
Ă l'investigation
qui, Ă partir des alertes
et de certains signaux,
arrive Ă faire sortir
une théorie
de qu'est-ce qui se passe.
Ăa, c'est un truc
qui, je pense,
serait déjà intéressant,
qu'on n'a pas aujourd'hui,
je pense,
mais qu'Ă©ventuellement,
on pourrait.
C'est des trucs
sur lesquels j'ai réfléchi.
Et sur la partie
apprentissage auto,
pourquoi pas,
mais aprĂšs,
il faut voir comment
ça se matérialise,
en fait.
Parce que c'est vrai que...
Je reviens sur l'histoire
des SLO,
mais en fait,
je pense que les SLO,
c'est un outil
qu'on n'utilise pas assez
dans l'industrie
parce que c'est assez simple,
en fait,
conceptuellement.
Et ça permet dĂ©jĂ
de voir beaucoup de choses
avec des formules
vraiment simples.
DĂ©tecter des problĂšmes
en amont,
mĂȘme de rĂ©flĂ©chir
Ă c'est quoi un comportement,
on va dire,
un comportement anormal.
Parce qu'il y a ça aussi,
mĂȘme avec du machine learning,
c'est quoi mon seuil ?
Oui, je peux comparer
Ă la semaine derniĂšre
ou au mois dernier,
mais est-ce que ça sera pertinent ?
Est-ce que, par exemple,
si je passe de 100 millisecondes
Ă 150 millisecondes,
est-ce que c'est grave ?
Peut-ĂȘtre,
peut-ĂȘtre pas, en fait.
C'est un peu ça aussi
la difficulté du machine learning,
c'est quand est-ce qu'on déclenche
parce qu'on n'a pas
de fausses alertes
ou des choses comme ça.
C'est lĂ oĂč,
enfin,
si je reviens sur ce que tu disais,
pour moi,
on pourrait trĂšs bien avoir
du machine learning,
peu importe,
qui fait de la corrélation
parce que
combien de fois
tu as une alerte
sur un truc B,
mais en fait,
c'est toute la chaĂźne
qui Ă©tait en souffrance
et qui n'avait pas
d'alerte dessus
et B n'est que
le dernier maillon
et qui, lui, par chance,
était monitoré
mieux que les autres
et donc ça peut ĂȘtre,
mais en fait,
tu n'as rien Ă faire sur B,
il faut régler la chaßne en amont
et ça, des fois,
avant de le comprendre
et de le voir,
si tu n'as pas l'expérience
et que tu n'as pas déjà eu
ce genre de problĂšme-lĂ ,
en fait,
tu vas mettre un temps immense
et ça, pour moi,
c'est le systĂšme de monitoring
qui devrait dire
ben voilĂ ,
ta DB, elle est en souffrance
mais en fait,
je vois aussi une augmentation
du trafic,
je vois que tu n'as que Kafka
et elle est en train
de dépiler comme un cochon.
Je ne sais pas
si c'est une bonne information
ou une mauvaise information
mais je te donne une information
et aprĂšs,
toi, humain,
traite,
si déjà ,
on avait ça,
je ne sais pas combien d'heures
on pourrait gagner
sur des problĂšmes
mais on en gagnerait beaucoup
et aprĂšs,
moi,
je pense surtout
qu'aujourd'hui,
en tout cas,
sur la partie open source,
je trouve ça pratiquement honteux
qu'on se pose encore
certaines questions
du genre
comment monitorer
un cluster cube,
par exemple.
Tu vois,
ça devrait ĂȘtre rĂ©glĂ©,
tu vois,
comme,
en fait,
on peut critiquer
un agios,
etc.
Ă l'Ă©poque
mais un agios,
tu arrivais,
tu activais ton SNMP
et tu avais ta sonde
CPU,
RAM,
disque,
etc.
Alors,
tu n'as peut-ĂȘtre pas
des bons indicateurs,
on l'a appris
avec la suite
mais au moins,
tu ne te posais pas la question.
Ton agios,
il démarrait
et day one,
tu avais un truc
qui marchait
et qui t'apportait
déjà de la plus-value
et aujourd'hui,
alors tu installes
ton Prometheus,
tu installes ton Loki
et tu installes ton Tembo
et bien,
en fait,
ils ne font rien,
ils ne servent Ă rien,
ils n'apportent rien
et je trouve que sur ça,
c'est un retour en arriĂšre
qui est juste Ă©norme
et que,
en fait,
ça devrait arriver
built-in avec
tout un tas d'alertes
que tu peux désactiver,
modifier,
etc.
Bien sûr,
il ne faut pas forcément
les laisser comme ça.
Il y en a certaines,
il y en a plein
qui ne seraient pas
bénéfiques à ton business
mais en fait,
tout,
presque,
j'attendrais presque
des triflicks,
etc.
quand je l'installe
qui me créent
des Prometheus rules
directement
et qui me disent
voilĂ ,
tout en fait,
pourquoi moi,
je devrais me faire chier
Ă savoir
qu'est-ce qui fait
que mon triflick
ne marche pas bien.
C'est qui l'Ă©diteur ?
C'est qui qui fait le ?
Propose-moi des trucs.
Fais-moi un référentiel
de toutes les aires.
Tu en as
qui le mettent
dans les short-term ?
Oui,
mais c'est trĂšs,
trĂšs peu au final.
Ah oui,
je te dis pas le contraire
mais c'est vrai qu'il sait.
Ăa devrait ĂȘtre
practice en fait.
C'est ce qui fait
que pour moi,
le monitoring reste
le truc,
c'est un truc de vieux.
On fait semblant
qu'on a des technos récentes
et tout ça
et en fait,
c'est pourri.
Moi,
je trouve ça pourri.
Combien de fois
j'ai vu des boĂźtes
oĂč leur alerting,
c'Ă©tait juste
un call HTTP
qui est fait par le time robot
toutes les minutes
sur leurs API
et le truc,
il détectait des problÚmes
avant que leur super monitoring
détecte quelque chose.
AprĂšs,
tu rentres dans un truc
qui est vraiment
plus monitoring
qui est qu'Ă un moment,
tu veux Ă©viter les flaps,
tu veux Ă©viter
les fausses alertes,
tu veux Ă©viter plein de trucs
et du coup,
tu t'adaptes mal,
tu fais trop d'un cÎté,
trop de l'autre
et en fait,
tu te retrouves dans un Ă©tat
oĂč c'est un ajustement permanent.
Oui,
mais en fait,
tu devrais,
Ă mon sens,
avoir le marché
qui te dit
voilĂ ,
entre guillemets,
par défaut,
si tu as une des requĂȘtes HTTP
qui répondent au-dessus
de 500 MS,
c'est un problĂšme.
AprĂšs,
tu adapteras,
tu vois.
Et lĂ ,
on n'en a mĂȘme pas
ces informations-lĂ aujourd'hui.
Je suis d'accord
d'un cÎté
et d'un cÎté non
parce qu'une requĂȘte
qui met 500 MS,
certains vont te dire
c'est la catastrophe absolue.
Tant Ă d'autres,
ils seront en mode
non mais ça,
c'est un truc,
je m'en fous,
je m'en fous totalement.
Moi,
je connais des gens
qui sont sur des topics
industriels,
etc.
oĂč c'est 500 MS
mais on s'en fout
parce que derriĂšre,
ça n'a pas de conséquences
ni rien.
Par contre,
ils ont un autre critĂšre
un peu Ă la con
qui pour eux
est super important.
Pour simplifier,
je pense que c'est ce que je dis.
Pour moi,
tout ce qui est
outils,
open source,
Nen,
GNX,
on ne devrait mĂȘme pas
avoir Ă se poser la question
de l'alerting,
etc.
Il devrait y avoir
un truc built-in.
On fait clic-clic,
bim,
ça marche
et aprĂšs,
on adapte
et on devrait se concentrer
que sur la partie métier.
Tout ce qui n'est pas
de l'infrastructure,
tout ce qui est spécifique
à ton métier,
on devrait se concentrer
que sur ça
et arrĂȘter de perdre du temps
Ă faire des rĂšgles
pour avoir les erreurs
Ă 500
sur ton load balancer,
etc.
C'est juste
on te fait exister encore.
Je suis d'accord
que c'est un Ă©norme effort
aujourd'hui
de créer une stack
de servilities on-prem
mĂȘme sur des technos
standards sur le cloud.
On parlait de Kubernetes
mais c'est pareil
si vous faites du post-grade,
Kafka et tout,
il faut recommencer
de zéro à chaque fois.
Nous,
on a open source des trucs
notamment sur RDS,
parce qu'on essaye
de partager.
Mais globalement,
c'est un Ă©norme effort.
C'est un effort
qui dure plusieurs années
et mĂȘme au bout
de plusieurs années,
vous vous prendrez des murs.
Il y a quelques temps,
on a eu un incident
sur un cluster Kubernetes
qui n'Ă©tait pas critique
oĂč il y a eu un bug
dans Kiberno.
Il y avait un script
qui était buggé,
un script de cleanup
de la charte Kiberno
qui vient d'eux-mĂȘmes
qui fait que les admissions
n'enlaient quoi.
Je ne sais plus,
il y avait une ressource
sur le nombre de ressources
dans le cluster
et Ă un moment,
le cluster a crashé.
Quand je dis crashé,
c'est-Ă -dire que le cluster
était quasiment irrécupérable
parce qu'on avait,
je ne sais plus,
700 000,
800 000 ressources Kiberno
et Ă un moment,
boum,
d'un coup,
le cluster est passé
de je marche
Ă je ne marche plus.
Et le truc,
maintenant,
on a l'alerte,
c'est cool,
mais en fait,
voilĂ ,
personne,
c'est une métrique obscure
de l'API serveur
qui permet de détecter ça.
Il y a deux personnes
sur Google
qui la documentent
et encore,
c'est un truc
si on ne s'est pas pris
le mur un jour.
Et ça,
on le voit,
moi,
je l'ai vu pendant des années,
ça,
en fait.
C'est que l'expérience
qui permet de créer le...
Il faut déjà avoir
une expérience
de la brique open source
pour pouvoir créer l'alerting,
sinon,
vous prendrez des méga murs
parce que mĂȘme sur Internet,
il y a trĂšs peu de contenu,
en fait.
Si vous regardez
comment on monitorait
du cube sur Internet,
vous allez trouver des trucs,
mais vous aurez Ă lire
50 articles de blog disparates
et encore,
il n'y aura pas tout.
La moitié,
les alertes ne seront pas bonnes,
il y aura des record rules
qui ne seront pas bonnes,
en fait,
ce sera bugué,
il y aura des problĂšmes
de cardinité,
parfois,
je ne sais pas quoi,
enfin bref,
il y a toujours des problĂšmes
et c'est un coup monstrueux,
mais on revient sur...
Moi,
je tourne en boucle sur
je n'ai pas envie de faire ça,
mais je n'ai pas le choix
parce que le ça,
ça coûte cher,
voilĂ .
En fait,
je suis dans une boucle infernale,
je suis désolé,
je ne sais pas quoi dire d'autre,
en fait,
je ne sais pas quoi dire d'autre.
Mathieu nous renvoie au début.
C'est vraiment ça,
c'est vraiment ça.
Maintenant,
vous reprenez votre curseur,
vous le remettez Ă 5 minutes
et vous pouvez réécouter.
C'est la fameuse technique
qui est aussi utilisée sur TikTok,
comme ça,
ça revient au début,
les gens ne remarquent pas,
ça fait du listen time.
Mais en tout cas,
je pense qu'on a fait
un bon petit tour du sujet,
un sujet qui,
au final,
est quand mĂȘme intĂ©ressant,
mĂȘme si ce n'est pas forcĂ©ment
un sujet qui monopolise
les discussions sur Twitter,
mais on gagnerait peut-ĂȘtre plus
Ă Ă©changer des fois lĂ -dessus
que sur pourquoi Bash
doit rester dans le monde du cloud
ou pourquoi Kubernetes
a été un peu plus
Ă Ă©changer des fois lĂ -dessus.
Ăa ajoute de la complexitĂ©
à mon bar métal,
mais bon,
ça,
c'est,
on va dire,
encore une digression.
Est-ce que vous avez
un petit dernier mot Ă dire
avant de laisser,
du coup,
Ă nos auditeurs
et auditrices ?
Oui,
je peux commencer,
allez.
Bon,
on a beaucoup critiqué
le monde du monitoring
aujourd'hui,
Ă raison,
je pense.
Il n'y a pas de solution magique,
malheureusement.
Il y a des avantages
et des inconvénients
un peu partout.
Mais je voulais quand mĂȘme dire
que c'Ă©tait un domaine
qui me passionne quand mĂȘme.
Je travaille dessus
depuis le début de ma carriÚre.
Je continue de travailler
énormément dessus.
C'est pour moi un point.
En fait,
l'observabilité en général,
pas que l'infra,
mais métier,
etc.,
l'exploitation de toutes ces métriques,
en général,
c'est quelque chose
qui peut amener
une Ă©norme plus-value,
on va dire,
pour l'entreprise.
Et donc,
ça reste un domaine
avec beaucoup de choses Ă faire.
Je suis sûr qu'on verra
beaucoup d'Ă©volutions
qui Ă©voluent Ă©galement
trĂšs, trĂšs, trĂšs vite.
On n'a pas le temps
d'en parler lĂ ,
mais c'est un domaine
qui Ă©volue beaucoup.
Des nouveaux standards,
des nouvelles maniĂšres de faire,
des nouveaux outils.
Donc,
bon,
on reste positif
et bonne chance
pour tous les SRE,
OPS,
ou les gens de l'infra
qui maintiennent ces stacks-lĂ
parce que c'est vrai que c'est...
De mon cÎté,
ce serait plutĂŽt une question.
Je serais vraiment curieux
que les gens nous disent
sur Twitter ou autre,
mais on est principalement
tous les trois sur Twitter.
Je serais vraiment curieux
de savoir leur avis
déjà sur leurs stacks
de monitoring,
sur les outils SaaS,
etc.,
et voir si les gens
partagent notre avis
sur la préhistoire
de toute cette histoire
ou est-ce que
c'est juste
qu'ils vont trop fumer
et pourtant on est clean ?
C'est une bonne question.
N'hésitez pas à nous répondre
sur Twitter,
en commentaire,
directement sur
les différentes plateformes
et puis on regardera
ça attentivement.
Moi, de mon cÎté,
comme je disais,
je pense qu'on se tire
un peu les cheveux
parce que le sujet
nous intéresse
et parce qu'on sait
l'importance que ça a
donc on creuse beaucoup.
Mais je pense quand mĂȘme
que les choses,
au fond,
s'améliorent petit à petit.
C'est juste qu'il y a
un effet de scope
et qu'on est quand mĂȘme
de mieux en mieux lĂ -dessus
et que ça va continuer
dans cette voie-lĂ .
Donc on va dire
que je suis quelqu'un
d'optimiste lĂ -dessus
et j'espĂšre qu'on va
continuer de ce cÎté-là .
Donc n'hésitez pas aussi
Ă nous suivre.
Du coup, pour cette nouvelle saison,
on va parler comme toujours
de plein de petits sujets tech
qui nous font discuter
et qui nous passionnent
entre nous et avec,
bien sûr, des invités
comme à la saison précédente
et on va essayer d'ajouter
plein de petites choses
cette saison,
changement de générique
comme vous l'avez entendu
et aussi Ă terme
du live possiblement.
Donc n'hésitez pas
Ă nous suivre
et je vous dis
Sous-titrage ST' 501
Sous-titrage ST' 501