Pourquoi votre monitoring est inefficace ou trop cher ? - S02E01
S02:E01

Pourquoi votre monitoring est inefficace ou trop cher ? - S02E01

‱

Episode description

🎙 Bienvenue dans la saison 2 de “Dans la Tech” ! 🎙

Dans cet Ă©pisode d’ouverture, DamyR, Mathieu et Maxence sont de retour pour discuter de ce qui fait vibrer ou grincer les dents dans le monde du dĂ©veloppement, du cloud et du DevOps. đŸ’»â˜ïž

🌟 Au programme : Nous abordons un sujet qui concerne tout le monde : le monitoring. Pourquoi est-il souvent soit trop cher, soit inefficace ? Est-il possible de trouver un Ă©quilibre ? Nous partageons nos expĂ©riences avec diffĂ©rentes solutions de monitoring, leurs avantages et inconvĂ©nients, et discutons des meilleures pratiques dans le domaine. Du choix entre solutions SaaS comme Datadog, aux outils open source tels que Prometheus, en passant par l’importance de l’observabilitĂ© dans les entreprises, nous couvrons tout !

💡 ThĂšmes abordĂ©s :

Les défis du monitoring dans les petites et grandes entreprises.

  • SaaS vs. solutions open source : oĂč investir ?
  • Pourquoi l’observabilitĂ© est-elle cruciale pour anticiper les problĂšmes ?
  • Machine learning et IA dans le monitoring : est-ce la prochaine rĂ©volution ?
  • ExpĂ©riences et astuces pour mieux gĂ©rer vos alertes et vos dashboards.

Abonnez-vous pour ne rien manquer des discussions à venir sur le Dev, le Cloud, et bien plus encore ! 🔔

#Monitoring #Observabilité #DevOps #Cloud #PodcastTech

ïżœDownload transcript (.srt)
0:00

Bonjour Ă  toutes et tous, vous Ă©coutez Dans la Tech, le podcast oĂč on partage ce qui nous fait vibrer ou pas dans le Dev, le Cloud et le DevOps.

0:12

Et on est du coup trĂšs heureux de vous retrouver pour une saison 2 du podcast Dans la Tech.

0:18

Et pour ça et pour commencer cette nouvelle saison, je vais accueillir l'équipe originale de Dans la Tech, c'est-à-dire Mathieu.

0:26

Mathieu, comment tu vas et es-tu prĂȘt pour cette nouvelle saison ?

0:28

Je reviens de deux semaines de vacances, donc je suis au bouillon là. Et toi, comment ça va Damien ?

0:33

Écoute, moi ça vient trĂšs bien. Je reviens d'une semaine de vacances, une semaine et un jour pour ĂȘtre prĂ©cis.

0:38

Donc ça va trĂšs bien aussi, mĂȘme si je suis un tout petit peu fatiguĂ©, mais on va dire que c'est le temps qui veut ça.

0:44

Et puis bien sĂ»r, Maxence que j'accueille aussi. Maxence, toi, est-ce que tu es prĂȘt pour cette nouvelle saison et en pleine forme ?

0:50

Toujours. Moi, je n'Ă©tais pas en vacances comme vous deux, mais prĂ©sent, prĂȘt.

0:54

En plus, on n'a presque pas raté notre rentrée. L'année derniÚre, on avait commencé en novembre.

0:59

Donc là, c'est bon. On est presque pas mal. On devrait arriver début octobre. C'est cool.

1:03

Oui, ne vous inquiétez pas. La saison 5, bien sûr, le podcast commencera presque en septembre.

1:08

Mais l'intention est lĂ , en tout cas. Et ça, c'est l'essentiel. Et en plus, Maxence n'a pas besoin de vacances pour ĂȘtre en forme, ce qui est quand mĂȘme super.

1:15

J'espÚre que de votre cÎté, les auditeurs, vous avez autant de facilité à rester en forme.

1:20

Et pour attaquer cette rentrée, on va choisir un sujet qui nous concerne toutes et tous et qui, pour le coup, est une question qu'on peut se poser souvent.

1:28

Et pour le coup, je ne vois pas tant cette question sur les réseaux sociaux, mais il y a un vrai sujet là-dessus.

1:34

C'est pourquoi le monitoring, soit il est trop cher, soit il est inefficace.

1:39

Pourquoi on n'arrive pas Ă  trouver un Ă©quilibre lĂ -dessus ?

1:41

Aujourd'hui, on a un tas de solutions out of the box. On a de plus en plus de choses qui existent.

1:45

Mais on a vraiment l'impression que ce monitoring, je vais caricaturer, soit vous donnez votre carte de crédit à Datalog et vous espérez que votre banquier ne vous croise pas dans la rue.

1:55

Soit vous allez le mettre en interne avec des statuts.

1:58

On va dire traditionnel du Victor Ametrix, du Prometheus, des choses comme ça.

2:03

Auquel cas, ça va s'avérer soit inefficace, soit ultra chronophage à configurer, à setup.

2:09

Est-ce que dĂ©jĂ , vous ĂȘtes tous les deux dans ce constat-lĂ  ? Je pense qu'on a dĂ©jĂ  un peu discutĂ©.

2:14

Toi, Mathieu, qu'est-ce que tu en penses de ça ?

2:18

Bien sĂ»r, le monitoring et mĂȘme l'ossabilitĂ© en gĂ©nĂ©ral, les solutions vont dĂ©pendre de la taille de l'entreprise.

2:25

On va dire la petite PME ou la petite startup qui a juste un site web.

2:28

Avec une application, une base de donnĂ©es, ça va pas ĂȘtre pareil qu'une grosse scale-up, une trĂšs grosse boĂźte, on va dire, avec un dĂ©goĂ»t ici.

2:36

Je suis plutÎt dans le cas avec une infrastructure assez conséquente.

2:40

Et mĂȘme dans le passĂ©, je travaillais un peu dans ce genre de contexte.

2:42

Et c'est vrai qu'aujourd'hui, moi, je vois un gros problĂšme dans l'industrie.

2:46

C'est que soit, c'est ce que tu as dit en fait, Damien, je ne sais pas qui peut se payer des services cloud d'Observability.

2:51

Aujourd'hui, je ne vois pas qui a l'argent de faire ça.

2:54

Je veux dire, je suis quand mĂȘme dans une scale-up qui a levĂ© des centaines de millions d'euros.

2:58

On ne peut pas se payer les clouds d'Observability.

3:01

C'est trop cher.

3:01

C'est trop cher, vraiment.

3:03

Un truc de fou.

3:04

Donc, on refait en interne, mais il y a aussi beaucoup de limitations qu'on pourra discuter.

3:09

Donc, ouais, on a tous un peu, j'ai l'impression, dans le domaine, le cul entre deux chaises.

3:14

Entre devoir faire de l'on-prem, mais ça a aussi un coût, un coût différent que les SaaS.

3:19

Mais les SaaS sont juste hors de prix.

3:21

C'est limite, enfin, c'est mĂȘme pas limite, c'est du vol.

3:24

Clairement, je veux dire, moi, c'est mon avis du moins.

3:26

Je ne sais pas ce que vous en pensez, vous.

3:28

Mais je ne sais pas qui veut rebondir.

3:28

En fait, j'ai un poil plus mitigé.

3:33

Parce que, alors, est-ce que c'est cher ?

3:36

Ça, je pense qu'il suffit d'aller voir une page pricing d'un Datadog, New Relic, Grafana Cloud ou autre,

3:41

et vous aurez votre réponse tout seul.

3:43

AprÚs, quand on voit la qualité de ce qu'ils sont capables de ressortir,

3:47

enfin, j'étais utilisateur de Datadog il y a encore quelques années.

3:51

Globalement, out of the box, en fait, ils arrivent directement avec des dashboards.

3:56

Tu leur dis que tu fais du cube, bam, il y a les dashboards.

3:58

Il t'indique.

3:58

Il t'indique comment récupérer tes logs, tes métriques par défaut.

4:02

Tu as les alertes qui sont lĂ  directement.

4:04

En fait, c'est trĂšs plug and play.

4:06

Donc, tu payes ce cÎté trÚs plug and play aussi.

4:09

Et c'est ce qu'ils te font payer.

4:10

Et c'est, pour moi, un des problĂšmes aussi de la partie open source.

4:14

C'est que la partie open source, en fait, dĂ©jĂ , avant mĂȘme de pouvoir envoyer le moindre log, mĂ©trique,

4:18

je ne parle mĂȘme pas encore des traces pour en parler.

4:21

En fait, déjà, tu dois installer un nombre d'outils qui est juste ultra conséquent.

4:25

Et alors, c'est sûr qu'une fois que ça tourne, ça tourne et tu l'oublies un peu.

4:28

Mais il y a énormément de configs à faire, de petites modifications, etc.

4:33

Ă  faire en permanence qui reviennent aussi chĂšres Ă  la fin.

4:37

Mais moins chĂšres qu'un Datadog quand mĂȘme.

4:39

AprÚs, oui, Datadog, perso, moi, je l'ai utilisé deux, trois fois.

4:42

D'un point de vue, on va dire efficacité, je n'ai rien à redire.

4:45

Je pense qu'aujourd'hui, si on veut du monitoring rapidement,

4:48

aprÚs, il y a d'autres solutions, il y a du Dynatrace, des choses comme ça.

4:51

Ce sont des solutions qui sont extrĂȘmement rapides pour ĂȘtre, on va dire, utilisables.

4:55

Entre le temps oĂč vous le setup et globalement, vous rentrez,

4:58

votre numĂ©ro de carte de crĂ©dit et le moment oĂč vous avez des dashboards

5:00

qui sont compréhensibles par vos équipes, le temps est relativement court.

5:04

Donc lĂ -dessus, il n'y a pas de souci.

5:05

Mais c'est vrai que le scaling du prix est violent.

5:08

Moi, Datadog, c'est vraiment, moi, j'ai eu deux, trois expériences.

5:12

Ouais, dans l'autre, c'était qu'un POC, mais j'ai eu deux expériences complÚtes.

5:16

On a fait une migration vers Datadog, dont une fois de solution un peu ancienne type Centrion.

5:23

Le prix était tellement une horreur qu'au bout d'un an, la boßte a décidé de quitter Datadog.

5:28

Parce qu'à part pour des besoins trÚs spécifiques, ils n'étaient plus sur Datadog.

5:32

Parce que c'Ă©tait trop cher, en fait, et les BU ne pouvaient pas assumer, les clients ne pouvaient pas assumer.

5:35

Donc du coup, on s'est retrouvé à un peu revenir faire marche arriÚre

5:39

et faire notre solution un peu custom pour le coup.

5:43

Et pour ça, je pense que c'est efficace, mais c'est clairement pas abordable pour la plupart des entreprises.

5:50

AprĂšs, il y a aussi un autre truc que moi, je vois et c'est une impression que j'ai.

5:56

J'ai l'impression que autant...

5:58

Pour faire un parallÚle avec le cloud, je trouve que nos exigences en matiÚre de qualité ont vachement augmenté comparé à avant le cloud.

6:06

Donc, c'est-à-dire tout ce qui est appellisation, tout ce qui est infrastructure, tout ce qui est réactivité.

6:10

On est beaucoup plus exigeant aujourd'hui qu'avant.

6:12

Et j'ai l'impression que le monitoring, c'est un peu le mĂȘme cas, en fait.

6:16

LĂ  oĂč, et je ne parle pas d'il y a...

6:19

C'est quand mĂȘme bientĂŽt il y a 10 ans, mais je parle mĂȘme d'il y a 5, 6 ans, et mĂȘme dans beaucoup d'entreprises.

6:23

Il y a encore des simples systĂšmes avec des super sondes.

6:27

C'est SNM.

6:28

Je crois le protocole et du centréon et tout ce qui s'ensuit derriÚre.

6:32

Avec des alertes binaires en mode tel host, tel truc dessus et down ou up, etc.

6:36

Et ça, il y en a encore beaucoup.

6:38

Et pour moi, le gap, autant en termes de prix, est énorme entre ça et un Datadog ou une solution, on va dire, maison on-prem, open source, bien foutu.

6:47

Le gap est Ă©norme.

6:48

Mais le gap en termes de qualité, il est énorme aussi.

6:52

Il est conséquent.

6:53

Je ne sais pas si vous ĂȘtes d'accord avec ça.

6:56

Oui, il y a une grosse marche.

6:58

C'est sûr par rapport à avant.

6:59

Moi, j'ai fait aussi du Nagio, ces choses comme ça, il y a trÚs, trÚs, trÚs longtemps.

7:03

Et là, on est dans un mode complÚtement différent.

7:05

On parle souvent de Blackbox versus Whitebox Monitoring, des choses comme ça.

7:08

AprĂšs, comme disait Maxence, c'est vrai que les services SaaS, enfin les SaaS, tout arrive built-in.

7:14

C'est trĂšs, trĂšs puissant.

7:15

Quand je disais que c'est du vol tout Ă  l'heure, je troll.

7:17

Ce n'est pas du vol.

7:18

C'est vrai qu'on sait pourquoi on paye.

7:20

Ça marche trùs bien.

7:21

On pourra parler du lock-in aussi.

7:22

Parce que les agents magiques proprios, ça marche bien.

7:26

Puisque vous, on veut changer de SaaS.

7:27

Et lĂ , ah !

7:28

En fait, ce n'est pas le mĂȘme protocole.

7:30

Il y a des solutions aujourd'hui, mais il faut faire attention à ça.

7:33

Et comme tu l'as dit, David, les besoins, ce n'est plus du tout les mĂȘmes.

7:35

Aujourd'hui, par exemple, on s'attend à ce qu'une application web classique, une API, expose des métriques sur ses IOs.

7:44

Par exemple, les requĂȘtes HTTP.

7:46

Souvent, on parle des méthodes RAID ou des choses comme ça.

7:48

Donc, en fait, les requests, le rate de requĂȘtes par seconde avec des labels par pass, par mĂ©thode, par statut code.

7:57

Pour pouvoir en situer.

7:58

Faire des requĂȘtes lĂ -dessus.

8:00

La latence Ă©galement.

8:02

Donc, sur les performances.

8:03

Donc, en entrée et en sortie.

8:05

On s'attend à avoir des métriques internes.

8:08

Par exemple, sur la JVM.

8:09

Je ne sais pas, sur le garbage collector.

8:10

MĂȘme en Go, des choses comme ça.

8:12

Ou sur des thread pools.

8:13

On s'attend Ă  avoir mĂȘme des mĂ©triques mĂ©tiers aujourd'hui.

8:15

Pas seulement des métriques techniques, mais des métriques métiers.

8:17

Qui vont aider le business à comprendre comment l'application est utilisée.

8:21

Donc, des métriques custom.

8:22

Donc, ça va trÚs trÚs loin.

8:23

Et c'est vrai que c'est pour ça aussi que ça coûte cher.

8:25

Parce que là, je parle des métriques.

8:26

Mais on pourrait parler des traces aussi.

8:28

Et des logs.

8:29

Et bien, en fait, ça fait énormément de signaux qui sont générés.

8:32

Qui doivent ĂȘtre stockĂ©s, analysĂ©s.

8:34

Et de maniĂšre efficace.

8:36

Parce qu'en plus, quand on stocke des teras de métriques.

8:39

Des teras de traces.

8:40

Moi, c'est mon cas.

8:41

Ben, forcément, les traiter, ça a un coût.

8:43

MĂȘme les faire passer sur le rĂ©seau.

8:45

Si vous ĂȘtes sur le cloud.

8:45

Par exemple, sur Amazon.

8:46

Rien que le coût réseau du transit.

8:49

Ça coĂ»te trĂšs cher.

8:51

Donc, ouais.

8:52

C'est des contraintes qu'on n'avait pas forcément avant.

8:54

Ou bien, beaucoup moins.

8:54

Parce qu'il y avait une tolérance un peu.

8:56

Enfin, on monitorait pour moi beaucoup moins bien.

8:58

AprĂšs, je trouve que...

9:00

Enfin, si on continue Ă  comparer un peu Datadog versus...

9:03

Enfin, Datadog et Consor, on parle beaucoup de Datadog.

9:05

Mais ils ont tous Ă  peu prĂšs les mĂȘmes idĂ©es de pricing.

9:09

Versus un truc maison.

9:10

Il y a aussi pour moi un point intéressant.

9:12

C'est que quand tu es Ă  la maison.

9:14

Un teras de plus sur ton S3.

9:16

Parce que globalement, tes logs et tes métriques ont souvent tendance à finir sur ton S3.

9:20

Un teras de plus, un teras de moins.

9:22

Ça te coĂ»te 5 euros par mois.

9:24

Tu t'en fiches en fait.

9:24

Donc, tu vas accepter de tout loguer.

9:27

Et de tout récupérer.

9:28

De tout récupérer dans tes logs.

9:29

Alors que chez Datadog, tu vas trĂšs vite avoir une logique de...

9:33

Oula, tout coûte tellement cher.

9:35

Que tu vas dire...

9:36

Oula, non, mes logs, en fait, je ne les envoie plus.

9:39

Et je n'envoie que les erreurs.

9:41

Mais je n'envoie que 10% des erreurs que j'ai dans mes logs.

9:45

Les traces, c'est pareil.

9:46

Les traces, pendant trĂšs longtemps...

9:48

Je ne sais pas si vous avez connu l'Ă©poque.

9:50

Un peu avant, au plan de télémétrie et compagnie.

9:52

OĂč ces Datadog avaient leur agent.

9:55

Et ils utilisaient vraiment des méthodes Datadog.

9:58

Etc.

9:59

Il y avait Ă©crit partout qu'il fallait absolument sampler tes requĂȘtes.

10:03

Etc.

10:04

Et on voyait qu'il y a un petit pourcentage de tes requĂȘtes.

10:06

Et la logique, je trouve, est toujours la mĂȘme.

10:08

Sur tes métriques, tu n'envoies pas les métriques si elles ne sont pas utilisées dans un dashboard ou quoi.

10:12

Parce qu'en fait, sinon, Ă  l'Ă©chelle...

10:14

Par exemple, Mathieu, chez toi, si tu essaies de calquer ce que tu as en monitoring chez toi,

10:18

en termes de volume, chez un Datadog, en effet, la facture, c'est impossible.

10:22

Par contre, si tu commences Ă  te dire, en fait, je vais filtrer...

10:24

Peut-ĂȘtre que dans tes mĂ©triques, tu as 80% des mĂ©triques qui ne sont pas utilisĂ©es.

10:27

Je dis ça, j'en sais rien, je ne connais pas.

10:29

Mais souvent, on a tendance à tout récupérer, à utiliser quelques trucs.

10:33

Mais en fait, on ne fait jamais le...

10:34

Dans les collecteurs, on ne fait jamais le tri.

10:36

On peut dire, non, en fait, tous ces trucs-lĂ , je les vire, tu vois.

10:39

Je ne les utilise pas.

10:40

Par exemple, tout ce qui est en Go, toutes les métriques Go, je n'utilise pas.

10:43

Je les vire et je ne récupÚre que celles qui m'intéressent trÚs spécifiquement.

10:46

On est plutĂŽt dans le mode inverse.

10:48

Et pour le coup, ça, chez Datadog, tu vas le payer vite, trÚs cher.

10:52

Moi, j'ai fait du Datadog, j'ai fait du Graphana Cloud aprĂšs.

10:54

Les deux me disaient la mĂȘme chose, globalement.

10:56

En fait, il faut inverser ta logique et juste, tu envoies ce que tu as besoin.

11:00

Mais ce qui me pose moins un problĂšme sur ça, c'est que le jour oĂč j'ai un problĂšme,

11:05

en fait, des fois, je n'ai pas pensé à envoyer la bonne métrique ou le bon log.

11:09

Donc, tu te retrouves Ă  ne pas avoir l'information.

11:11

Et c'est lĂ  oĂč je trouve que la logique est mauvaise.

11:14

C'est que pour moi, j'attends en tout cas, dans mon systÚme de log, de métrique et de trace,

11:19

d'avoir 100% de la data.

11:21

Je lui envoie tout, je lui brune sa tronche parce que justement, je vais avoir, en cas de problĂšme,

11:25

je vais pouvoir réutiliser.

11:26

Je vais pouvoir récupérer tous mes logs, je vais pouvoir récupérer toutes mes traces,

11:29

je vais pouvoir récupérer tout pour essayer de comprendre au maximum

11:31

quel est le problÚme que j'ai rencontré et pourquoi je l'ai rencontré

11:34

et essayer de mettre un peu en corrélation tout ça.

11:36

Et dĂšs que tu samples, en fait, c'est mort.

11:38

Je ne fais plus de ça.

11:39

Je suis d'accord avec toi sur le fait que moi, je ne suis pas fan de cette approche

11:43

de ne pas tout envoyer pour deux raisons.

11:46

La premiĂšre, c'est celle que tu Ă©voquais.

11:49

ForcĂ©ment, le jour oĂč tu as une merde, la mĂ©trique dont tu auras besoin,

11:52

tu ne l'as pas mise dans celle que tu récupÚres.

11:55

Ça, c'est la mĂȘme chose.

11:56

C'est la loi des séries.

11:56

On le connaĂźt tous.

11:57

On l'a tous déjà eu.

11:58

Et la deuxiĂšme raison, qui est une raison, on va dire, peut-ĂȘtre un peu plus spĂ©cifique,

12:02

peut-ĂȘtre que clairement, on ne sera pas d'accord avec moi,

12:05

mais quand on fige, on va dire, on shortlist les métriques qu'on va récupérer, etc.

12:10

pour du coup Ă©viter de surfacturer ou autre,

12:15

j'ai l'impression que ça fige aussi beaucoup la création de dashboard,

12:19

la création d'indicateurs, etc. de l'autre cÎté,

12:21

dans le sens oĂč les gens auront moins


12:24

Il faut qu'ils aient la main sur l'ajout de métriques dans les choses qui sont remontées, etc.

12:30

C'est beaucoup plus contraignant.

12:32

On ne peut pas faire de test rapidement, etc.

12:35

Donc lĂ -dessus, je trouve que c'est trĂšs, trĂšs vite aussi un frein.

12:39

On va à l'innovation, mais en tout cas, à la création,

12:42

à l'amélioration de dashboard avec des métriques autres.

12:45

Parce qu'il y a énormément de métriques.

12:48

Généralement, quand on rajoute du monitoring,

12:51

je vais prendre l'exemple cÎté Waze de globalement comment ça se passe.

12:54

En général, quand on a un nouveau produit qu'on monite,

12:58

je prends un exemple, mĂȘme s'il est dĂ©jĂ  monitorĂ©,

13:01

mais imaginons demain, on veut rajouter du monitoring sur Achat Proxy.

13:05

On va rajouter un exporteur.

13:08

Et cet exporteur, on va récupérer toutes les métriques.

13:12

Et Ă  partir de lĂ , on va construire un dashboard

13:14

avec les métriques qui nous semblent pertinentes

13:16

par rapport à notre expérience qu'on a dessus.

13:18

Et typiquement, ce qui arrive réguliÚrement,

13:21

c'est qu'on fait de l'amĂ©lioration continue, mĂȘme tout le temps du coup.

13:23

Ce qui arrive,

13:24

c'est que la plupart du temps, le dashboard,

13:26

on va le créer, on va l'initialiser avec une vision minimale

13:29

qu'on avait avant les métriques.

13:30

Et au bout d'un mois, Ă  force d'avoir potentiellement

13:34

des bugs d'incidents, des bugs de perfs, etc.,

13:37

on va savoir quelle métrique n'est pas complÚte,

13:39

quelle il faut potentiellement corréler avec d'autres.

13:41

Et on va se rendre compte qu'entre les métriques qu'on avait au moment X

13:44

et ce qu'on en a eu comme expérience Y,

13:46

on va pouvoir l'améliorer en ajoutant justement ces nouvelles métriques.

13:51

Et lĂ -dessus, j'en reviens aux deux points.

13:53

C'est que le premier point, c'est comme tu dis, Maxence,

13:55

en général, les métriques que tu veux ajouter, tu ne les aurais pas mis de base.

13:58

Donc du coup, lĂ , on ne pourra pas savoir si elles sont pertinentes,

14:00

alors que là, on peut de suite faire une corrélation et se dire

14:02

quand on avait cet incident-lĂ , on ne l'avait pas vu sur le dashboard.

14:04

Par contre, la métrique l'a montré.

14:06

Et d'un autre cĂŽtĂ©, lĂ  oĂč c'est intĂ©ressant,

14:09

c'est que c'est trĂšs rapide Ă  ajouter dans le dashboard.

14:12

Globalement, on l'ajoute dans le Grafana,

14:14

on commit dans notre Git l'export JSON et c'est déployé.

14:20

Donc du coup, on a tous nos dashboards qui ont,

14:23

du coup, cette mise Ă  jour.

14:24

Et pour moi, si on ne remonte pas tous les métriques,

14:26

ce cycle, on va dire, d'amélioration continue,

14:29

il est beaucoup plus lourd et beaucoup plus contraignant.

14:33

Je ne sais pas, toi, quelle expérience tu as avec tout ça, Mathieu ?

14:36

Est-ce que tu en penses ?

14:37

Maxence a déjà raison que parfois, il y a de l'abus.

14:40

Les métriques, nous, pour le coup, moi, j'ai beaucoup travaillé sur le sujet.

14:43

Je monitore la cardinalité des services.

14:46

Je fais trĂšs attention Ă  ce qu'il y a en label.

14:48

J'ai mĂȘme des alertes qui remontent

14:49

si des services ont des cardinalités de métriques élevées.

14:52

Donc si généralement...

14:53

Il y a beaucoup de métriques.

14:54

Par contre, sur les logs, en effet,

14:55

les logs et l'optimisation à faire, ça, c'est sûr.

14:58

Il y a beaucoup de boĂźtes, mĂȘme, j'en ai connu dans le passĂ©,

15:00

qui logent n'importe quoi.

15:02

Mais par contre, aujourd'hui,

15:03

mĂȘme des mĂ©triques de base, ça coĂ»te trĂšs cher.

15:06

Je vais faire le calcul en live.

15:08

Vous mettez du Prometheus sur un serveur HTTP

15:09

et vous mettez juste les métriques de base HTTP,

15:12

c'est-Ă -dire un bucket pour la latency de vos requĂȘtes HTTP

15:15

et un counter pour l'error rate,

15:19

le request rate.

15:21

Un bucket Prometheus, c'est 12 séries.

15:22

Pour 4 verbes HTTP,

15:25

vous faites x4.

15:30

Pour 5 status codes,

15:32

parce que généralement, c'est par status code,

15:33

donc 200, 201, 400, 401, 500,

15:35

en réalité, il y en aurait plus.

15:37

Pour 100 passes,

15:38

je fais 12 x 4 x 5 x 100, un truc comme ça.

15:43

Je suis déjà à 24 000 séries.

15:45

Et là, sur le cloud, je suis déjà à des milliers d'euros par mois.

15:48

Je ne compte mĂȘme pas l'infra,

15:50

je ne compte pas les coûts réseaux,

15:52

je ne compte pas...

15:54

Voilà, et donc, vous multipliez ça par...

15:55

En fait, lĂ , en plus, c'est des petits chiffres.

15:56

En réalité, il y a beaucoup plus de status codes,

15:58

donc vous faites x10.

15:59

Et trĂšs rapidement, vous avez des services avec, voilĂ ,

16:02

20 000, 30 000, 40 000, 100 000 séries,

16:05

multipliées par le nombre de services,

16:07

plus les métriques infra, etc.

16:09

Eh bien, la facture cloud, elle est déjà à 100 000, 200 000,

16:12

300 000, 400 000 par an.

16:14

En fait, ça monte extrĂȘmement vite aujourd'hui.

16:16

Et c'est ça, le gros problÚme des services cloud.

16:18

C'est pour ça que je disais au début,

16:19

j'ai du mal à voir qui peut se payer ça,

16:21

parce que mĂȘme en faisant gaffe,

16:22

gaffe, notamment sur la partie métrique,

16:24

ça coûte une fortune.

16:25

Et sur les traces, moi, ça m'embĂȘte de drop des traces.

16:28

On est, comme disait Maxence,

16:29

les traces, c'est un outil trÚs utile pour débuguer.

16:31

D'ailleurs, on pourra en parler,

16:32

mais je pense que les traces vont remplacer les logs.

16:34

En fait, je préfÚre avoir aucun log et des traces.

16:37

Ça me coĂ»tera aussi moins cher.

16:38

Les traces, c'est vraiment quelque chose,

16:40

pour moi, une brique de base.

16:41

Et donc, j'essaye de les garder.

16:43

Mais voilĂ , moi, je reste un peu sur ma position

16:45

qu'aujourd'hui, le cloud, c'est trop cher.

16:47

Et moi, j'ai des expériences aussi dans le passé

16:49

de migrer de cloud vers l'on-prem

16:52

et diviser.

16:52

Par deux, trois, quatre, la facture.

16:54

On parle de facture Ă  six chiffres, parfois.

16:56

Ou mĂȘme de faire des devis pour repartir dans le cloud

16:58

parce que personne n'aime maintenir sa stack de monitoring.

17:00

Moi, ce n'est pas un intĂ©rĂȘt personnel Ă  faire ça.

17:03

Mais quand on vous dit que ça va coûter,

17:06

vous avez des devis,

17:06

c'est un tiers de votre facture cloud

17:08

qui est déjà trÚs élevé,

17:09

juste pour envoyer des traces.

17:10

Mais c'est impossible.

17:11

Et ça, c'est aprÚs les réductions,

17:13

aprÚs les négociations, etc.

17:14

C'est un truc de fou.

17:15

AprÚs, quand tu héberges ta stack,

17:18

ce n'est pas magique non plus.

17:19

Enfin, moi, je vois le temps que j'ai pu passer

17:21

Ă  configurer Loki,

17:24

Ă  aprĂšs virer Loki pour mettre QuickWit Ă  la place.

17:27

Pareil pour mes traces.

17:29

Je ne sais plus c'est quoi le soft de Graphana Labs

17:31

pour les traces,

17:33

mais c'Ă©tait la mĂȘme logique.

17:34

J'ai fini par le dégager pour QuickWit.

17:36

AprÚs, j'ai eu les métriques.

17:38

Enfin, j'ai commencé par les métriques.

17:39

Sinon, tu commences toujours par lĂ .

17:41

Au début, j'ai fait du Prometheus.

17:42

AprÚs, j'ai commencé à faire du Thanos.

17:44

Puis, j'ai fini sur Victoria Metrics.

17:46

Et en fait, on arrive vite Ă  toujours la mĂȘme chose.

17:48

Typiquement, je me rappelle mon Loki

17:49

avec le stockage sur S3.

17:51

C'est vachement bien.

17:52

Ça ne te coĂ»te pas cher.

17:53

Il ne faut juste pas vouloir le requĂȘter.

17:56

Oui, je suis d'accord.

17:57

En fait, moi, le problĂšme que j'ai

17:59

avec les stacks open source,

18:00

c'est que globalement,

18:01

elles veulent toutes se baser sur S3.

18:03

Sauf qu'elles sont toutes lentes,

18:05

inefficaces, voire impossibles.

18:08

Quand je vois dans Loki,

18:09

des fois, tu fais une requĂȘte,

18:11

le truc, il mouline,

18:12

et tu n'as jamais ta réponse.

18:13

Je suis désolé,

18:14

mais si je ne peux pas utiliser

18:15

ma stack de monitoring,

18:16

elle ne me sert Ă  rien.

18:17

Et sur Loki, c'est vite le cas.

18:20

Sur Tempo, je n'entends la mĂȘme part.

18:21

LĂ , je suis en train de tester des tools

18:23

pour faire du profiling.

18:24

Il y a aussi celui de Grafana.

18:25

C'est pareil, en fait.

18:26

DĂšs qu'il commence Ă  stocker

18:27

des trucs sur S3,

18:28

c'est tout pourri.

18:29

Mais c'est vraiment tout, tout, tout pourri.

18:32

Oui, mais c'est un standard,

18:33

et ce n'est pas cher.

18:34

Donc, c'est pour ça que...

18:35

Oui, mais sauf que moi,

18:37

tu es en astreinte.

18:38

Tu as un truc qui sonne.

18:39

Si je ne peux pas avoir

18:40

l'information rapidement

18:40

et avoir mes logs, etc.,

18:43

en fait, je ne fais plus d'astreinte.

18:44

On va gagner du temps.

18:45

De toute façon, je ne peux pas

18:46

débloquer parce que je n'ai pas d'info.

18:47

C'est pour ça qu'on a appelé le podcast...

18:49

Enfin, le titre, c'est inefficace

18:50

ou trop cher parce que c'est vrai

18:51

qu'on est coincé entre les deux.

18:52

Et moi, je suis tout Ă  fait d'accord

18:53

avec toi, Maxence.

18:54

Moi, je self-host, voilĂ , aujourd'hui.

18:56

Du Thanos, du Tempo,

18:58

des choses comme ça.

18:59

C'est mégalent.

19:01

Parce que tout est basé

19:02

sur S3.

19:04

RĂ©cemment, il y a une nouvelle

19:04

release de Tempo qui est sortie

19:06

oĂč on peut transformer

19:08

des traces en métriques

19:09

via une query.

19:10

Bon, il y a quelqu'un

19:11

dont on déploie,

19:12

il y a quelqu'un qui teste.

19:14

Sur un service,

19:15

faire un quantile,

19:16

en gros,

19:17

calculer le P99

19:18

sur un service

19:18

sur la derniĂšre heure,

19:20

sur des requĂȘtes HTTP,

19:21

sur les traces HTTP,

19:22

voilĂ .

19:22

Vu que c'est une requĂȘte simple,

19:24

le truc, il time-out

19:25

au bout de...

19:25

Le truc, il est Ă  5 gigabits

19:26

de seconde, la query,

19:27

pendant 5 minutes

19:28

et elle finit par time-out.

19:29

Tu fais bon, OK.

19:31

Enfin, c'est des chiffres du style.

19:33

Rien que le cool du réseau.

19:33

Ouais, non, mais voilĂ .

19:34

Rien que le cool du réseau.

19:36

C'est exactement ça.

19:37

J'ai dit la mĂȘme chose.

19:38

J'ai dit, la query,

19:38

elle a coûté 10 balles

19:39

sur la facture Amazon.

19:41

Enfin, je ne sais pas.

19:42

Mais c'est...

19:42

Et donc, c'est le mĂȘme problĂšme.

19:43

Thanos, c'est pareil.

19:44

Thanos, c'est méga long.

19:46

Franchement,

19:47

tu ne peux pas ouvrir

19:48

un dashboard sur une semaine.

19:51

LĂ , je vais dire un truc

19:52

que vous allez me détester,

19:53

mais en soi,

19:54

lĂ -dessus,

19:55

ELK, j'aime bien le fait

19:56

qu'elle soit quand mĂȘme

19:56

bien plus rapide

19:57

pour faire des recherches.

19:58

Oui, mais pourquoi

19:59

c'est bien plus rapide ?

19:59

Parce que le stockage

20:00

n'est pas S3,

20:01

c'est de l'ES.

20:02

Pourquoi j'ai viré mon Thanos

20:04

pour ma DeVictoria Matrix ?

20:06

C'est juste parce qu'il y a

20:07

des disques, quoi.

20:09

Et que juste,

20:09

quand je veux le requĂȘter,

20:10

quand je veux faire une requĂȘte

20:12

alors j'attends un petit peu,

20:13

mais j'ai ma réponse.

20:15

Est-ce que je ne peux pas

20:15

avoir un Vectanos ?

20:16

Je suis vu dans l'OK

20:18

des fois faire des recherches

20:19

de 10 secondes en 10 secondes

20:21

dans mes logs

20:21

tellement c'Ă©tait lent.

20:23

Pour avoir une réponse rapide,

20:23

j'avançais de 10 secondes

20:24

par 10 secondes par 10 secondes.

20:25

Non, non, enfin...

20:27

Donc OK,

20:27

on parlait tout Ă  l'heure

20:28

qu'on a gagné en outillage

20:29

par rapport Ă  avant,

20:30

par rapport au Nagios,

20:31

machin, etc.

20:32

Mais des fois,

20:32

je n'ai pas l'impression

20:33

qu'à la finalité,

20:34

est-ce que mon infrastructure

20:35

est mieux monitorée qu'avant ?

20:37

Des fois,

20:37

je me pose la question.

20:38

Dans combien de boĂźtes

20:39

le monitoring,

20:40

c'est juste un call HTTP

20:41

sur une URL de l'application

20:43

et en final,

20:45

tout le reste,

20:45

c'est de la fleuriture inutile.

20:47

C'est souvent,

20:47

malheureusement,

20:48

ça se finit comme ça

20:48

tellement le reste

20:49

n'est pas fiable.

20:50

J'avoue que LK,

20:51

c'est rapide,

20:51

on en fait aussi.

20:52

Ça marche plutît bien.

20:54

D'ailleurs,

20:55

l'opérateur cube

20:55

marche trĂšs bien.

20:56

Je tenais à le préciser

20:57

sur le fait du cube,

20:57

testez-le.

20:58

Mais oui,

20:59

comme tu dis,

20:59

Maxence,

20:59

c'est frustrant

21:00

parce que beaucoup de solutions

21:02

sont un peu terribles.

21:04

MĂȘme l'UX de Prometheus,

21:06

j'ai toujours trouvé ça

21:08

un peu dégueu,

21:08

pour ĂȘtre honnĂȘte.

21:09

J'ai toujours préféré

21:09

le push au pouls.

21:10

Déjà, ça n'aide pas.

21:12

Et on pourrait aussi parler

21:13

du coût à implémenter

21:13

le monitoring.

21:14

Parce que tu parlais

21:15

tout Ă  l'heure,

21:15

Maxence,

21:15

de mettre un agent

21:16

et que ça marche trÚs bien.

21:17

Il y a le problĂšme

21:18

du locking toujours pour moi

21:19

sur les protocoles propriétaires,

21:21

mĂȘme si OpenTelemetry,

21:22

je pense,

21:23

résout ça

21:23

et est déjà en train de résoudre.

21:24

Mais c'est vrai qu'aujourd'hui,

21:25

il y a un vrai coût

21:25

que je vois aussi

21:26

sur demander aux devs

21:28

avec des Ă©quipes

21:29

qui ne sont pas forcément

21:29

toutes familiĂšres

21:30

avec l'Observability

21:32

en général,

21:33

implémenter les bonnes métriques,

21:34

c'est-Ă -dire comprendre

21:35

comment ça marche prom,

21:36

les histogrammes,

21:37

les counters,

21:38

les gauges,

21:39

etc.

21:40

Implémenter les traces,

21:41

comment ça marche,

21:42

les traces,

21:43

comment je crée une span,

21:44

qu'est-ce que je dois mettre dedans,

21:44

les attributs,

21:45

Semconf et tout.

21:46

Log,

21:46

loguer correctement.

21:48

Parce que les logs,

21:48

c'est qu'est-ce que je dois loguer,

21:49

attention,

21:50

j'ai des PII,

21:50

il ne faut pas que je logue

21:51

des données sensibles,

21:52

il faut faire des logs level propres,

21:54

etc.

21:55

Et donc,

21:55

c'est un vrai coût

21:56

pour les Ă©quipes,

21:56

en fait,

21:57

Ă©galement,

21:57

ce n'est pas que le coût infras,

21:58

en fait,

21:58

il y a le coût aussi

21:59

de maintenance de l'Observability

22:00

dans le code

22:01

qui est trĂšs important

22:02

aujourd'hui,

22:04

et mĂȘme en standardisant,

22:05

en faisant des librairies,

22:06

etc.

22:06

C'est un vrai coût

22:07

et ça met du temps

22:10

également à implémenter.

22:11

LĂ ,

22:12

je vais peut-ĂȘtre ĂȘtre

22:12

un peu l'avocat du diable,

22:13

mais en vrai,

22:14

aujourd'hui,

22:15

si tu regardes

22:15

sur le taux d'entreprise,

22:17

je pense qu'il n'y en a pas

22:18

beaucoup qui l'ont implémenté.

22:19

La partie vraiment,

22:20

on va dire,

22:21

rien qu'avoir un APM basique,

22:22

il y a quand mĂȘme

22:23

beaucoup d'entreprises

22:24

et de boĂźtes

22:24

qui n'en ont pas.

22:25

Et aprĂšs,

22:25

qui passent des heures

22:26

à essayer de débug

22:27

avec des informations partielles

22:28

pour des problĂšmes de perf,

22:29

pour des problĂšmes de call

22:30

sur des URL externes

22:31

et tout ça,

22:32

alors que tu fous un APM,

22:34

tu gagnes du temps en débug.

22:35

Mais énormément de boßtes,

22:36

je pense que la grande majorité

22:37

des boĂźtes aujourd'hui

22:38

n'ont pas d'APM,

22:39

n'ont pas de traces,

22:40

n'ont pas tout ça.

22:41

Et lĂ ,

22:42

c'est un peu des problĂšmes,

22:43

on va dire,

22:44

de riches.

22:45

Mais ce qui est dommage,

22:45

c'est qu'il y a une vraie,

22:46

du coup,

22:46

valeur ajoutée.

22:47

Est-ce que tu dis

22:53

que ça t'enlÚve aussi

22:53

beaucoup de temps de débug ?

22:54

Parce que j'ai déjà vu

22:55

des cas de débug

22:56

oĂč l'application est lente

22:58

depuis deux semaines,

22:59

il n'y a personne

22:59

qui sait pourquoi.

23:00

Le dev,

23:01

il a passé une semaine dessus.

23:02

Tu dis,

23:03

mais tu as mis un APM ?

23:04

Non,

23:04

tu fous un APM.

23:06

Le mec,

23:07

tu fais,

23:07

ah bah oui,

23:07

mais c'est bizarre,

23:08

lĂ ,

23:08

tu as un appel

23:08

Ă  telle API externe

23:09

et elle prend

23:10

tant de secondes de trop

23:12

et tu te rends compte

23:13

que c'est ça

23:13

qui te provoque

23:14

toute la merde.

23:14

Et ça,

23:15

pour le coup,

23:16

c'est,

23:17

je pense,

23:17

quelque chose

23:18

qu'on oublie aussi.

23:19

C'est tout ce temps

23:19

à débug

23:20

qui a un coût

23:21

qui est Ă©norme

23:21

en société

23:22

et qui,

23:22

la majorité des sociétés

23:24

le payent aujourd'hui

23:24

par ce temps-lĂ .

23:26

Moi,

23:26

j'ai une chose

23:28

que j'aime bien,

23:28

j'ai beaucoup d'amis

23:29

qui sont dans le métier

23:30

mais qui ne sont pas

23:31

forcément dans,

23:32

je dirais,

23:33

dans des boĂźtes

23:33

cutting edge

23:34

ou dans des boĂźtes

23:34

qui cherchent Ă 

23:35

innover,

23:36

le mot est peut-ĂȘtre

23:37

un peu fort,

23:37

mais à toujours améliorer

23:38

les choses

23:38

et qui sont dans des boĂźtes

23:40

assez classiques

23:40

et je pense

23:41

que vous n'imaginez pas

23:42

le nombre de boĂźtes

23:43

qui sont dans un Ă©tat

23:44

Ă  ce niveau-lĂ 

23:45

qui est vraiment,

23:48

qui te paraĂźtrait

23:49

l'Ăąge de pierre,

23:49

Mathieu,

23:50

sans exagérer.

23:51

Je sais,

23:52

je sais qu'on est

23:52

dans notre bulle.

23:53

AprĂšs,

23:54

tu parles d'APM,

23:55

c'est aujourd'hui

23:55

pour moi tout l'intĂ©rĂȘt

23:56

d'un open télémétrie,

23:58

c'est qu'en fait,

23:58

ça t'apporte un APM

23:59

plus digne

24:01

parce qu'en fin de compte,

24:02

ça fait la mĂȘme chose

24:02

et aprĂšs,

24:04

par contre,

24:04

tout dépend

24:04

de ton langage.

24:06

Tu prends Go,

24:07

par exemple,

24:08

parce que je pense

24:08

que Mathieu,

24:09

c'est aussi en Go

24:09

que tu l'utilises

24:10

de ton cÎté.

24:11

En Go,

24:12

il n'y a rien de magique.

24:13

De toute façon,

24:13

en Go,

24:14

en général,

24:14

il n'y a rien de magique

24:15

et donc,

24:17

si tu veux des traces,

24:17

tu es obligé,

24:19

une trace vers ta DB,

24:20

tu es obligé

24:20

de le faire toi-mĂȘme

24:21

Ă  la main

24:22

ou utiliser une lib

24:23

qui va t'abstraire le truc

24:24

mais Ă  la fin,

24:25

tu as du code

24:26

que tu as Ă©crit.

24:27

LĂ  oĂč si tu fais

24:28

des langages différents,

24:30

qui sont plutĂŽt

24:30

des langages interprétés,

24:31

du PHP,

24:32

du Node,

24:33

etc.,

24:33

en fait,

24:34

souvent,

24:35

en PHP,

24:35

je ne sais pas si vous vous souvenez,

24:36

mais la lib Datadog

24:37

ou numérique,

24:39

c'est juste un binaire

24:40

en C ajouté dans la lib

24:41

et hop,

24:42

ton APM,

24:43

il est fait

24:43

parce que c'est plus facile

24:44

de le faire comme ça.

24:45

Je crois qu'en Node,

24:46

ça marche de la mĂȘme façon,

24:47

etc.

24:47

Donc,

24:48

tout dépend de ton langage aprÚs.

24:49

Donc,

24:49

c'est des choses

24:50

qui sont plus ou moins faciles

24:51

et puis,

24:52

tu as quand mĂȘme

24:52

une mouvance

24:53

qui est en train

24:53

de bouger sur ça

24:54

avec EBPF

24:55

oĂč l'idĂ©e,

24:56

justement,

24:56

c'est de venir

24:57

avoir ton layer le plus bas

24:59

qui va pouvoir te remonter

25:01

tes traces

25:01

de façon automatique.

25:03

Alors,

25:03

tu n'auras peut-ĂȘtre pas tout,

25:04

tu n'auras peut-ĂȘtre pas

25:04

la granularité des fonctions

25:06

dans ton code,

25:10

tes requĂȘtes HTTP

25:11

ou autres sortantes,

25:13

tes accĂšs

25:14

au MySQL,

25:16

au Postgres

25:16

ou autre

25:17

à ta base de données

25:17

que tu fais,

25:18

etc.

25:19

Et déjà,

25:19

quand tu vois

25:20

tes requĂȘtes lentes

25:21

parce qu'il ne faut pas

25:22

ligner des index,

25:23

les index,

25:23

ça permet

25:24

de gagner du temps

25:25

ou tes requĂȘtes HTTP lentes,

25:28

tu vois assez vite

25:29

tes problĂšmes,

25:31

c'est clair.

25:31

Enfin,

25:32

c'est clair,

25:32

n'est-ce pas le coup ?

25:33

C'est vrai.

25:34

AprĂšs,

25:35

je ferai quand mĂȘme attention

25:36

avec EBPF,

25:36

etc.

25:36

Ça marche trùs bien.

25:37

Enfin,

25:37

ça marche trÚs bien.

25:38

On est encore au début,

25:39

on va dire.

25:39

Il y a déjà des solutions,

25:40

on va dire.

25:40

Par contre,

25:41

il y a un truc

25:42

qui me dérange aussi sur ça,

25:44

c'est que,

25:45

OK,

25:45

ça marche,

25:45

il y a la base HTTP,

25:46

etc.

25:47

Mais le vrai intĂ©rĂȘt

25:47

de l'observability,

25:48

c'est aussi un peu

25:49

ce que je disais au début,

25:50

d'avoir des informations métiers.

25:51

C'est-Ă -dire,

25:52

moi,

25:52

j'adore attacher Ă  mes spans,

25:53

si on parle de traces,

25:55

des informations métiers,

25:56

organization ID,

25:58

user ID,

26:00

action,

26:00

des trucs un peu vraiment

26:02

qui parlent au métier

26:02

pour pouvoir suivre

26:03

des flux utilisateurs

26:04

de maniÚre beaucoup plus précise,

26:06

comprendre quelle organisation

26:07

fait quoi,

26:07

Ă  quel moment,

26:08

suivre son parcours.

26:09

Sur,

26:10

sur la partie métrique,

26:11

je pourrais aussi mentionner

26:11

les SLO.

26:12

Les SLO les plus intéressants,

26:13

ça reste les SLO produits,

26:14

donc avec des métriques

26:15

souvent un peu custom.

26:16

Moi,

26:17

je m'en fais,

26:17

mon client,

26:19

il m'en s'en fiche

26:19

que mon Kafka consumer rate,

26:21

il soit Ă  3% d'erreur,

26:23

je ne sais pas quoi.

26:24

Lui,

26:24

ce qu'il veut,

26:25

c'est un SLO de type,

26:27

j'arrive Ă  faire

26:27

telle fonctionnalité.

26:28

Si je suis sur une marketplace,

26:29

ça va peut-ĂȘtre ĂȘtre

26:30

valider mon panier,

26:32

payer,

26:33

je ne sais pas,

26:33

moi,

26:33

naviguer,

26:34

enfin,

26:34

faire une recherche sur le site.

26:36

Donc,

26:36

des SLO comme ça,

26:40

c'est de la mĂȘme maniĂšre

26:40

qu'on ne peut pas ajouter

26:41

des attributs custom

26:42

sur les traces avec,

26:44

enfin,

26:44

sur les spans.

26:45

Ça reste quelque chose

26:45

de trÚs générique,

26:46

en fait.

26:47

LĂ  oĂč le vrai intĂ©rĂȘt

26:49

pour moi d'observabilité,

26:50

c'est d'aller quand mĂȘme

26:51

dans le spécifique,

26:52

dans le métier.

26:53

Oui,

26:53

pour moi,

26:53

ça te fait un premier niveau,

26:55

c'est-Ă -dire que

26:55

ce n'est pas parfait,

26:57

mais ça fait un premier pas

26:58

qui n'est pas trop dur

26:59

si ton systÚme a déjà

27:00

le BPF,

27:00

etc.,

27:01

des prérequis.

27:02

Au moins,

27:02

ça te permet d'avoir

27:03

un premier niveau

27:04

qui serait plutĂŽt l'APM,

27:05

plutĂŽt que de la pure trace.

27:07

Et de lĂ ,

27:08

aprĂšs,

27:09

quand tu vas commencer

27:09

Ă  avoir l'intĂ©rĂȘt,

27:10

c'est lĂ  oĂč,

27:10

pour moi,

27:11

tu vas passer au level d'au-dessus

27:12

et te dire,

27:12

ah oui,

27:13

mais en fait,

27:13

maintenant,

27:13

je voudrais bien

27:14

pouvoir suivre vraiment

27:16

ma modernisation ID,

27:17

mon user ID,

27:18

machin,

27:18

et tout transférer.

27:19

Et c'est lĂ  oĂč tu vas

27:20

commencer Ă  aller modifier

27:20

ton code,

27:21

etc.

27:22

Mais New Relic

27:24

et Datadog,

27:24

au début,

27:25

ils se sont fait connaĂźtre,

27:26

c'est parce qu'ils avaient

27:26

des APM qui marchaient.

27:28

C'est ça qui les a fait connaßtre

27:29

en tout premier lieu.

27:30

Et aprĂšs,

27:31

ils ont développé leur business.

27:32

Enfin,

27:32

moi,

27:32

Ă  Datadog,

27:33

j'ai découvert

27:33

parce qu'un jour,

27:34

j'avais un problĂšme de perf.

27:35

J'ai installé leur agent.

27:36

Cinq minutes,

27:37

mon truc était réglé.

27:38

Mon free trial n'Ă©tait pas fini

27:39

que j'avais réglé

27:40

tous mes problĂšmes de perf.

27:41

Mais je n'ai jamais payé.

27:43

C'est peut-ĂȘtre pour ça

27:44

qu'ils se sont rattrapés

27:45

maintenant sur les facturations

27:46

parce qu'il y a beaucoup

27:46

de gens comme moi

27:47

qui ont testé

27:47

et qui ont réglé

27:49

leurs problĂšmes

27:49

et fin.

27:51

Donc,

27:51

tu es en train de dire

27:51

que les gens,

27:52

il ne faut plus aller regarder

27:52

auprĂšs de Datadog,

27:53

mais auprĂšs de toi

27:54

pour les prix ?

27:55

Ils peuvent essayer.

27:55

Je ne suis pas sûr

27:56

que j'aurai un grand impact

27:57

chez Datadog par contre.

27:58

Je peux vous envoyer

27:59

un commercial Datadog

28:00

si vous voulez.

28:01

Non,

28:02

mais en vrai,

28:03

j'adorerais avoir acheté

28:03

pour acheter du SaaS.

28:05

J'adorerais,

28:05

mais franchement,

28:06

trop cher.

28:07

Enfin,

28:08

tout le monde est proche.

28:08

À partir du moment

28:09

oĂč le prix du SaaS,

28:11

tu peux avoir une Ă©quipe

28:12

de deux,

28:13

trois personnes

28:13

qui s'occupent de ça

28:14

full time,

28:15

plus le matos,

28:16

c'est vrai que c'est compliqué

28:17

de justifier ça.

28:19

AprĂšs,

28:20

il n'y a pas que ça.

28:21

C'est bien,

28:22

on a nos métriques,

28:23

on a nos traces,

28:23

on a nos logs.

28:24

Mais maintenant,

28:26

quand il faut faire des alertes,

28:27

des fois,

28:29

typiquement,

28:30

la derniĂšre fois,

28:30

je cherchais des alertes

28:32

pour Traffic,

28:34

j'ai l'impression

28:34

que j'ai demandé

28:34

un truc de fou.

28:36

Personne ne partage.

28:37

En fait,

28:37

on ne partage pas

28:39

les alertes qu'on a déjà.

28:40

c'est une bĂȘte alerte 500

28:42

pour toutes les 5 X en code HTTP.

28:46

C'est bon,

28:47

tu ne trouves rien sur Internet

28:48

ou le truc qui ne marche pas.

28:50

Et donc,

28:50

en fait,

28:50

chaque boßte réimplémente

28:51

la mĂȘme chose

28:52

pour le mĂȘme site.

28:53

Pour le mĂȘme soft,

28:54

il n'y a rien

28:56

qui est partagé.

28:57

Alors que tu arrives

28:58

sur un Datadog,

28:59

un Neuralink,

29:00

tu te dis que tu as

29:00

Traffic,

29:01

tu cliques sur le petit bouton,

29:03

tu as le dashboard qui arrive,

29:04

tu as les alertes

29:05

qui sont arrivées,

29:06

et tu n'as plus

29:06

qu'Ă  reconfigurer les seuils

29:08

et dire vers oĂč

29:08

tu veux ĂȘtre notifiĂ©.

29:09

Et c'est ça,

29:10

pour moi,

29:10

c'est ça qui vante

29:11

ce cÎté trÚs plug and play

29:13

que tu n'as pas

29:14

du tout,

29:15

du tout,

29:15

du tout,

29:16

quand tu self-host.

29:17

Oui,

29:17

je suis tout Ă  fait d'accord.

29:18

Les alertes,

29:19

tout le monde

29:19

réinvente sa sauce,

29:20

clairement,

29:21

moi aussi.

29:24

de plus en plus

29:24

pour que les devs

29:25

n'aient pas trop

29:25

à créer du promql,

29:27

des abstractions

29:28

pour ne pas créer

29:29

des fichiers,

29:29

etc.

29:29

Mais voilĂ .

29:30

Mais je suis désolé,

29:31

le pricing,

29:32

on parlait de Neuralink,

29:33

je connais bien la solution,

29:34

je l'ai utilisée dans le passé,

29:36

j'ai fait des devis et tout.

29:38

LĂ ,

29:39

je suis sur la page,

29:40

sur l'Enterprise,

29:41

pour l'utilisateur core,

29:42

ce n'est mĂȘme pas

29:43

le niveau supérieur,

29:44

on est à déjà 49 balles

29:45

par utilisateur.

29:46

Donc,

29:46

tu as 100 devs,

29:48

tu es déjà à 5000 balles

29:49

par mois,

29:49

tu n'as encore rien poussé

29:50

comme métrique.

29:50

Ou par an,

29:51

je ne sais plus,

29:51

non,

29:51

c'est par mois,

29:52

c'est par mois,

29:52

5000 balles par an,

29:53

tu n'as rien poussé.

29:55

Et pour les utilisateurs

29:56

full plateforme,

29:57

on est Ă  349 par mois.

30:00

Alors,

30:00

je pense que ça doit ĂȘtre

30:01

les admins,

30:02

mais mĂȘme sur les utilisateurs core,

30:03

sur des grosses Ă©quipes tech

30:04

oĂč il y a 200,

30:04

300 personnes,

30:05

on ne peut pas dire,

30:06

allez,

30:06

il y a déjà 200 000 qui partent

30:07

ou je ne sais pas,

30:08

150,

30:08

200 000 par an

30:09

qui partent rien que

30:10

dans la licence,

30:12

sur les sites,

30:13

alors qu'il y a zéro user.

30:14

Enfin,

30:14

il y a zéro métrique encore,

30:15

il n'y a rien de poussé,

30:16

il y a zéro trace.

30:17

Et donc,

30:17

c'est ça le vrai problÚme.

30:18

Moi,

30:18

je reparte.

30:19

En fait,

30:19

moi,

30:20

je suis coincé.

30:20

Je n'ai pas envie de maintenir

30:21

la stack d'Observity.

30:22

Enfin,

30:22

ce n'est plus vraiment moi

30:23

qui la maintiens aujourd'hui,

30:23

mais quand mĂȘme,

30:24

parce que c'est vrai que c'est du coup,

30:25

je suis vraiment tout Ă  fait en accord,

30:26

les dashboards,

30:27

les alertes,

30:28

réinventer la roue en permanence,

30:29

mais qui peut payer ça ?

30:31

Qui peut payer NeuroDict at scale ?

30:33

Je ne comprends pas.

30:34

C'est ce que je disais tout Ă  l'heure,

30:34

tu payes,

30:35

mais tu filtres.

30:37

MĂȘme en filtrant,

30:38

toi,

30:38

rien que les utilisateurs,

30:39

je ne peux pas filtrer et dire

30:40

tout le monde n'a pas accĂšs Ă  la plateforme,

30:42

tu vois ?

30:43

Bah si.

30:43

Les devs,

30:44

de toute façon,

30:44

les devs,

30:45

ils ne veulent jamais regarder.

30:46

C'est la faute des devs.

30:47

Ils ne veulent pas.

30:48

Non,

30:48

je ne suis pas d'accord,

30:49

mais surtout nous.

30:51

C'est tout le problĂšme,

30:52

c'est que tu ne peux pas filtrer sur les users

30:53

parce que c'est dommage

30:54

parce que quelqu'un n'a pas les informations

30:55

dont il a besoin pour bosser.

30:57

Mais tu prends un graph Anaclote

30:59

qui a un pricing

30:59

qui est un poil plus simple,

31:01

mais en fait,

31:02

derriĂšre,

31:02

quand tu discutes avec eux,

31:03

il n'est pas plus simple

31:04

parce que tu as plein de facteurs

31:06

qui peuvent rajouter des multiples

31:08

sur n'importe quel indicateur.

31:09

Moi,

31:10

je me rappelle,

31:11

pour l'anecdote,

31:12

une fois,

31:12

chez Datadog,

31:13

au tout début de la boßte

31:14

oĂč je suis,

31:15

chez Farmance,

31:16

pour le coup,

31:17

on avait trois clusters cubes,

31:19

un staging,

31:20

un de,

31:21

enfin,

31:21

et deux de production.

31:23

Et en staging,

31:24

on activait le full log.

31:26

Donc,

31:26

ça débitait du log

31:27

Ă  pleine balle.

31:28

On s'est amusé

31:29

pendant quelques temps,

31:30

pendant un petit moment,

31:31

on faisait des tests de perf,

31:32

machin,

31:32

etc.

31:32

Donc,

31:32

vraiment,

31:32

ça débitait,

31:33

Ah bah,

31:35

quand la facture de 12 000,

31:36

elle est arrivée,

31:37

le mois d'aprĂšs,

31:38

on n'Ă©tait plus chez Datadog.

31:40

C'est quand tu as

31:41

une facture mensuelle d'AWS

31:42

de 4 ou 5 000 euros

31:43

et que tu viens de te prendre

31:44

une facture de 12 000

31:45

de Datadog,

31:46

c'est injustifiable,

31:47

en fait.

31:47

Tu ne peux pas justifier

31:48

que ton petit monitoring

31:48

te coûte le double,

31:50

voire le triple

31:51

de ce que te coûte

31:52

ta plateforme de production

31:53

qui te rapporte

31:54

de l'argent techniquement.

31:55

Mais d'un autre cÎté,

31:56

le jour oĂč on a fait ce choix

31:57

de quitter Datadog,

31:58

on a aussi perdu des choses

31:59

parce que le monitoring

32:00

Ă©tait in fine

32:01

de meilleure qualité,

32:02

au moins dans un premier temps,

32:03

que ce qu'on a pu faire

32:04

nous-mĂȘmes en un mois

32:05

parce que le temps

32:06

d'installer les outils,

32:07

de virer Thanos

32:09

parce que c'est tout pourri,

32:11

de virer Loki

32:11

parce que c'est tout pourri,

32:12

en fait,

32:13

tout ça,

32:13

tu perds du temps.

32:14

Tu adaptes aprĂšs

32:15

Ă  ton besoin,

32:16

Ă  ton budget.

32:17

Tu peux aller acheter

32:18

une baguette de pain trĂšs vite

32:19

en prenant une Ferrari,

32:20

mais aprĂšs,

32:20

ça te revient trÚs cher.

32:21

Tu peux aussi y aller

32:22

à pied ou en vélo,

32:23

ça te revient moins cher,

32:23

mais ça te demande

32:24

de l'effort et du temps.

32:27

Et ça,

32:27

c'est dur aussi Ă  savoir.

32:29

De un,

32:30

c'est trĂšs dur Ă  estimer

32:31

parce qu'il ne faut pas

32:33

tomber non plus

32:33

dans le défaut,

32:34

je pense,

32:34

de power de métrique

32:35

parce qu'on retombe

32:35

dans le cas

32:35

oĂč je disais tout Ă  l'heure

32:36

oĂč tu te retrouves

32:37

à avoir des coûts cachés

32:39

style les devs

32:39

qui débug des conneries

32:41

ou toi qui débug

32:42

des conneries d'infra

32:42

pendant des semaines

32:43

alors que ça pourrait

32:44

te prendre moins de temps.

32:45

Et dans un autre temps,

32:46

il ne faut pas vouloir

32:47

aller trop loin,

32:48

on va dire trop vite

32:49

et ne pas claquer

32:50

tout le budget

32:51

pour un monitoring fancy

32:53

mais tout le reste

32:53

qui ne va pas.

32:54

Et c'est trĂšs dur Ă  juger.

32:56

Pour le coup,

32:56

ça,

32:56

c'est des décisions

32:57

pour moi

32:57

qui sont un peu

32:59

ce que j'attends

33:00

on va dire

33:01

d'un CTO

33:02

ou en tout cas

33:03

quelqu'un un peu

33:03

avec ce type

33:04

on va dire

33:05

de rĂŽle

33:06

dans la plupart des sociétés

33:07

ou pas toutes

33:08

mais c'est quelque chose

33:11

qui est un exercice compliqué

33:12

de savoir

33:12

quand investir dedans,

33:13

quand arrĂȘter d'investir,

33:15

quand se dire

33:15

lĂ  c'est bon,

33:16

on a cette chose,

33:16

lĂ  ce n'est pas bon,

33:17

ce n'est pas satisfaisant,

33:18

ça demande beaucoup de temps

33:20

mais moi,

33:21

ce que j'espĂšre

33:21

en tout cas au niveau

33:22

des alerting et tout ça,

33:24

ce que j'espĂšre,

33:24

ce que je suis curieux de voir

33:25

en fait,

33:25

c'est que je me dis

33:26

tout ce qui est dashboard,

33:27

c'est chronophage.

33:28

Franchement,

33:29

on a parlé des alerting,

33:30

moi je trouve

33:31

que les dashboards,

33:31

c'est pire.

33:32

Il n'y a rien de plus dur

33:33

que de faire sur Grafana,

33:36

alors j'ai quelqu'un

33:37

chez Waze

33:38

qui est le fondateur

33:41

qui est trĂšs bon lĂ -dedans

33:43

mais c'est ultra,

33:45

en fait,

33:45

on se rend compte

33:46

que c'est ultra chronophage

33:47

de faire un dashboard

33:48

qui soit parlant

33:48

pour les gens

33:49

qui vont le lire,

33:50

qui remonte les bonnes métriques,

33:51

qui soit lisible

33:52

et qui ne noie pas l'information.

33:54

C'est un exercice

33:55

qui est bien plus dur

33:58

je trouve

33:58

que les alertes.

33:59

Les alerting,

34:00

on peut adapter,

34:01

on part toujours

34:02

sur un seuil

34:03

de quelque chose,

34:03

une agrégation de métriques

34:05

ou des choses comme ça.

34:06

On arrive toujours

34:06

plus ou moins Ă  quelque chose

34:08

et aprĂšs,

34:08

on l'adapte avec le temps

34:09

parce que les métriques,

34:10

les alertes,

34:11

ça se travaille beaucoup

34:12

je trouve,

34:12

beaucoup plus.

34:13

Mais les dashboards,

34:15

c'est une horreur

34:15

et c'est trĂšs dur

34:16

d'avoir du feedback dessus.

34:18

Les gens ne viennent pas

34:19

naturellement dire

34:19

j'ai été voir ce dashboard,

34:21

il n'y avait pas d'info lĂ 

34:22

donc je l'ai rajouté

34:23

ou est-ce qu'on pourrait

34:23

voir ensemble pour le rajouter ?

34:25

Les gens n'ont pas ce réflexe

34:26

donc tu te retrouves

34:26

Ă  des fois

34:27

te rendre compte

34:28

deux mois aprĂšs

34:29

que le dashboard super beau

34:30

que tu as fait,

34:31

tu Ă©tais content et tout.

34:32

En fait,

34:32

les gens ne l'utilisent pas.

34:33

Pourquoi ils ne l'utilisent pas ?

34:34

Parce que eux,

34:34

ce qu'ils voulaient,

34:35

c'Ă©tait l'info X

34:35

qu'ils ne t'ont pas demandé avant

34:36

parce qu'ils n'y ont pas pensé

34:37

mais il n'y a personne

34:38

qui a pensé à te remonter l'info

34:39

et je trouve que ça,

34:40

c'est le plus gros souci.

34:42

Ou voire,

34:42

ils ne savent pas

34:42

que le dashboard existe.

34:44

Ou qu'ils ne savent pas

34:44

mais ça,

34:44

c'est un problĂšme de com

34:45

plus général.

34:46

C'est un problĂšme de com

34:48

sur ce qui existe

34:49

mais c'est des vrais problĂšmes

34:51

qui sont chronophages

34:52

mais pour le coup,

34:52

c'est aussi des problĂšmes

34:53

qui existent un peu

34:53

on va dire sur du Datadog

34:55

ou autre

34:55

Ă  partir du moment

34:57

oĂč tu n'as pas les infos.

34:58

Moi,

34:58

tu sors des dashboards génériques

34:59

parce que les dashboards génériques

35:01

sont bien

35:01

mais il y a forcément

35:02

un moment

35:02

oĂč tu sors pour 2-3K

35:03

tu vois notamment,

35:04

tu vois Mathieu,

35:04

tu parlais des métriques

35:05

un peu métier.

35:06

En général,

35:07

ça,

35:07

ça va ĂȘtre sur des trucs

35:08

vraiment trĂšs custom.

35:10

C'est surtout,

35:11

moi,

35:11

ce que je vois aussi

35:11

sur les dashboards,

35:12

c'est qu'au bout d'un moment,

35:15

le graphana,

35:15

il est bloated.

35:16

En fait,

35:16

les gens,

35:16

ils ont créé

35:17

150 000 dashboards.

35:19

Il y en a 15

35:20

qui font la mĂȘme chose

35:20

plus ou moins,

35:21

qui ont déforqué,

35:22

etc.

35:22

Et en fait,

35:23

il faut,

35:24

si dÚs le début,

35:24

il n'y a pas une consistance

35:25

forte avec mĂȘme des normes,

35:27

des conventions de nommage

35:29

sur les métriques,

35:29

les labels

35:29

pour pouvoir avoir

35:30

des dashboards

35:31

partagés entre applications,

35:33

mĂȘme entre langages,

35:33

je parle.

35:34

Mais voilĂ ,

35:34

toutes les requĂȘtes HTTP

35:35

s'appellent pareil,

35:36

toutes les métriques HTTP,

35:38

Kafka,

35:38

des spans,

35:38

etc.

35:39

Enfin,

35:39

tout soit standardisé

35:40

assez fortement

35:41

avec des dashboards de qualité,

35:42

avec des honneurs.

35:43

C'est sympa Ă  envrer.

35:44

Mais ça,

35:45

on le voit aussi

35:45

sur d'autres outils.

35:46

Mais oui,

35:46

c'est trĂšs complexe.

35:47

C'est trĂšs complexe

35:48

ce qu'on observe ici.

35:49

Et c'est vrai qu'en réalité,

35:51

il y a assez peu de personnes,

35:53

je trouve,

35:53

sur le marché

35:54

qui ont vraiment

35:54

l'expérience complÚte,

35:56

c'est-Ă -dire sur ce sujet.

35:57

C'est-Ă -dire qu'ils ne sont pas

35:58

capables de proposer

35:59

une vision

36:00

avec,

36:02

connaĂźt bien

36:02

les différents outils,

36:04

les avantages,

36:05

les inconvénients,

36:06

mĂȘme les principes derriĂšre,

36:08

pas seulement les outils,

36:08

mais tous les principes

36:09

et mĂȘme un peu parfois les maths.

36:10

On parlait des histogrammes

36:11

pour Météus.

36:13

DĂ©finir des buckets

36:14

pour Météus.

36:15

On parlait du coup

36:16

pour les devs,

36:17

l'implémentation,

36:18

enfin,

36:18

qu'est-ce que ça demande

36:19

par rapport Ă  un agent

36:19

comme Datadog, etc.

36:20

Rien que choisir

36:21

les bons buckets,

36:22

c'est compliqué.

36:23

Parce que des buckets

36:23

dans Météus,

36:24

ça fait des approximations

36:25

ensuite quand on fait

36:26

des quantiles.

36:27

Les approximations sont calculées

36:28

d'une certaine maniĂšre

36:29

en fonction de la taille

36:29

de chaque bucket,

36:30

etc.

36:31

Donc ça a des impacts

36:32

en fait.

36:32

Et ça,

36:33

c'est des choses,

36:33

c'est dur d'avoir

36:34

de trouver aussi

36:35

des profils

36:35

qui connaissent bien tout ça.

36:36

AprĂšs,

36:37

il y a quand mĂȘme

36:37

des trucs qui me manquent

36:38

dans la stack open source.

36:40

Je veux bien savoir

36:41

comment vous faites vous.

36:42

Mais par exemple,

36:43

Ă  l'Ă©poque,

36:43

j'utilisais Datadog.

36:44

Un truc que j'utilisais énormément,

36:46

c'Ă©tait leur feature

36:46

de notebook.

36:47

En gros,

36:48

l'idée,

36:48

c'est que vous avez

36:49

un incident

36:49

ou vous ĂȘtes en train

36:50

d'investiguer sur un truc.

36:52

PlutĂŽt que d'avoir

36:52

40 000 onglets

36:54

ouverts en permanence,

36:56

grosso modo,

36:56

tu te lances dans un notebook,

36:57

c'est une espĂšce

36:58

de page Notion,

36:59

dans lequel tu peux venir

37:00

faire des graphes,

37:01

prendre des graphes,

37:02

etc.

37:02

Mais en fait,

37:03

tout est figé

37:03

sur la plage de temps

37:04

oĂč tu as fait ta requĂȘte.

37:06

Et donc,

37:07

c'est ultra pratique

37:07

parce que par exemple,

37:08

tu es en train

37:09

d'investiguer un incident.

37:12

En fait,

37:13

le mec qui a réglé

37:15

le problĂšme le soir,

37:15

par exemple,

37:16

s'il a tout bien figé

37:17

dans le notebook,

37:18

toi,

37:18

tu arrives dans le notebook,

37:18

tu as toutes les informations

37:19

qui lui ont permis

37:20

de retrouver l'information

37:21

et de lĂ ,

37:22

tu peux aller chercher

37:22

des informations supplémentaires,

37:23

etc.

37:24

Mais tout restera figé

37:25

dans ce notebook.

37:26

Et typiquement,

37:27

en open source,

37:28

je ne connais aucune solution

37:29

qui me permet

37:29

de faire ce genre de truc.

37:31

Et pour autant,

37:32

c'est ultra utile.

37:33

Mais pour ça,

37:33

il faut un environnement

37:34

hyper convergé.

37:36

Et c'est ce que ne propose

37:36

pas la partie open source

37:38

parce que mĂȘme si

37:38

tu es full solution graphana,

37:40

tu as quand mĂȘme

37:41

des trous dans la requĂȘte,

37:42

tu as quand mĂȘme

37:42

des trucs que tu n'as pas.

37:44

Et chez Datadome,

37:45

la data est quand mĂȘme

37:46

beaucoup mieux utilisée.

37:47

Enfin,

37:48

typiquement,

37:49

tu pousses déjà

37:49

tes logs,

37:50

tes traces,

37:50

tes métriques,

37:51

tu cliques sur un bouton,

37:52

bim,

37:52

tu as une partie sécurité

37:53

qui arrive avec

37:54

une espÚce de CM léger,

37:56

mais une espĂšce de CM

37:56

qui arrive.

37:57

Alors,

37:57

ils n'oublient pas

37:58

la facturation en parallĂšle,

37:59

mais c'est ce cÎté-là

38:01

qui fait qu'ils arrivent

38:03

Ă  signer aprĂšs

38:03

des gros clients,

38:04

Mathieu.

38:05

C'est qu'en fait,

38:06

tu n'y vas pas juste

38:07

pour tes logs,

38:07

métriques et traces,

38:08

tu y vas aussi

38:08

pour la partie sécurité,

38:10

pour la partie

38:10

débug plus facile,

38:12

etc.

38:12

Et en fait,

38:13

tu t'enlÚves ce cÎté

38:14

juste métrique,

38:15

traces et logs

38:15

et tu es prĂȘt Ă  accepter

38:16

de payer cher,

38:17

entre guillemets,

38:18

parce que ça t'apporte

38:18

d'autres choses

38:19

et un jeu de responsabilité aussi.

38:21

Tu n'es plus responsable.

38:23

Peut-ĂȘtre que les SaaS,

38:24

c'est peut-ĂȘtre bien

38:24

pour les tout petites boĂźtes

38:25

qui n'ont pas trop de métriques,

38:26

peu de signaux,

38:28

ou les Ă©normes grands groupes

38:29

qui s'en foutent

38:30

de payer globalement.

38:31

Comme tu dis,

38:32

ils prennent le gros paquet

38:33

de jolines

38:34

avec un méga contrat

38:35

et puis voilĂ .

38:37

Mais les 90% des gens

38:38

qui sont au milieu,

38:39

galĂšrent.

38:40

C'est peut-ĂȘtre ça aussi le truc.

38:42

Je parlais de type d'entreprise

38:43

au début.

38:44

Pour moi,

38:45

un Datadog,

38:45

la relation commerciale

38:46

que j'avais avec eux

38:47

Ă  l'Ă©poque

38:47

oĂč on Ă©tait vraiment tout petits,

38:48

on Ă©tait quatre dans la boĂźte,

38:50

ils ne savent pas gérer.

38:51

Pour moi,

38:52

Datadog,

38:52

ça a peut-ĂȘtre changĂ©

38:53

en deux ans,

38:54

trois.

38:56

Mais ils ne savent pas

38:56

gérer des relations

38:57

avec des petits comptes.

38:59

Tu n'as pas besoin

38:59

d'entretenir une relation

39:00

avec un petit compte,

39:01

c'est du sas.

39:02

Un petit compte,

39:03

il va te servir quoi ?

39:04

Parfaitement bien.

39:05

AWS,

39:06

j'ai des calls de synchro

39:06

avec eux tous les trimestres.

39:08

Des fois,

39:09

ça dure 15 minutes,

39:09

des fois,

39:09

ça dure une heure

39:10

et ils s'intéressent

39:11

Ă  savoir oĂč est-ce qu'on en est,

39:13

est-ce qu'ils peuvent nous aider

39:13

sur certains sujets,

39:15

est-ce qu'on peut faire

39:16

de l'IA avec eux,

39:18

etc.

39:19

Tu crées une relation

39:20

sur l'avenir.

39:21

En fait,

39:21

si ton partenaire

39:23

t'a travaillé avec lui,

39:24

etc.,

39:25

mĂȘme s'il te coĂ»te cher,

39:26

tu n'auras pas envie

39:26

de le quitter en fait

39:27

parce qu'il t'apporte d'autres choses,

39:29

parce que tu as une relation

39:29

avec lui

39:30

et l'humain joue

39:31

quand mĂȘme vachement.

39:32

Oui,

39:33

je comprends.

39:34

Et les Datadogs,

39:34

ils sont incapables

39:35

de créer cette relation humaine.

39:37

En tout cas,

39:37

aujourd'hui,

39:37

Ă  l'Ă©poque,

39:38

ils en Ă©taient incapables

39:39

avec des petits comptes.

39:40

Par contre,

39:41

quand j'Ă©tais dans

39:41

des trĂšs grosses boĂźtes

39:42

qui ont utilisé Datadog,

39:43

je faisais une trĂšs bonne

39:44

relation avec eux,

39:45

on avait nos calls

39:45

trĂšs souvent,

39:47

etc.

39:47

Mais c'est des stratégies

39:49

de boĂźte aprĂšs,

39:50

c'est des vraies stratégies

39:50

de boĂźte de choisir.

39:52

Oui,

39:53

c'est vrai qu'Amazon,

39:53

ils sont forts lĂ -dessus,

39:54

une trĂšs bonne relation avec eux.

39:55

Mais je crois,

39:56

mĂȘme moi,

39:56

c'est Dailymotion

39:57

qui tourne avec full Datadog

39:59

et il me semble

40:00

que ça leur coûte cher

40:01

et je crois qu'ils ont fait

40:02

un rex dessus

40:02

mais qui marche

40:04

trĂšs trĂšs bien.

40:06

AprĂšs,

40:07

moi,

40:07

je n'ai jamais connu

40:07

personne dire

40:08

que Datadog ne marchait pas

40:09

ou mal.

40:10

Moi,

40:11

c'est mĂȘme vrai

40:11

avec Datadome

40:12

ou des trucs comme ça,

40:13

des solutions

40:14

qui sont trĂšs puissantes.

40:15

AprĂšs,

40:16

du coup,

40:16

pour un peu,

40:17

parce que je pense

40:17

qu'on a fait un peu

40:18

le tour de tout ça,

40:20

j'ai un peu

40:21

fait une ouverture

40:22

sur un sujet

40:22

oĂč certains auditeurs,

40:25

bouchez-vous peut-ĂȘtre

40:25

les oreilles,

40:26

mais on parlait un peu

40:27

des difficultés

40:27

sur les dashboards,

40:28

la herting et tout ça

40:29

et on parlait un peu

40:30

tout Ă  l'heure,

40:31

Mathieu va parler

40:32

des ouvertures

40:32

qui sont vraies,

40:33

notamment sur les solutions

40:34

comme EBPF

40:35

et tout ça

40:35

pour le tracing

40:36

et un peu,

40:37

on va dire,

40:37

une standardisation,

40:38

une amélioration

40:38

de tout ça

40:39

pour simplifier tout Ă  terme

40:40

et un sujet

40:42

qui revient souvent

40:42

en ce moment

40:43

qu'il y a,

40:43

est-ce que vous ne pensez pas

40:44

sur toute cette partie

40:45

vraiment,

40:46

pour faire le tri

40:46

dans les métriques,

40:47

faire des dashboards

40:48

qui soient intéressants,

40:49

faire de l'alerting

40:49

qui soit pertinent,

40:50

ça n'a pas un rÎle à jouer

40:51

parce que moi,

40:52

si on parle d'une grosse

40:53

quantité de données

40:53

qui est Ă  analyser,

40:54

Ă  en retirer quelque chose

40:55

et Ă  extrapoler

40:57

pour pouvoir faire sortir

40:58

un truc,

40:59

je me demande

40:59

si ça ne serait pas

41:00

un peu la chose

41:02

qu'on attendrait Ă  terme.

41:03

Moi, sur ça,

41:04

j'ai un vieux rĂȘve

41:05

mais qui va encore plus loin

41:06

que l'IA

41:06

parce que je pense

41:07

que l'IA,

41:08

en tout cas,

41:08

l'IA,

41:09

elle est l'aime,

41:10

elle n'apportera pas

41:11

grand-chose sur ça.

41:13

Par contre,

41:14

je ne comprends pas

41:15

qu'aujourd'hui,

41:17

nos stacks de monitoring

41:18

ne soient pas blindés

41:19

de machine learning.

41:20

Moi, je rĂȘverais

41:21

de ne plus avoir

41:22

des alertes

41:22

parce qu'il y a

41:23

un truc qui ne marche pas

41:24

mais avoir des alertes

41:26

parce que le systĂšme

41:27

a détecté que

41:28

ça, c'était un peu chelou,

41:31

ce n'est pas dans

41:31

les scats d'habitude

41:32

et bim,

41:34

je reçois une alerte

41:35

et en fait,

41:36

je suis proactif.

41:37

Typiquement,

41:38

c'est ce que je faisais

41:38

Ă  l'Ă©poque

41:39

chez la centrale

41:40

avec AWS.

41:41

On utilisait CloudWatch

41:42

et il y a une partie

41:43

machine learning

41:43

dans CloudWatch

41:44

qu'on peut activer

41:44

en Ă©change

41:45

d'un petit peu de pesos

41:47

et pour le coup,

41:50

combien de fois

41:50

ça nous a sauvé ?

41:51

La centrale a un trafic

41:52

trÚs prédictible.

41:53

La nuit,

41:54

trĂšs peu de trafic.

41:55

Les journées,

41:56

beaucoup de trafic.

41:57

DĂšs qu'ils font

41:58

des pubs télé,

41:58

gros pic de trafic,

42:00

c'est trÚs prédictible

42:01

et donc,

42:02

pour le coup,

42:03

le machine learning,

42:03

ça marche extrĂȘmement bien

42:04

et il y a des fois,

42:07

on s'est pris des pics

42:08

et en fait,

42:09

on a toujours réussi

42:09

Ă  retrouver

42:10

pourquoi il y avait eu

42:11

ce pic-lĂ 

42:11

et c'Ă©tait toujours

42:12

des choses de

42:13

ah, en fait,

42:14

il y a une pub

42:14

qui a été signée

42:15

au dernier moment

42:15

et on n'avait pas été

42:16

encore au courant.

42:18

Bon, une fois que c'est passé,

42:19

ça ne sert plus Ă  ĂȘtre au courant

42:20

mais c'est des choses comme ça

42:21

et on a toujours pu retrouver

42:23

et le monitoring,

42:23

en fait,

42:24

on n'avait plus du tout

42:24

un monitoring

42:25

entre guillemets

42:26

de réactif.

42:27

Il y a un problĂšme,

42:28

on avait un monitoring

42:29

préventif

42:30

qui venait vraiment

42:31

nous alerter

42:32

quand on sortait

42:33

des seuils,

42:34

des machins,

42:34

etc.

42:35

Et mĂȘme sur des trucs

42:36

assez bĂȘtes,

42:37

on avait des alertes

42:38

sur le nombre

42:39

d'annonces,

42:41

etc.

42:41

qu'on avait mis

42:42

dans CloudWatch

42:42

et c'Ă©tait juste

42:44

trop bien.

42:45

Mais aujourd'hui,

42:45

par exemple,

42:46

en open source,

42:47

je crois que le seul

42:47

qui permet de faire

42:48

à peu prÚs ça,

42:49

c'est l'instaculastique

42:50

si ils ont un modĂšle

42:51

de machine,

42:52

enfin,

42:52

ils ont une partie

42:53

de machine learning

42:53

intégrée.

42:54

Mais par exemple,

42:54

chez Grafana,

42:55

ça n'existe pas.

42:56

Je crois que chez Datadog,

42:57

il y a quelques trucs

42:57

qui font un peu

42:58

comme AWS.

43:00

Mais moi,

43:00

j'aimerais,

43:01

enfin,

43:01

si on parle d'IA,

43:02

etc.,

43:03

de data,

43:03

pour moi,

43:04

le monitoring,

43:04

on devrait avoir

43:05

de la data

43:06

et du machine learning

43:07

Ă  pleine balle

43:08

partout lĂ -dedans.

43:09

Et moi,

43:10

les dashboards,

43:11

je ne suis pas

43:11

un grand fan

43:11

de dashboards.

43:12

Je ne regarde pratiquement

43:13

jamais.

43:14

Par contre,

43:15

avoir une IA,

43:16

data,

43:17

appelle-la comme tu veux,

43:17

machine learning

43:18

ou autre

43:19

qui me trouve

43:20

les problĂšmes

43:21

et qui peut mĂȘme

43:21

me les corriger avant,

43:23

lĂ ,

43:23

tu peux prendre

43:23

ma CB

43:24

ou mon compte bancaire

43:25

en direct.

43:26

Si derriĂšre,

43:27

tu réduis

43:28

mes incidents,

43:29

etc.,

43:30

je signe

43:31

avec un trĂšs grand plaisir.

43:32

Alors,

43:33

mon avis sur

43:34

ça,

43:34

c'est que finalement,

43:35

le préemptif,

43:36

etc.,

43:37

c'est déjà possible

43:37

d'une certaine maniĂšre

43:38

avec des SLO.

43:39

Si on calcule

43:39

un error budget

43:40

avec un burn rate,

43:41

ça permet de rapidement

43:41

détecter,

43:42

en théorie,

43:43

des déviations,

43:45

on va dire,

43:45

des rés erreurs

43:45

qui commencent Ă  monter

43:46

avant que ça devienne

43:46

critique.

43:48

Mais c'est vrai

43:48

qu'il n'y a pas

43:48

cette notion

43:49

d'auto-apprentissage.

43:50

Moi,

43:51

l'IA sur le monitoring,

43:52

je la vois sur deux parties.

43:53

On parlait tout Ă  l'heure

43:54

de la difficulté

43:55

de trouver des dashboards,

43:56

de trouver des docs.

43:57

Parce qu'il y a bien sûr

43:58

de trouver pourquoi

43:59

il y a le problĂšme,

44:00

mais aussi comment le résoudre

44:02

quand on est en incident,

44:03

notamment en astreinte.

44:04

Et c'est vrai que moi,

44:05

j'y pensais d'ailleurs récemment.

44:06

J'aimerais bien des fois

44:07

quand je reçois

44:07

certaines alertes,

44:08

que le truc soit capable

44:09

de me dire,

44:10

ah bah tiens,

44:10

cette alerte-lĂ ,

44:11

basée sur la doc,

44:12

basée sur les incidents,

44:13

parce qu'on documente

44:13

énormément nos incidents,

44:14

les incidents précédents,

44:15

etc., etc.,

44:16

boum,

44:16

il y a déjà des guides,

44:17

des liens vers certains dashs,

44:19

certaines commandes.

44:20

On a beaucoup

44:20

d'outillages internes,

44:21

donc certaines commandes

44:22

pour Ă©ventuellement...

44:23

Enfin, voilĂ ,

44:24

déjà des suggestions,

44:24

en fait.

44:25

Un bot d'aide,

44:26

on va dire,

44:26

Ă  l'investigation

44:27

qui, Ă  partir des alertes

44:30

et de certains signaux,

44:31

arrive Ă  faire sortir

44:32

une théorie

44:32

de qu'est-ce qui se passe.

44:33

Ça, c'est un truc

44:34

qui, je pense,

44:34

serait déjà intéressant,

44:36

qu'on n'a pas aujourd'hui,

44:36

je pense,

44:37

mais qu'Ă©ventuellement,

44:39

on pourrait.

44:39

C'est des trucs

44:40

sur lesquels j'ai réfléchi.

44:42

Et sur la partie

44:43

apprentissage auto,

44:45

pourquoi pas,

44:45

mais aprĂšs,

44:46

il faut voir comment

44:46

ça se matérialise,

44:48

en fait.

44:48

Parce que c'est vrai que...

44:50

Je reviens sur l'histoire

44:50

des SLO,

44:51

mais en fait,

44:51

je pense que les SLO,

44:52

c'est un outil

44:52

qu'on n'utilise pas assez

44:53

dans l'industrie

44:54

parce que c'est assez simple,

44:56

en fait,

44:56

conceptuellement.

44:57

Et ça permet déjà

44:58

de voir beaucoup de choses

44:59

avec des formules

45:00

vraiment simples.

45:01

DĂ©tecter des problĂšmes

45:02

en amont,

45:03

mĂȘme de rĂ©flĂ©chir

45:04

Ă  c'est quoi un comportement,

45:06

on va dire,

45:06

un comportement anormal.

45:08

Parce qu'il y a ça aussi,

45:09

mĂȘme avec du machine learning,

45:10

c'est quoi mon seuil ?

45:11

Oui, je peux comparer

45:12

Ă  la semaine derniĂšre

45:12

ou au mois dernier,

45:14

mais est-ce que ça sera pertinent ?

45:15

Est-ce que, par exemple,

45:15

si je passe de 100 millisecondes

45:16

Ă  150 millisecondes,

45:17

est-ce que c'est grave ?

45:18

Peut-ĂȘtre,

45:19

peut-ĂȘtre pas, en fait.

45:20

C'est un peu ça aussi

45:21

la difficulté du machine learning,

45:22

c'est quand est-ce qu'on déclenche

45:24

parce qu'on n'a pas

45:24

de fausses alertes

45:25

ou des choses comme ça.

45:26

C'est lĂ  oĂč,

45:27

enfin,

45:28

si je reviens sur ce que tu disais,

45:29

pour moi,

45:30

on pourrait trĂšs bien avoir

45:31

du machine learning,

45:32

peu importe,

45:33

qui fait de la corrélation

45:34

parce que

45:35

combien de fois

45:36

tu as une alerte

45:38

sur un truc B,

45:40

mais en fait,

45:40

c'est toute la chaĂźne

45:41

qui Ă©tait en souffrance

45:42

et qui n'avait pas

45:42

d'alerte dessus

45:43

et B n'est que

45:44

le dernier maillon

45:46

et qui, lui, par chance,

45:47

était monitoré

45:48

mieux que les autres

45:49

et donc ça peut ĂȘtre,

45:50

mais en fait,

45:51

tu n'as rien Ă  faire sur B,

45:52

il faut régler la chaßne en amont

45:53

et ça, des fois,

45:53

avant de le comprendre

45:54

et de le voir,

45:55

si tu n'as pas l'expérience

45:56

et que tu n'as pas déjà eu

45:57

ce genre de problĂšme-lĂ ,

45:58

en fait,

45:58

tu vas mettre un temps immense

45:59

et ça, pour moi,

46:00

c'est le systĂšme de monitoring

46:01

qui devrait dire

46:02

ben voilĂ ,

46:03

ta DB, elle est en souffrance

46:04

mais en fait,

46:05

je vois aussi une augmentation

46:05

du trafic,

46:07

je vois que tu n'as que Kafka

46:08

et elle est en train

46:08

de dépiler comme un cochon.

46:11

Je ne sais pas

46:11

si c'est une bonne information

46:13

ou une mauvaise information

46:13

mais je te donne une information

46:15

et aprĂšs,

46:16

toi, humain,

46:16

traite,

46:17

si déjà,

46:17

on avait ça,

46:18

je ne sais pas combien d'heures

46:19

on pourrait gagner

46:20

sur des problĂšmes

46:22

mais on en gagnerait beaucoup

46:23

et aprĂšs,

46:24

moi,

46:24

je pense surtout

46:25

qu'aujourd'hui,

46:26

en tout cas,

46:26

sur la partie open source,

46:27

je trouve ça pratiquement honteux

46:29

qu'on se pose encore

46:32

certaines questions

46:33

du genre

46:33

comment monitorer

46:36

un cluster cube,

46:36

par exemple.

46:37

Tu vois,

46:37

ça devrait ĂȘtre rĂ©glĂ©,

46:39

tu vois,

46:40

comme,

46:40

en fait,

46:41

on peut critiquer

46:41

un agios,

46:42

etc.

46:43

Ă  l'Ă©poque

46:43

mais un agios,

46:44

tu arrivais,

46:45

tu activais ton SNMP

46:46

et tu avais ta sonde

46:47

CPU,

46:48

RAM,

46:49

disque,

46:50

etc.

46:50

Alors,

46:51

tu n'as peut-ĂȘtre pas

46:51

des bons indicateurs,

46:52

on l'a appris

46:53

avec la suite

46:54

mais au moins,

46:55

tu ne te posais pas la question.

46:56

Ton agios,

46:56

il démarrait

46:56

et day one,

46:58

tu avais un truc

46:58

qui marchait

46:59

et qui t'apportait

46:59

déjà de la plus-value

47:00

et aujourd'hui,

47:01

alors tu installes

47:02

ton Prometheus,

47:03

tu installes ton Loki

47:04

et tu installes ton Tembo

47:05

et bien,

47:06

en fait,

47:06

ils ne font rien,

47:07

ils ne servent Ă  rien,

47:08

ils n'apportent rien

47:08

et je trouve que sur ça,

47:10

c'est un retour en arriĂšre

47:11

qui est juste Ă©norme

47:12

et que,

47:13

en fait,

47:14

ça devrait arriver

47:14

built-in avec

47:15

tout un tas d'alertes

47:17

que tu peux désactiver,

47:18

modifier,

47:19

etc.

47:19

Bien sûr,

47:20

il ne faut pas forcément

47:20

les laisser comme ça.

47:21

Il y en a certaines,

47:22

il y en a plein

47:22

qui ne seraient pas

47:23

bénéfiques à ton business

47:24

mais en fait,

47:26

tout,

47:26

presque,

47:28

j'attendrais presque

47:30

des triflicks,

47:30

etc.

47:31

quand je l'installe

47:32

qui me créent

47:33

des Prometheus rules

47:34

directement

47:34

et qui me disent

47:35

voilĂ ,

47:36

tout en fait,

47:36

pourquoi moi,

47:37

je devrais me faire chier

47:38

Ă  savoir

47:39

qu'est-ce qui fait

47:40

que mon triflick

47:42

ne marche pas bien.

47:43

C'est qui l'Ă©diteur ?

47:43

C'est qui qui fait le ?

47:45

Propose-moi des trucs.

47:47

Fais-moi un référentiel

47:47

de toutes les aires.

47:48

Tu en as

47:49

qui le mettent

47:49

dans les short-term ?

47:50

Oui,

47:50

mais c'est trĂšs,

47:51

trĂšs peu au final.

47:52

Ah oui,

47:53

je te dis pas le contraire

47:54

mais c'est vrai qu'il sait.

47:55

Ça devrait ĂȘtre

47:56

practice en fait.

47:58

C'est ce qui fait

47:58

que pour moi,

47:59

le monitoring reste

48:00

le truc,

48:02

c'est un truc de vieux.

48:04

On fait semblant

48:05

qu'on a des technos récentes

48:06

et tout ça

48:06

et en fait,

48:07

c'est pourri.

48:08

Moi,

48:08

je trouve ça pourri.

48:10

Combien de fois

48:10

j'ai vu des boĂźtes

48:11

oĂč leur alerting,

48:12

c'Ă©tait juste

48:12

un call HTTP

48:14

qui est fait par le time robot

48:15

toutes les minutes

48:16

sur leurs API

48:17

et le truc,

48:18

il détectait des problÚmes

48:19

avant que leur super monitoring

48:20

détecte quelque chose.

48:23

AprĂšs,

48:24

tu rentres dans un truc

48:24

qui est vraiment

48:25

plus monitoring

48:25

qui est qu'Ă  un moment,

48:27

tu veux Ă©viter les flaps,

48:28

tu veux Ă©viter

48:28

les fausses alertes,

48:29

tu veux Ă©viter plein de trucs

48:30

et du coup,

48:31

tu t'adaptes mal,

48:31

tu fais trop d'un cÎté,

48:32

trop de l'autre

48:33

et en fait,

48:33

tu te retrouves dans un Ă©tat

48:34

oĂč c'est un ajustement permanent.

48:36

Oui,

48:37

mais en fait,

48:37

tu devrais,

48:38

Ă  mon sens,

48:39

avoir le marché

48:41

qui te dit

48:41

voilĂ ,

48:44

entre guillemets,

48:44

par défaut,

48:45

si tu as une des requĂȘtes HTTP

48:46

qui répondent au-dessus

48:47

de 500 MS,

48:48

c'est un problĂšme.

48:50

AprĂšs,

48:50

tu adapteras,

48:50

tu vois.

48:51

Et lĂ ,

48:51

on n'en a mĂȘme pas

48:52

ces informations-lĂ  aujourd'hui.

48:54

Je suis d'accord

48:54

d'un cÎté

48:55

et d'un cÎté non

48:56

parce qu'une requĂȘte

48:57

qui met 500 MS,

48:58

certains vont te dire

48:59

c'est la catastrophe absolue.

49:01

Tant Ă  d'autres,

49:02

ils seront en mode

49:02

non mais ça,

49:03

c'est un truc,

49:03

je m'en fous,

49:04

je m'en fous totalement.

49:05

Moi,

49:05

je connais des gens

49:07

qui sont sur des topics

49:09

industriels,

49:10

etc.

49:11

oĂč c'est 500 MS

49:12

mais on s'en fout

49:12

parce que derriĂšre,

49:13

ça n'a pas de conséquences

49:14

ni rien.

49:15

Par contre,

49:15

ils ont un autre critĂšre

49:16

un peu Ă  la con

49:17

qui pour eux

49:18

est super important.

49:20

Pour simplifier,

49:22

je pense que c'est ce que je dis.

49:23

Pour moi,

49:23

tout ce qui est

49:24

outils,

49:25

open source,

49:27

Nen,

49:27

GNX,

49:27

on ne devrait mĂȘme pas

49:28

avoir Ă  se poser la question

49:29

de l'alerting,

49:31

etc.

49:31

Il devrait y avoir

49:31

un truc built-in.

49:33

On fait clic-clic,

49:34

bim,

49:34

ça marche

49:34

et aprĂšs,

49:35

on adapte

49:36

et on devrait se concentrer

49:37

que sur la partie métier.

49:38

Tout ce qui n'est pas

49:39

de l'infrastructure,

49:40

tout ce qui est spécifique

49:42

à ton métier,

49:42

on devrait se concentrer

49:43

que sur ça

49:44

et arrĂȘter de perdre du temps

49:45

Ă  faire des rĂšgles

49:48

pour avoir les erreurs

49:49

Ă  500

49:50

sur ton load balancer,

49:52

etc.

49:52

C'est juste

49:53

on te fait exister encore.

49:54

Je suis d'accord

49:55

que c'est un Ă©norme effort

49:57

aujourd'hui

49:57

de créer une stack

49:58

de servilities on-prem

49:59

mĂȘme sur des technos

50:00

standards sur le cloud.

50:01

On parlait de Kubernetes

50:02

mais c'est pareil

50:02

si vous faites du post-grade,

50:04

Kafka et tout,

50:05

il faut recommencer

50:05

de zéro à chaque fois.

50:07

Nous,

50:07

on a open source des trucs

50:08

notamment sur RDS,

50:09

parce qu'on essaye

50:10

de partager.

50:11

Mais globalement,

50:12

c'est un Ă©norme effort.

50:13

C'est un effort

50:14

qui dure plusieurs années

50:15

et mĂȘme au bout

50:16

de plusieurs années,

50:16

vous vous prendrez des murs.

50:17

Il y a quelques temps,

50:18

on a eu un incident

50:18

sur un cluster Kubernetes

50:20

qui n'Ă©tait pas critique

50:20

oĂč il y a eu un bug

50:22

dans Kiberno.

50:23

Il y avait un script

50:23

qui était buggé,

50:24

un script de cleanup

50:25

de la charte Kiberno

50:25

qui vient d'eux-mĂȘmes

50:26

qui fait que les admissions

50:28

n'enlaient quoi.

50:28

Je ne sais plus,

50:29

il y avait une ressource

50:34

sur le nombre de ressources

50:35

dans le cluster

50:36

et Ă  un moment,

50:37

le cluster a crashé.

50:38

Quand je dis crashé,

50:39

c'est-Ă -dire que le cluster

50:39

était quasiment irrécupérable

50:40

parce qu'on avait,

50:41

je ne sais plus,

50:42

700 000,

50:43

800 000 ressources Kiberno

50:45

et Ă  un moment,

50:46

boum,

50:47

d'un coup,

50:48

le cluster est passé

50:48

de je marche

50:49

Ă  je ne marche plus.

50:51

Et le truc,

50:51

maintenant,

50:52

on a l'alerte,

50:52

c'est cool,

50:53

mais en fait,

50:54

voilĂ ,

50:55

personne,

50:55

c'est une métrique obscure

50:56

de l'API serveur

50:57

qui permet de détecter ça.

50:58

Il y a deux personnes

51:00

sur Google

51:00

qui la documentent

51:02

et encore,

51:03

c'est un truc

51:04

si on ne s'est pas pris

51:05

le mur un jour.

51:06

Et ça,

51:07

on le voit,

51:07

moi,

51:07

je l'ai vu pendant des années,

51:09

ça,

51:09

en fait.

51:10

C'est que l'expérience

51:11

qui permet de créer le...

51:13

Il faut déjà avoir

51:13

une expérience

51:14

de la brique open source

51:15

pour pouvoir créer l'alerting,

51:16

sinon,

51:17

vous prendrez des méga murs

51:18

parce que mĂȘme sur Internet,

51:19

il y a trĂšs peu de contenu,

51:20

en fait.

51:20

Si vous regardez

51:21

comment on monitorait

51:22

du cube sur Internet,

51:23

vous allez trouver des trucs,

51:24

mais vous aurez Ă  lire

51:25

50 articles de blog disparates

51:27

et encore,

51:28

il n'y aura pas tout.

51:29

La moitié,

51:30

les alertes ne seront pas bonnes,

51:31

il y aura des record rules

51:32

qui ne seront pas bonnes,

51:33

en fait,

51:33

ce sera bugué,

51:34

il y aura des problĂšmes

51:34

de cardinité,

51:35

parfois,

51:35

je ne sais pas quoi,

51:36

enfin bref,

51:36

il y a toujours des problĂšmes

51:37

et c'est un coup monstrueux,

51:38

mais on revient sur...

51:39

Moi,

51:40

je tourne en boucle sur

51:40

je n'ai pas envie de faire ça,

51:41

mais je n'ai pas le choix

51:42

parce que le ça,

51:43

ça coûte cher,

51:44

voilĂ .

51:44

En fait,

51:44

je suis dans une boucle infernale,

51:47

je suis désolé,

51:48

je ne sais pas quoi dire d'autre,

51:49

en fait,

51:49

je ne sais pas quoi dire d'autre.

51:51

Mathieu nous renvoie au début.

51:52

C'est vraiment ça,

51:53

c'est vraiment ça.

51:53

Maintenant,

51:54

vous reprenez votre curseur,

51:55

vous le remettez Ă  5 minutes

51:57

et vous pouvez réécouter.

51:59

C'est la fameuse technique

52:00

qui est aussi utilisée sur TikTok,

52:02

comme ça,

52:02

ça revient au début,

52:03

les gens ne remarquent pas,

52:04

ça fait du listen time.

52:06

Mais en tout cas,

52:06

je pense qu'on a fait

52:07

un bon petit tour du sujet,

52:09

un sujet qui,

52:10

au final,

52:11

est quand mĂȘme intĂ©ressant,

52:12

mĂȘme si ce n'est pas forcĂ©ment

52:13

un sujet qui monopolise

52:14

les discussions sur Twitter,

52:15

mais on gagnerait peut-ĂȘtre plus

52:16

Ă  Ă©changer des fois lĂ -dessus

52:18

que sur pourquoi Bash

52:19

doit rester dans le monde du cloud

52:22

ou pourquoi Kubernetes

52:23

a été un peu plus

52:24

Ă  Ă©changer des fois lĂ -dessus.

52:24

Ça ajoute de la complexitĂ©

52:25

à mon bar métal,

52:26

mais bon,

52:27

ça,

52:27

c'est,

52:27

on va dire,

52:28

encore une digression.

52:31

Est-ce que vous avez

52:32

un petit dernier mot Ă  dire

52:33

avant de laisser,

52:34

du coup,

52:35

Ă  nos auditeurs

52:36

et auditrices ?

52:37

Oui,

52:37

je peux commencer,

52:38

allez.

52:38

Bon,

52:39

on a beaucoup critiqué

52:40

le monde du monitoring

52:42

aujourd'hui,

52:42

Ă  raison,

52:43

je pense.

52:44

Il n'y a pas de solution magique,

52:45

malheureusement.

52:46

Il y a des avantages

52:47

et des inconvénients

52:48

un peu partout.

52:49

Mais je voulais quand mĂȘme dire

52:50

que c'Ă©tait un domaine

52:50

qui me passionne quand mĂȘme.

52:51

Je travaille dessus

52:52

depuis le début de ma carriÚre.

52:53

Je continue de travailler

52:54

énormément dessus.

52:55

C'est pour moi un point.

52:56

En fait,

52:56

l'observabilité en général,

52:57

pas que l'infra,

52:58

mais métier,

52:59

etc.,

52:59

l'exploitation de toutes ces métriques,

53:01

en général,

53:04

c'est quelque chose

53:05

qui peut amener

53:05

une Ă©norme plus-value,

53:06

on va dire,

53:07

pour l'entreprise.

53:08

Et donc,

53:09

ça reste un domaine

53:10

avec beaucoup de choses Ă  faire.

53:12

Je suis sûr qu'on verra

53:12

beaucoup d'Ă©volutions

53:13

qui Ă©voluent Ă©galement

53:13

trĂšs, trĂšs, trĂšs vite.

53:15

On n'a pas le temps

53:16

d'en parler lĂ ,

53:16

mais c'est un domaine

53:16

qui Ă©volue beaucoup.

53:18

Des nouveaux standards,

53:18

des nouvelles maniĂšres de faire,

53:20

des nouveaux outils.

53:20

Donc,

53:22

bon,

53:22

on reste positif

53:23

et bonne chance

53:24

pour tous les SRE,

53:27

OPS,

53:27

ou les gens de l'infra

53:28

qui maintiennent ces stacks-lĂ 

53:29

parce que c'est vrai que c'est...

53:30

De mon cÎté,

53:30

ce serait plutĂŽt une question.

53:32

Je serais vraiment curieux

53:33

que les gens nous disent

53:34

sur Twitter ou autre,

53:36

mais on est principalement

53:37

tous les trois sur Twitter.

53:39

Je serais vraiment curieux

53:40

de savoir leur avis

53:40

déjà sur leurs stacks

53:41

de monitoring,

53:42

sur les outils SaaS,

53:43

etc.,

53:43

et voir si les gens

53:44

partagent notre avis

53:45

sur la préhistoire

53:47

de toute cette histoire

53:48

ou est-ce que

53:49

c'est juste

53:50

qu'ils vont trop fumer

53:51

et pourtant on est clean ?

53:53

C'est une bonne question.

53:54

N'hésitez pas à nous répondre

53:55

sur Twitter,

53:56

en commentaire,

53:56

directement sur

53:57

les différentes plateformes

53:58

et puis on regardera

53:59

ça attentivement.

54:01

Moi, de mon cÎté,

54:02

comme je disais,

54:02

je pense qu'on se tire

54:04

un peu les cheveux

54:04

parce que le sujet

54:05

nous intéresse

54:05

et parce qu'on sait

54:06

l'importance que ça a

54:07

donc on creuse beaucoup.

54:09

Mais je pense quand mĂȘme

54:11

que les choses,

54:11

au fond,

54:12

s'améliorent petit à petit.

54:13

C'est juste qu'il y a

54:13

un effet de scope

54:14

et qu'on est quand mĂȘme

54:15

de mieux en mieux lĂ -dessus

54:16

et que ça va continuer

54:18

dans cette voie-lĂ .

54:19

Donc on va dire

54:19

que je suis quelqu'un

54:20

d'optimiste lĂ -dessus

54:20

et j'espĂšre qu'on va

54:22

continuer de ce cÎté-là.

54:23

Donc n'hésitez pas aussi

54:24

Ă  nous suivre.

54:24

Du coup, pour cette nouvelle saison,

54:26

on va parler comme toujours

54:26

de plein de petits sujets tech

54:28

qui nous font discuter

54:30

et qui nous passionnent

54:30

entre nous et avec,

54:32

bien sûr, des invités

54:33

comme à la saison précédente

54:34

et on va essayer d'ajouter

54:35

plein de petites choses

54:36

cette saison,

54:37

changement de générique

54:38

comme vous l'avez entendu

54:39

et aussi Ă  terme

54:42

du live possiblement.

54:44

Donc n'hésitez pas

54:45

Ă  nous suivre

54:45

et je vous dis

54:46

Sous-titrage ST' 501

54:46

Sous-titrage ST' 501