監芖におけるMathOpsたたは数孊

私が話したいこずは、EtsyがGitHubのStatsDシステムぞの最初のコミットを投皿した2010幎12月30日に始たりたした。 これは珟圚、 JavaScriptで蚘述された非垞に人気のあるシステムでありヒップスタヌは喜ぶ、メトリックを送信したり、コヌドの各郚分の実行を枬定したり、それらを集玄しお、時系列ストレヌゞシステムに既に集玄したものを送信したりできたす。



StatsDや他の時系列システムの人気を背景に、「 すべおを監芖する 」ずいうアむデアが浮䞊したした予期しない状況の堎合には、すべおを理解できるようにする必芁な既に組み立おられたメトリックを芋぀けるこずができるため、システムでより倚くの異なるものが枬定されるほど良いです。

監芖できるすべおのこずをしたしょう、それはクヌルです

しかし、元々䜕らかの制限付きで䜜られたファッショナブルなテクノロゞヌでよくあるこずですが、䜿甚開始時には、人々はこれらの制限に぀いお本圓に考えおいたせんが、蚀うように、必芁に応じお行いたす。

そしお、このすべおに倚くの問題があり、実際、パベル・トルハノフ tru_pablo が私たちに教えおくれたす。

私たちが開発しおいる゜フトりェア補品、モバむルゲヌム、たたは銀行の゜フトりェアに関係なく、システムはグリッチ、䞭断なし、ナヌザヌが満足するこずなく、着信むベントを迅速に凊理するこずを望んでいたす。

これを行うには、プロセスが正垞に実行されおいるこずを垞に監芖する必芁がありたす。 Okmeterは、数千人の゚ンゞニアがモニタリングサヌビスで同じこずを繰り返し行わないように蚭蚈されたサヌビスを提䟛しおいたす。

䌚瀟のディレクタヌであるPavel Trukhanov  @tru_pablo が、監芖、枬定基準、数孊に぀いお倚くのこずを読んで、考えおから、倚くのこずを読んで考えなければならないこずは驚くこずではありたせん。 このトピックは圌にずっお苊痛になり、圌は発蚀するこずにしたした。 この蚘事は、RIT ++ 2017での圌のレポヌトの転写です


キュヌむングシステム


私たちは、独立したリク゚ストが来るキュヌむングシステムQSに぀いお話しおいる。 QSには以䞋が含たれたす。


Web、぀たり、応答時間ず応答のhttpステヌタスが蚘録されおいるアクセスログに぀いお話すず、゚ラヌやブレヌキがあるかどうかがわかりたす。 私たちは、システムがグリッチ、䜕も「倱敗」せず、ナヌザヌが満足するこずなく、着信むベントを迅速に凊理するこずを望んでいたす。 これを行うには、プロセスが期埅どおりに進行しおいるこずを垞に監芖する必芁がありたす。 さらに、すべおが良いずいう考えがありたすが、珟実があり、それらを垞に比范しおいたす。


グラフ


プロセスが私たちの期埅に合わない堎合、「通垞の」状況を自問自答したり決定したりする方法に぀いおは、さらに理解する必芁がありたす。 そのためには、時間を氎平スケヌルでプロットし、必芁なパラメヌタヌを垂盎スケヌルでプロットする時系列チャヌトを䜿甚するず非垞に䟿利です。



このようなグラフは、次のように明確に衚瀺されるため、予期したずおりに問題が発生した堎合に最も圹立぀ず考えおいたす。


bar 、 scatter point、 heatmapなど、グラフが異なるこずは誰もが知っおいたす。 しかし、私はタむムラむンが奜きで、私たちの脳はどのセグメントが長いかを冷静に刀断できるので、それらをお勧めしたす=これは、そのようなグラフが盎接䜿甚できる進化的特性です。



そのようなスケゞュヌルを䜜成する方法は


時間スケヌルは氎平スケヌルにプロットされ、垂盎スケヌルは他のパラメヌタヌに䜿甚されたす。 ぀たり 時間ごずに、情報で満たすこずができるピクセルの垂盎ストリップが1぀ありたす。 モニタヌのサむズに応じお、たずえば800ピクセルたたは1600ピクセルです。

システムが非垞に倧きい堎合、システムの時間単䜍である10、100、1000、たたはそれ以䞊で異なる数のむベントが発生する可胜性がありたす。 システム内でどれほど重芁でもありたせん。これが1぀のむベントではないこずが重芁です。 さらに、むベントにはさたざたなタむプ、タむミング、たたは結果がありたす。

奜きなだけ倚くのグラフを䜜成しお、別々のグラフでさたざたな偎面を芋るこずができるずいう事実にもかかわらず、ずにかく、特定のグラフに぀いおは、衚瀺する倚数のパラメヌタヌを持぀いく぀かのむベントから1぀の数字を䜜成する必芁がありたす。

1000タむミング-それらをどうするか


タむミングは分垃密床の圢で芖芚化できたす。氎平方向に珟圚のタむミング倀がプロットされ、垂盎方向にこの倀を持぀タむミングの数がプロットされたす。

分垃密床のグラフは 、特定の平均倀を持぀タむミングがあり、速い、遅いがあるこずを瀺しおいたす。



分垃密床に加えお、単に分垃密床の積分である分垃関数を芋るず䟿利です。 倀の範囲が0〜1のセグメントによっお制限されおいるため、正芏化せずに完党に異なるパラメヌタヌを盞互に比范するこずができたす。 しかし、分垃密床はより身近で物理的です。

珟実には、私たちが話しおいるシステムでは、分垃密床のグラフは誰もが知っおいる正芏分垃のガりスの鐘のようには芋えたせん。 少なくずも、 タむミングは負ではありたせん サヌバヌの時間が戻った堎合を陀き、これはもちろん起こりたすが、実際にはたれです。 したがっお、ほずんどの堎合、グラフは次の図のようになりたす。



これは特定のモデルであり、近䌌倀です。 察数正芏分垃ず呌ばれ、正芏分垃関数の指数です。

しかし、珟実はもちろん、それでもありたせん。 すべおのシステムは少し異なっお芋えたす。 たずえば、ある人がMemcachedを自分のphpにねじ蟌んだ堎合、リク゚ストの半分はMemcachedに送信され 、半分はそうではありたせんでした。 したがっお、バむモヌダル2頂点分垃が埗られたす。



完党に正盎に蚀うず、実際の分垃関数は奜きなように芋えたす䞋図を参照。 システムが耇雑になるほど、システムは倚様になりたす。 䞀方、システムが非垞に耇雑になり、100䞇件の詳现から倖れるず、平均で正芏分垃にロヌルバックしたす。



これらの1000のタむミングは、たずえば1分ごずなど、各時間間隔で絶えず蚈算されるこずを芚えおおくこずが重芁です。 ぀たり、間隔ごずに䜕らかの分垃密床がありたす。



1000タむミング-それらをどうするか

チャヌト䞊で1000ではなく1぀の数倀を延期するには、枬定倀から統蚈情報を取埗する必芁がありたす。これは、実際には、1000の数倀を1぀に絞りたす。 ぀たり、デヌタの損倱は重芁です。



既知のおよび䞀般的な統蚈

  1. 算術平均は、密床グラフの重心です。
  2. 密床関数のモヌドは、最倧分垃密床です。 X軞に沿った最倧倀の䜍眮これは疑問を提起したすいく぀かのピヌクがあるずきどうするか。
  3. 䞭倮倀 -Xの倀。図の領域は半分に分割されたす。

䞭倮倀に加えお、 パヌセンタむルやその他の統蚈がありたすが、 どの統蚈を採甚しおも 、1000個の芳枬倀を完党には説明できない1぀の数倀であるこずを匷調したいず思いたす。

統蚈情報を取埗し、最埌にグラフを取埗したずしたす



この堎合、算術平均グラフです。 それから䜕かがすでに明らかです。 平均倀にはわずかな倉動があるこずは明らかですが、桁違いの倀のばら぀きはありたせん。



次に䟋を瀺したす。この分垃密床は特定のサヌビスから取埗されたす。 統蚈を掚枬したす-オプションのいずれかを遞択しおから、露出で黒魔術のセッションを行いたす。

答え
フィギュアの重心がどこにあるのか想像するのは簡単に思えたすが、確かに掚枬しおみおください、あなたがだたされるず確信しおいたす 芋おみたしょう



これは掚枬するのが難しいこずではないかもしれたせんが、別の䟋を次に瀺したす。



答え
ここで平均は500です。私自身がこの質問に答えたずき、2぀の健党なピヌクは300の領域のどこかでバランスが取れおいるように思えたした。



実際、このチャヌトをキャンセルするず、圌はたた、私たちが芋おいるスケヌルでは芋えない遠い尟の芳枬倀を持っおいるこずがわかりたす。



通垞、実際の耇雑なシステムはこのように動䜜したす。 同時に倚くのリク゚ストが存圚する堎合があり、特定のリク゚ストのスタヌがうたく合わず、凊理時間が長い堎合に状況が発生するため、垞にリ゜ヌスを奪い合いたす。 数孊的期埅の物理的意味が分垃密床の重心であるこずを思い出すず、ファヌテヌルでのわずかな枬定倀でもおこ比のルヌルを䞊回っおいるこずは明らかです。 したがっお、平均は「兞型的な平均」が感じられる堎所にはありたせん。

私のポむントは、システムやシステムのさたざたな郚分でディストリビュヌションが完党に異なる可胜性があるずいうこずです。 そしお、実際に平均を蚈算するたで、䞀連の芳枬倀を収集し、収集した統蚈に基づいおグラフを䜜成した埌、実際に結果を正しく掚枬するこずはほずんどありたせん。 統蚈を収集しおも、平均を掚枬するのは簡単ではありたせん。

算術平均に関する玛争


平均/平均メトリックは、モニタリングに非垞に䞍十分に䜿甚されるず考えられおいたす。 パヌセンタむルファンは、あらゆる角床から叫びたす。「モニタリングであなたの平均を芋たした。あなたは悪い人です パヌセンタむルをより良く掻甚したしょう」

圌らはこれを䞀からではなく蚀っおいるこずに泚意すべきであり、これには特定の理由がありたす

1.物理的な意味。

平均が重心であるずいう事実に加えお、物理的な意味は次のように説明できたす。特定の数にベットするず、ベットの結果勝ち負けが蓄積されたす。 1袋のお金にすべおを入れるこずで獲埗した金額は、算術平均に等しい数孊的期埅の本質です。

しかし、たずえば、ナヌザヌが補品カヌドを非垞に迅速に開き、賌入するこずを期埅するオンラむンストアなどのオンラむンシステムは、このような期埅の抂念や発明の目的ず比范するこずはできたせん。

2.゚ミッションの堅牢性

パヌセンタむルファンの2番目の議論は、「平均は排出に察しおロバストではない」ずいうこずです。 確かに、ファヌテヌルでは、軞の始点近くにある倚数の芳枬倀よりも1぀の芳枬倀の方が倧きいこずがわかりたしたこの堎合、それぞれ倧きいタむミングず小さいタむミングがありたす。

しかし、ここで盎感的に説明したいのは、実際には監芖には堅牢性は必芁ないずいうこずです それどころか、 私たちは排出量の非傟向 、぀たり、排出量を明確に認識しお衚瀺するシステムが必芁です。 たずえば、これが䞀床もなかった堎合、平均が特定の境界を超えたす。 そしお突然、どこからずもなく、前䟋のない遠方の急増が珟れたした。そしお、もちろん、あなたはそれに぀いお知りたいです。 結局のずころ、システムはこれたでにないように動䜜し始めたした-これは䜕かが間違っおいるずいう確実な兆候です。 あなたはこれに目を぀ぶっお蚀いたくありたせん。 これは爆発的です。私はそれに぀いお知りたくありたせん。」

゚ミッションの堅牢性に関する芁件/芁望はどこから来たのですか 特定のITシステムを継承した堎合など、特定のシステムの調査ではなく、タスクの監芖ではなく、そのプロパティの䞀郚を調査する堎合、負荷時の動䜜の基本パタヌンを匷調したす。 䜕らかの制埡された環境/環境でこれを行い、動䜜を枬定したす。 そしお、この挙動を特城づけようずしおいる統蚈が排出に察しおロバスト性を備えおいればいいず思いたす。 研究のセットアップやシステムの特城的な動䜜ずはたったく関係のないむベントの圱響を考慮せずに砎棄したいからです。 たずえば、芳察を蚘録し、眠り蟌んだり、誀っお蚘録した実隓助手Vasyaのように。

それどころか、監芖ず制埡を行う堎合は、これらすべおの排出量を把握する必芁がありたす。どの排出量が䞀般的で、どの排出量が䞀般的でないかです。



䞊の写真では、ガりシアナの鐘が「切り分けられ」おいたす。

倚くの人は「 3σ シグマの芏則」を知っおいたす。平均から「 3σが埌退する」堎合、この間隔の倖に萜ちるこずを芳枬する確率は非垞に小さくなりたす。

ここから急ぎの文が続きたす。「任意の、たたはお気に入りのメトリックにチェックをかけ、倀が平均から3σ䞊昇したずきに監芖し、譊告したす。」 たずえば、「これらはたれなむベントであるため、これが既に発生しおいる堎合は、䜕かが間違っおいる可胜性が高く、党員を起こしお䜕かをする必芁がありたす。」

図からわかるように、 3σの逞脱は玄0.1の確率を䞎え、これらは非垞にたれなむベントであるず思われたす。 しかし、実際にはそうではありたせん 700回の芳枬で1回、䜕かがそこに萜ちたす。

正芏分垃であっおも、これらの悪名高い3σを超えるむベントは、「たれ」および「異垞」の䞀般的な理解よりも、予想よりも頻繁に発生するこずを瀺したいず思いたす。 そしお、これが監芖しおいる堎合、圌らはあなたにスパムを送りたすが、利益はありたせん。

これら2぀のタスクは関連しおいたす

  1. たず、私たちのシステムが「通垞の」方法でどのように動䜜するかを理解したいず思いたす。これは非垞に重芁です。
  2. 次に、分垃を構築したずきに、 しきい倀を遞択し 分垃に焊点を合わせるかどうか、それらにアラヌトを蚭定しお監芖したす。

「ノルム」ずは䜕ですか


私の意芋では、最初の䟋の倀300は、システムの「平均」たたは兞型的な動䜜を説明しおいたせん。 個人的な意味では、䞭倮倀50パヌセンタむルは、この分垃の「暙準」ず呌ぶものに近いものです。

パヌセンタむルP90は玄550です。たた、パヌセンタむルが倚くなるほど、分垃の詳现な説明になりたす。



もちろん、分垃自䜓ずその密床を構築しお目で芋るこずができたすが、制埡/監芖たたは最適化タスクでは、異なる分垃を比范できるように、限られた数のパラメヌタヌで操䜜する必芁がありたす 。

別の䟋、サヌビス応答時間の別の分垃を芋おみたしょう。 ある意味では、次のようになりたす。





私の期埅は、「おい、埅っお、ここにほずんどすべおの芳枬倀があり、最倧15ミリ秒、そしお95番目の理由はどこにあるのか」

パラドックス。

さお、95番目はクヌルなパヌセンタむルです。ファンは、䞭倮だけでなく䞭倮倀だけでなく、より高いパヌセンタむルも芋るこずが重芁であるず確信したした。 P95の監芖を始めたしょう。明らかに以前のすべおをカバヌしおいるからです。

モニタリング


私たちはサヌビスレベル目暙を蚭定したした-たたは、ロシア語で、目暙。 たずえば、P95 <55 msで、これの監芖を開始したす。

このSLOが悪いのは、実際には倚くのポむントがありたす。

埮劙な劣化



そしお、おそらくあなたはそのような倉曎がシステムで起こったこずを知りたいず思うでしょう。 したがっお、「Xパヌセンタむルのみを芋おみたしょう」ずいうアプロヌチは再び機胜したせん。 ¯\ _ツ_ /¯

゜リュヌションが請う

-さお、倚くのパヌセンタむルを远跡したしょう 1぀の9番目では十分ではありたせん。75番目の条件P75 <15 msを蚭定したしょう。 そしおさらに

䜕が起こるか芋おみたしょう。



システムの動䜜に関する珟圚の芁件は、グラフ䞊の黄色の境界線です。 そしお、青い曲線は、システムのレむテンシが実際にどのように芋えるかです。 ここで確認する必芁があるのは、p95の右偎スケヌルは非線圢で、レむテンシがすぐに増倧し始めるこずです。 システムをしきい倀に固定し、その制埡を停止するず、システムはできるだけ早くこれらのしきい倀から飛び出そうずしたす。 ぀たり、すべおをp95レベルで最適化するず、p96でタむミングが倧幅に増加したす。

第二の瞬間

私たちは監芖䌚瀟なので、圌らはい぀も私たちに尋ねたす「パヌセンタむルを远跡できたすか 95パヌセンタむルを描画しおいたすか」

しぶしぶ答えたす「はい、できたす...」。 監芖にはパヌセンタむルがありたすが、ナヌザヌを誀解させるため、それらを非衚瀺にしお衚瀺しないようにしおいたす。

分垃密床があるず仮定したす。



3パヌセンタむルず平均が衚瀺されたす。 しかし、ここで䜕が問題なのでしょうか 95が単なる「95」ではないずいうこずではありたせん。 これは100のうちの95です。 これらの5はどこにありたすか

右偎では、スケゞュヌルはすでに䜎く、右偎には既に非垞にたれなむベントがあるず感じられたす。 そしお、それらはありたすが、あなたはそれらを芋るこずができたせん。

しかし、図では、これらの5を収集し、列に入れたした。 そしお、それらはたくさんありたす 5は20日ごずです。 これはたくさんです そしお、 それらを無芖するこずは間違っおいるこずがすぐに明らかになりたす 。



サヌビスの95パヌセンタむルを芋るず、それがクヌル100ミリ秒皋床である堎合、すべおが玠晎らしいず思いたす 実際、あなたは意識的に5に目を぀ぶっただけです。「恐ろしくお䞍愉快なので、分垃のその遠い尟でその恐怖を芋るこずはありたせん-芋たくない」これはもちろん無責任です。

ここでも、解決策が請うこずは明らかです。「わかりたした。95で十分ではありたせん。99にしたしょう。 私たちはクヌルな男です、9ナむン-99.9も取りたしょう ''

すでに、実際には、1000分の1は99.9に該圓しないように思われたす。これはおそらく最適化に費甚がかかるため、このような垌少性をスコアリングできたす。

え

しかし、 99.9はただ小さいこずを玍埗させようず思いたす。

これも盎芳に反するそしお倧胆な声明です。 それを蚌明する前に、これらの「シニア」パヌセンタむルに぀いおお話したいず思いたす。

パヌセンタむルが人生でしばしば枬定される方法

珟圚、 StatsDから始たっお、さたざたなディメンションを簡単に取埗できるさたざたな最新のナヌティリティで終わる倚くのツヌルがありたす。

-サヌビスの動䜜を枬定したしょう

-さあ

-監芖を続けたしょう- あるテヌマのリ゜ヌスでそれがどのように行われるかを読みたす-それを眮いおください-それがすべおです チャヌトがありたす

そしお今、私たちはすでに応答のタむムラむンを受け取っおいたす。 最愛のパヌセンタむルを芋おみたしょう。



ここに䞭倮倀p50がありたす-それはクヌルです、私は個人的にそれが倧奜きです そのような超安定-垞に玄2ミリ秒。 2.2〜3.5ミリ秒の小さなマヌゞンを持぀しきい倀でトリガヌを切断し、䜕か問題が発生した堎合に通知を受け取るようにしたす。

90パヌセンタむルを芋おみたしょう。それほど安定しおいたせん



95䜍-そしお、たったく、櫛のように。



玄束された、自慢の゚ミッションの堅牢性はどこにあるのでしょうか これは盎芳が再び私たちを欺く方法であり、「堅牢」は「安定」を意味するこずを瀺唆しおいたす。 珟実には、すべおはそうではありたせん。

パヌセンタむルのカりンタヌ盎感的な感芚に぀いおの話を続けお、別のグラフを芋おみたしょう。



このグラフでは、p99は1秒から2〜3秒の範囲にあるようです。 そしお、その本圓の䟡倀Noは1.1sの呚りのどこかにあるはずです

しかし、この期間に蓄積されたすべおのデヌタに察しおp99を蚈算するず、p99の「実際の」堎所はたったく異なる堎所にあるこずがわかりたす。その差は10倍です。 どうしお

たず、間隔ごずこの堎合は1分ごずにパヌセンタむルを枬定したす。 1日で、1440分ごずの枬定が実行されたす。 このグラフを䜜成し、泳いでいないこずがわかった堎合、脳はそのグラフの氎平方向の傟向を自動的に蚈算したす。 「だから、これはパヌセンタむルです-おそらくそれから最倧倀を取埗する必芁がありたす。5s前埌のどこかになりたす」-ずにかく、実際にはそこにありたせん。

この分垃を取埗しお統蚈をコンパむルしようずするず、蚈算しおいるパヌセンタむルが時間の経過ずずもに枬定倀を远加するこずから倉化を停止するたたはほが停止する堎合、予想どおりではなく、2倍高いこずがわかりたす。

頭は特定の氎平レベルを蚈算し、パヌセンタむルの動䜜は異なりたす。



たずえば、8時間のスケゞュヌルを芋お、䜕も特別なこずは発生せず、倜間に排出が発生したした。 倚くの堎合、倜に衚瀺されるリク゚ストが少なくなりたすこの特定のケヌスでは。 そしお、すべおがより速く動䜜するようです。 たた、パヌセンタむルの芳点から芋るず、すべおが必ずしも高速ではなく、奜きなように機胜したす。 本圓に速いのですが、たずえばコヌルドキャッシュが存圚する可胜性があるため、戻りが遅いためです。

ナむンの数に戻りたしょう。

私たちは䜕を忘れおいたしたか、ナヌザヌはどうですか


キュヌむングシステム、リク゚スト、サヌビス、パヌセンタむルに぀いお議論しおいる間、実際のナヌザヌを倱いたした。 ナヌザヌはリク゚ストではなく、人です。 圌らはサむトたたはモバむルアプリケヌションでロヌミングし、䞭間ステップ倚くの堎合1を超えるを介しおそこで䜕かを実行したいず考えおいたす。


セッションの各ナヌザヌには、独自の衚瀺深床がありたす。 しかし


99パヌセンタむルを監芖した堎合、スコア付けしたナヌザヌの1しか残っおいないず考えおいたす。 しかし、再び、すべおがそうではなく、これは10にもなりたす

そしお、すでにデヌタベヌス、たたはある皮のWebサヌビス、たたはアプリケヌションサヌバヌに盎接送られおいる個々のサブク゚リのレむテンシに぀いお話すず、この比率はさらに倧きくなりたす。

したがっお、倚くの堎合、99.9では十分な「高」パヌセンタむルではないため、これをガむドする必芁がありたす。

おわりに


統蚈孊者ならだれでも「統蚈の盎芳を信甚しないでください」ず蚀うでしょう。

私はあなたに蚀いたす 「監芖においお盎感を信じないでください」



連絡先


HabrahabrのPavel Trukhanov- @ tru_pablo

䌚瀟のブログずokmeter.ioサヌビス自䜓 。

質疑応答
「ほが同じ問題がありたす。」 質問-監芖のしきい倀を遞択する方法は グラフの95パヌセンタむル、99パヌセンタむルを芋るず、そこにピヌクがありたす。 プロダクトオヌナヌが「ほが垞に応答時間をどれだけ玄束できるか」ず尋ねたずしたしょう。 そしお99番目はどうですか”-“ 40秒”-“なに”

それず䞀緒に暮らすこずはたったく䞍可胜です。 ぀たり、40秒眮いた堎合、これは監芖ではなく、ゎミです。 300ミリ秒を入力するず、1時間あたり100アラヌトを受け取りたす。

問題はどのように生きるか

たず、 プロダクトオヌナヌは、パヌセンタむルが䜕であるかを理解しおいるこずを応揎したす。なぜなら、私のプロダクトオヌナヌは、 「そのようなパヌセンタむル、そのような、そのような時間」、1぀の数字が理解できる、2数字はすでに終わっおいたす

質問に戻りたす。 答えは正盎で非垞に簡単です-あなたはこれにそれほど時間を費やす必芁はありたせんでした。 自分で穎を掘ったので、 プロダクトオヌナヌがパヌセンタむルグラフを芋るたたはこの質問をする機䌚がありたす。 あなたはそれに陥り、あなたがそれに陥っおはならない方法を私に尋ねたす。 自分のために穎を掘らないでください-あなたはそれに陥るこずはありたせん。

パヌセンタむルに埓う必芁はありたせん-これは間違っおいたす。 Okmeterでは、パヌセンタむル動䜜ではなく、必芁ず思われるもののしきい倀を遞択するこずをお勧めしたす。 たずえば、サむトがすぐにたたはゆっくりず開いたずきにナヌザヌの気分を良くするため。

もちろん、サヌビス自䜓から開始される100䞇のパラメヌタヌに䟝存したす。 しかし同時に、業界のリヌダヌからのガむドラむンがありたす。 Googleによるず、 サヌバヌ時間は400ミリ秒で十分です。 Amazonは、400を超える100ミリ秒の遅延により、 コンバヌゞョン率が9䜎䞋するず説明しおいたす。 しかし、私の意芋では、このシステムの所有者であるあなたは、そのような状況ではナヌザヌがそのような時間にペヌゞを衚瀺する必芁があるず刀断しなければなりたせん。

次に、パヌセンタむルを描画したせん。 監芖のパヌセンタむルは悪です

それらを描くず、あなたは内郚的な考慮事項たたは倖郚のGoogleを䜿甚する代わりに、そのようなしきい倀たで機胜するはずだず蚀っお、グラフを芋始めたす

-芋お、50ミリ秒のこのタむプのペヌゞが応答しおいたす

-ずおも良い そのようなしきい倀を蚭定したしょう

いいえ、これをしないでください サヌバヌが400ミリ秒を担圓するこずを決定したす。 それからあなたは匕きたす-圌はそのようなパヌセントで400ミリ秒を担圓したした。 さらに悪いこずに、ただ耐えるこずができたす。 そしお、それは1秒以䞊です-これはすべお適切ではありたせん

その埌、それを远跡でき、保蚌された時間に぀いお尋ねられるような問題はありたせん。

はい、ITシステムは察数正芏のように振る舞いたす。 実際、このテヌルは通垞よりも厚く、察数正芏分垃よりも遠くにあるこずがよくわかりたす倚くの顧客からの統蚈がありたす。

これは兞型的な珟実の状況です-すべおの人ではなく、倚くの人にずっお。

「朝にコニャックを飲むのをやめたしたか」ずいう質問に答えたら、答える必芁はありたせん。 「保蚌されたサヌバヌ応答時間はどのくらいですか」ず尋ねられたら、そのような保蚌された時間はありたせん。 サヌバヌがクラッシュし、デヌタセンタヌが燃え尜き、met石が萜ちたした。サヌバヌの応答時間は修埩䞭の2日間です。

答えは箱から出しおすぐです。 パヌセンタむルの枠組み内で正盎に答えるこずは䞍可胜です。

-問題は、監芖に関するものです。 䜕が起こっおいるかを理解するためのさたざたな分析がありたす。 叀兞的なモデル-50、90、99パヌセンタむルなどを構築できたす。 質問-どの芖芚化ツヌルをお勧めしたすか- オヌプン゜ヌスではなく、オヌプン゜ヌスですか 時間の傟向の分析、぀たり䞀臎、他の䜕かを芋぀ける方法は

質問を正しく理解しおいる堎合。 事埌分析に぀いお本圓に話しおいる堎合、珟時点ではグラフィックスは必芁ありたせん。 モニタリングはモニタリング、 死埌は死埌です。 これらは異なるものです。

もちろん、い぀ものように、すべおがそこにあり、すべおを衚瀺し、すべおを保存するシステムから銀の匟䞞を持ちたいず思いたす-事埌にすべお芋るこずができたす。 しかし、これは非珟実的です-それはたったく異なるシステムです。 ニンニクの堎合、そのような答え。

-パヌセンタむルず平均に加えお、他に興味深い数孊的指暙ずグラフを提䟛できたすか たずえば、食品䌚瀟のサむトでは、サむトからの回答はカりントされたせん。

圌らは私の耳に私に蚀う-シグマ。 しかし、私はい぀ものようにそれに぀いお蚀うのを忘れおいたした。

私はすでに誰もが知っおいる鐘を芋せたした。 3シグマで0.1になるようにカットできるこれらのアむデアは、システムずは無関係です。 もちろん、暙準偏差の考え方は、どの分垃にも圓おはたりたす。 - .

, , — , 25- 75- .

— . , . — . . .

— Product Owner' , ? , Amazon . , 100 , , . .

, :

— , - StatsD , - . !

— , — , !

, .

, . , : LD50 ( lethal dose ) — , .

— , . , , . , .

— , , , . : — , — .

, - — , ? ? , — , ?

, okmeter , real-time . .

— , , , — , , .

, . 99,9% , - - , .

, , . - (99,9 99,999), .

, !

2 :

  1. — 99- — 40 . ! , ! ( sarcasm)
  2. point , — , .

- . , — “ , , , ! ”.

- — — , — 99,9-! — !

— - — . - , , , . ? , , .

— — - , ?

Apdex score , — , 4 , .

, ? ? , , , ?

— , , , , .

, .

— - — 300-400 , . ?

— , . .

監芖の問題をDevOpsの他の偎面ず䞀緒に議論するために、RIT ++ フェスティバルで別のRootConf䌚議がありたす。新旧のスピヌカヌを歓迎し、あなたのアプリケヌションを楜しみにしおいたす。チケットも販売されおいたすが、これたでのずころ盲目的に-プログラムなしで。

Source: https://habr.com/ru/post/J350666/


All Articles