Warum ich fast 3 Wochen nur wenig geschrieben habe…

Ich wollte „nur mal“ mein Systemmonitoring auf den neuesten Stand bringen.

Bislang war es so, dass ein Rechner mit der Überwachungssoftware „Nagios“ alle Server und Workstations auf besondere Ereignisse überprüfte. Und wenn es mal sowas war wie „CPU Überlastet“ musste ich an einem anderen Rechner mit der Software „Munin“ in die Auswertungen und Grafiken schauen, was es denn gewesen sein könnte.

Man kann zwar Munin mit etwas Geschick auch auf die Überwachung trimmen (also EMail schicken, wenn irgendein Wert zu hoch oder zu niedrig ist) oder auch Nagios mit paar Grafiken ausstatten (es gibt Forks wie „Cacti“) – aber irgendwie war mir das alles zu kompliziert und ich hab mich nach einer anderen Lösung umgeschaut.

Es blieben „Pandora FMS“ (Produkt aus Spanien) und „Zabbix“ (Produkt aus Estland) übrig.

Bei Pandora haben mir in der „kostenlos“ Variante schnell Features gefehlt, die anscheinend nur in der Enterprise-Version vorhanden sind (wie zb. die Fernkonfiguration von Agents). Blöderweise hab ich nirgends eine Preisliste für die Enterprise-Version (geschweige denn einen deutschen Reseller) gefunden und damit war das Thema durch. Insbesondere weil die Spanier kaum in der Lage sind, ihre Handbücher an die aktuelle Version anzupassen.

Zabbix ist genauso schwer zu durchschauen wie andere Überwachungssoftware, aber es hat ein nettes Webfrontend und keine Einschränkungen in der OSS Version.

4 Tage habe ich damit verbracht herauszufinden, warum das „Autodiscovery“ nicht funktioniert – der Fehler ist ein Schreibfehler in der ausgelieferten Konfigurationsdatei. Dann nochmal endloses herumgefrickele über Tage um zu kapieren, dass der selbstgewählte Name für ein „Item“ (also der Name für einen Messwert) nur informativen Charakter hat und der Schlüssel für die Messgrösse gilt. Wenn ich also irgendwo in einem Template „Hauptspeichergroesse = vm.memory.size[total]“ verbaut habe und das in einem anderen Template nochmal als „Gesamtspeicher = vm.memory.size[total]“ (zb. bei der Inventarisierung) nutze und beide Templates an einen Host knote kommt die Meldung „Ätschbätsch – vm.memory.size[total] ist doppelt, darfst Du nicht, is nicht“.

Könnte ich stundenlang kotzen gehen bei einem Produkt, was angeblich eine „Enterprise Solution“ ist und seit über 10 Jahren entwickelt wird.

Der Forensupport ist ähnlich chaotisch. Wer der kyrillischen Zeichen mächtig ist, findet schnell Zuspruch und selbst Anfragen spanischer oder portugiesischer Zunge finden schneller eine Lösung als wenn man auf Englisch fragt. Auch das Buch von Rihards Olups zum Thema (befasst sich leider nur mit Zabbix 1.8) war nicht sonderlich hilfreich (und der ist angeblich Trainer-Guru für Zabbix).

Die Default-Templates sind durchweg nett gemeint, deren Alarm-Trigger durchweg für den Müllhaufen weil sie zu sensibel sind. „Freier Speicher < 20%"? Sobald man eine Java-Anwendung am Start hat kommt das häufig vor und nach der nächsteen Garbage Collection ist alles wieder im reinen. "Free Swapspace < 20%"? Die meissten virtuellen Maschinen bei gängigen Providern haben keinen Swap. CPU IOWAIT zu hoch? Muss man auch mal abkönnen. Sprich: Wer die Preset-Templates auf real existierende Rechner loslässt wird mit Alerts im Sekundentakt bombardiert. Fazit: Zabbix ist an manchen Stellen sowas von Schrott, das glaubt kein Mensch. Aber die anderen Systeme sind noch mehr kaputt so dass ich vermutlich damit leben muss. Und was ich die letzten 3 Wochen gemacht habe? Neue Zabbix Templates zu schreiben die einigermassen krisensicher sind. Das frisst Zeit, insbesondere wenn man "Discovery-Templates" bearbeitet. Da gibt es nämlich keinen Mechanismus, die "Erforschung" kontrolliert neu anzustossen. Also Discovery-Template überarbeiten, Discovery-Template bei jeden Host löschen, Discovery-Template neu anhängen und dann warten, warten, warten .... (meisstens leg ich mich aufs Sofa schlafen) bis irgendwann nach 30 Sekunden, 30 Minuten oder auch später alle Werte gefüllt sind. Vielleicht finde ich das Produkt irgendwann mal gut 🙂

Dieser Beitrag wurde unter Dies und das... veröffentlicht. Setze ein Lesezeichen auf den Permalink.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.