Monitorizare pe buget zero: Cum configurezi Netdata, Grafana Cloud și UptimeRobot pentru VPS-ul tău

Marian Apostol · 2026-06-02T02:42:42.600Z

Nu arunca banii pe Datadog pentru proiecte mici. Iată cum am legat trei unelte gratuite ca să am alerte pe telefon înainte să mă sune clientul.

Postat 2 iun. 2026

toml

# Se adaugă în /etc/netdata/exporting.conf
[prometheus_remote_write:grafana_cloud]
    enabled = yes
    destination = https://prometheus-us-central1.grafana.net/api/prom/push
    data source = average
    headers = Authorization = Bearer INSTANCE_API_KEY_AICI
    update every = 10

Să fim sinceri: nimănui nu-i convine să plătească 50 de dolari pe lună la Datadog sau New Relic pentru un VPS de 4 euro de la Hetzner sau DigitalOcean. Am pățit-o acum doi ani cu un magazin online mic, cu vreo 15k vizitatori unici pe lună, când s-a umplut discul din cauza logurilor de Docker și totul a picat sâmbătă seara. Am aflat de problemă abia duminică la prânz, când m-a sunat clientul nervos.

După faza aia, mi-am jurat că nu mai las niciun server ne-monitorizat, chiar dacă e un pet project de 3 dolari. Am testat diverse variante și am ajuns la o combinație gratuită extrem de solidă: Netdata pentru metrici locale detaliate, Grafana Cloud ca agregator extern și UptimeRobot ca ultimă linie de apărare.

Pasul 1: Netdata, „medicul de gardă” de pe server

Netdata este genial pentru că se instalează cu o singură linie de comandă și detectează automat tot ce rulează pe server (Nginx, Docker, PostgreSQL, Redis). Spre deosebire de Prometheus clasic, unde trebuie să configurezi manual exportere pentru orice, Netdata doar funcționează direct din cutie.

Dar are o mare problemă istorică: dacă serverul moare complet (de exemplu, kernel panic sau problemă de rețea la provider), moare și Netdata. N-are cum să-ți trimită o alertă dacă el nu mai respiră. De aceea, îl folosim doar ca să colecteze datele și să le trimită în exterior.

Pasul 2: Grafana Cloud pentru stocare și alerte externe

Grafana Cloud oferă un plan free excelent: 10.000 de metrici active (active series) și 50 GB de loguri. Este mai mult decât suficient pentru 2-3 VPS-uri medii.

Ideea e simplă: configurăm Netdata de pe VPS să trimită datele prin protocolul Prometheus remote_write direct în instanța noastră de Grafana Cloud. Chiar dacă VPS-ul explodează, ultimele minute de metrici sunt salvate în cloud-ul Grafana și putem vedea exact ce s-a întâmplat înainte de crash.

Pentru asta, trebuie să editezi fișierul /etc/netdata/exporting.conf și să adaugi configurația de trimitere către endpoint-ul tău de Prometheus din Grafana Cloud (vezi exemplul de cod de mai jos).

Pasul 3: UptimeRobot pentru verificarea din exterior

Grafana e bună pentru grafice și alerte complexe de RAM/CPU, dar uneori ai nevoie de ceva simplu care doar „împinge” în site-ul tău din 5 în 5 minute ca să vadă dacă răspunde cu HTTP 200.

UptimeRobot face exact asta în planul lor gratuit (până la 50 de monitoare). Îl configurezi să verifice URL-ul principal și, dacă serverul nu răspunde în 10 secunde, îți trimite notificare pe Telegram sau Discord. E configurat în 30 de secunde și e sfânt.

Compromisurile acestui setup gratuit

Nimic nu e perfect pe lumea asta, mai ales când e moca.

În primul rând, Netdata consumă resurse. Pe o instanță mică cu 1GB RAM, agentul Netdata poate să mănânce între 80MB și 150MB de RAM, în funcție de numărul de containere Docker pornite. Dacă ești la limită cu memoria, va trebui să modifici intervalul de colectare de la o secundă la 5 secunde în netdata.conf pentru a reduce consumul de CPU și RAM.

În al doilea rând, Grafana are o curbă de învățare destul de abruptă. Dashboard-urile lor arată incredibil, dar limbajul PromQL (folosit pentru query-uri) te poate face să-ți smulgi părul din cap în primele zile când încerci să scrii o regulă simplă de alertare pentru consumul de disc.

Cu toate astea, odată configurat, setup-ul ăsta rulează fără mentenanță. Eu îl am pe 4 servere de producție mici de peste un an și nu am plătit niciun cent, dar știu exact când un serviciu are memory leak sau când un disc trece de 85% capacitate.

Voi ce folosiți pentru monitorizarea instanțelor mici? Mergeți pe clasicul script de bash în cron care dă ping, sau ați trecut la soluții cloud?