СервисыТехнология

Datadog: краткий обзор платформы для мониторинга

Автор: PlaysDev
Опубликовано: 21.11.2023

Тенденция усложнения систем и приложений стимулирует внедрение более эффективных инструментов мониторинга. В этом контексте Datadog выделяется как мощный и универсальный инструмент.

В чем основные особенности Datadog и почему в мире опенсорса и бесплатного ПО выбирают именно этот платный SaaS мониторинг? Давайте разбираться.

Мы выделили следующие факторы:

  • цена,
  • масштабируемость,
  • UI и удобство использования,
  • функциональность,
  • возможность кастомизации,
  • прогнозируемое использование,
  • простота развертывания

Начнем с тех. возможностей Datadog, благодаря которым он остается в топе инструментов мониторинга уже не первый год, а также проведем небольшое сравнение со стеком Prometheus-Loki-Grafana.

Легок в первоначальной настройке (низкий порог входа)

Для мониторинга достаточно установить агента на хост и/или подключить библиотеку в приложении. Юзер-френдли интерфейс и дашборды с основными метриками сэкономят огромное количество времени на первоначальном этапе.

Более того, Datadog имеет упрощенную интеграцию с Microsoft Azure, что делает его еще более привлекательным, по сравнению, например, с Prometheus-Loki-Grafana, которые необходимо первоначально сконфигурировать для совместной работы, а также дополнительно подключать и конфигурировать экспортеры.

Позволяет создавать дашборды для приложений, сред и кастомных метрик в одной панели

Виджеты с возможностью перетаскивания дают возможность создать собственные представления без необходимости написания кода. Набор инструментов визуализации позволяет просматривать данные в различных форматах, а также создавать отчеты.

Основным преимуществом здесь является простота создания запросов, в отличие от Prometheus, в Datadog все быстро и легко настраивается через UI (зачастую датадог даже сам предлагает тебе потенциальные запросы, или метрики уже выдают тебе нужную вещь, как например cpu_usage метрика — она возвращает уже долю использованного CPU).

Мониторинг баз данных

Datadog Database Monitoring поддерживает self-hosted и облачные версии Postgres, MySQL, Oracle и SQL Server. Дашборд «Метрики запроса» показывает историческую производительность нормализованных запросов. Есть возможность визуализации тенденции производительности с помощью инфраструктуры или пользовательских тегов, таких как зона доступности центра обработки данных, а также оповещения в случае аномалий.

Также Datadog поддерживает такой функционал, как:

  • определение запросов, которые занимают больше всего времени,
  • отслеживание метрик уровня базы данных, не фиксируемые APM, например обновленные/возвращенные строки,
  • фильтрация и группировка запросов по произвольным параметрам, таким как команда, пользователь, кластер и хост
  • выявление необычно медленных, но редких запросов, не фиксируемые метриками,
  • присвоение выполнения конкретного запроса пользователю, приложению или узлу клиента.

Datadog позволяет мониторить облачные версии БД, чего не может PLG (приходится отдельно использовать такие сервисы, как AWS CloudWatch или Azure Monitor).

Serverless stack monitoring

Datadog предоставляет решения для мониторинга AWS Lambda, Azure App Service, Azure Container Apps, and Google Cloud Run с такими возможностями как:

  • Оповещения в режиме реального времени о показателях памяти, тайм-аута и параллелизма, чтобы избежать ухудшения качества обслуживания конечных пользователей,
  • отслеживание вызовов микросервисов для обеспечения сквозной видимости запросов клиентов,
  • визуализация распределенных микросервисов на карте сервисов и разбивка их по таким тегам, как функция, клиент, версия и т. д.,
  • прием и анализ 100 % следов, действующих за последние 15 минут,
  • изоляция отдельного запроса клиента и переход к связанным логам и показателям для получения полной истории,
  • мониторинг аномалий, выбросов и прогнозирования на основе машинного обучения

k8s мониторинг

Этот пункт нельзя не отметить, так как Datadog интегрирован с Kubernetes, Docker, сontainerd и Istio, что позволяет:

  • собирать метрики, события и логи из компонентов кластера, подов и других объектов Kubernetes,
  • собирать метрики на уровне контейнера для детальной разбивки ресурсов (на уровне docker и containerd),
  • автоматически отслеживать узлы кластеров Kubernetes с помощью агента Datadog,
  • отслеживать развертываемые вами технологии,
  • APM и распределенная трассировка обеспечивают понимание приложений, работающих в кластерах Kubernetes, на уровне транзакций.

Datadog обеспечивает мониторинг на различных уровнях инфраструктуры благодаря лишь установленному агенту, чем не может похвастаться PLG, которому необходимо развернуть хелм чарты, устанавливать kubernetes-event-exporter и все это надо еще сконфигурировать…

Datadog: краткий обзор платформы для мониторинга

Весь мониторинг в одном месте

Datadog предлагает надежные возможности мониторинга для отслеживания производительности различных компонентов в режиме реального времени: мониторинг состояния сервера, сетевой активности, времени ответа приложений и т. д.

Сбор логов: Datadog позволяет организациям централизовать и анализировать данные логов, помогая устранять неполадки и выявлять закономерности.

Мониторинг в реальном времени: обеспечивает мгновенные обновления производительности и состояния системы.

Мониторинг API: Datadog позволяет отслеживать API, чтобы гарантировать их доступность и оперативность.

Отслеживание времени отклика: позволяет оптимизировать работу пользователей.

Синтетический мониторинг

Синтетические тесты позволяют наблюдать за тем, как работают системы и приложения, используя моделируемые запросы и действия со всего мира.

Datadog отслеживает производительность веб-страниц и API от серверной части до внешней и на различных сетевых уровнях (HTTP, SSL, DNS, WebSocket, TCP, UDP, ICMP и gRPC) контролируемым и стабильным способом, предупреждая о неисправностях.

Вычисление SLO на ключевых конечных точках и пользовательских маршрутах упрощает соблюдение целевых показателей производительности приложений и, в конечном итоге, обеспечивает стабильное качество обслуживания клиентов. Синтетические тесты можно создавать в приложении Datadog, с помощью API или Terraform.

При внедрении Datadog также следует учесть некоторые его недостатки:

Сложный процесс приема, индексирования и хранения логов
Процесс анализа логов в Datadog гораздо сложнее, чем должен быть.

Вы можете отправлять логи в Datadog, но не можете их анализировать. Если вы хотите их проанализировать, вам необходимо их проиндексировать и сохранить. Существует даже отдельная структура ценообразования для приема и хранения.

Из-за сложности и весомых затрат, некоторые организации предпочитают не хранить столько логов, сколько им может понадобиться или хотелось бы. Это приводит к затруднениям при устранении неполадок и анализе первопричин, особенно в случае постоянных проблем, которые продолжаются после истечения срока хранения.

Чтобы индексировать и анализировать логи, необходимо их извлечь из облачного хранилища объектов (например, Amazon S3) и повторно их проанализировать. Этот процесс может занять несколько часов и требует, чтобы кто-то им управлял. Из-за постоянной нехватки специалистов и избытка работы для команд DevOps и служб обеспечения надежности сайтов многие организации не могут позволить себе справиться с таким уровнем сложности.

Дорогостоящий рабочий процесс анализа логов
Что касается логов, Datadog взимает 0,10 доллара США за прием данных и от 1,06 доллара США (3 дня) до 2,50 доллара США (30 дней) за хранение. Чтобы хранить логи дольше, необходимо связываться с Datadog и договариваться об индивидуальных ценах, которые могут быстро увеличиваться по мере масштабирования компании. Хотя Datadog полезен для мониторинга и обнаружения, когда дело доходит до анализа первопричин и устранения неполадок, эти затраты могут быстро выйти из-под контроля.

Проблемы масштабирования
Сокращение сроков хранения логов может стать существенным компромиссом и привести к потере видимости более сложных проблем — от затянувшихся проблем с производительностью приложений и инфраструктуры до сложных постоянных угроз безопасности. Многие стартапы, начинающие с Datadog, обнаруживают, что по мере масштабирования они в конечном итоге тратят абсурдные суммы на их сохранение. С масштабированием Datadog становится дороже и сложнее в использовании.

Datadog сделал себе имя как инструмент мониторинга стартапов благодаря быстрой и легкой настройке, но с увеличением проекта, его становится дороже и сложнее использовать, более того, дашборды-графики, которые подкупают своей первоначально легкой настройкой, в дальнейшем могут оказаться менее гибкими и менее кастомизированными.

Тем не менее, возможность мониторинга бессерверных приложений, k8s кластеров и БД, использование ИИ при анализе метрик и логов, делает Datadog несомненно одним из самых современных и востребованных приложений SaaS.

Вам также может понравиться

Экспертиза
11 июля, 2024
PlaysDev
Лучшие книги о коде: как писать понятный и поддерживаемый код
Собрали топ книг по направлениям: Python, JavaScript, Java, C#, веб-разработка, DevOps, ML. Что почитать новичку, мидлу и сеньору? Почему читать книги – до сих пор актуально?
Читать
Экспертиза
15 августа, 2023
PlaysDev
Идеальный разработчик в понимании заказчика
В этой статье мы рассмотрим как выглядит идеальный разработчик в понимании заказчика: за какими soft-скиллами охотятся клиенты
Читать
Экспертиза
3 марта, 2024
PlaysDev
Как выучить английский дома: 5 полезных ресурсов
Подборка самых полезных ресурсов для изучения английского языка. Мы постарались собрать интересные варианты, которые подойдут каждому.
Читать
Технология
26 марта, 2024
PlaysDev
MLOps как методология: в чем отличие от DevOps и DataOps?
Рассказываем про особенности MLOps. Какие специалисты используют практики MLOps в работе и каковы обязанности Ml инженеров, в чем основные различия DevOps, DataOps и MLOps.
Читать
Экспертиза
8 ноября, 2023
PlaysDev
Софт скиллы ИТ-специалиста: что это и почему они важны?
Термин применяется для обозначения уровня профессионализма: «high skills» - делаем что-то хорошо или «low skills» - недостаточно компетентны.
Читать
Технология
18 июля, 2023
PlaysDev
Обзор нововведений Kubernetes 1.27
Обзор на Kubernetes 1.27, состоящий из 60 изменений,18 из которых alpha, 29 переведены в бета-версию и 13 признаны стабильными.
Читать
Экспертиза
14 февраля, 2024
PlaysDev
Кто такой CEO: краткий обзор C-level должностей
Какие обязанности у CEO, CMO, CTO, CIO, COO, CFO и как выглядит иерархия управленческого отдела? Разбираемся в понятиях C-level должностей и расшифровываем зарубежные аббревиатуры.
Читать
Индустрия
12 марта, 2024
Дмитрий Острога
Конференции для разработчиков: зачем участвовать и чем это полезно
Мнение CEO нашей компании о важности участия компании в митапах и айти конференциях, как это влияет на бизнес и чем может помочь. Рассказываем о преимуществах от продвижения с помощью event-мероприятий.
Читать
Индустрия
17 июля, 2024
PlaysDev
Как управлять проектом, если команда находится в разных часовых поясах?
С какими трудностями сталкиваются менеджеры международных команд? Рассказываем про особенности работы с командой в разных часовых поясах.
Читать
Технология
26 октября, 2023
PlaysDev
Что такое Agile? Краткий обзор методологий
Agile как философия бизнеса. Подробнее о том, как выбрать подходящую методологию.
Читать