OpenTelemetry 분산 시스템 트레이싱 및 메트릭스 수집 환경 구축 완벽 가이드

튜토리얼

OpenTelemetry 분산 시스템 트레이싱 및 메트릭스 수집 환경 구축 완벽 가이드

강코의 코딩 일기 2026. 4. 2. 08:08

복잡한 분산 시스템에서 문제 해결의 핵심인 OpenTelemetry를 활용하여 트레이싱과 메트릭스를 통합 수집하는 실용적인 방법을 단계별로 안내합니다. 시스템 가시성을 확보하고 성능 병목을 찾아보세요.

마이크로서비스 아키텍처는 시스템의 확장성과 유연성을 극대화했지만, 동시에 복잡성을 폭발적으로 증가시켰습니다. 수많은 서비스가 서로 통신하는 환경에서 특정 요청의 흐름을 추적하거나, 서비스 간의 성능 병목 지점을 찾아내는 것은 마치 어두운 미로 속에서 출구를 찾는 것과 같습니다. "어떤 서비스에서 지연이 발생했지?", "이 에러는 어디서 시작된 걸까?"와 같은 질문에 명확하게 답하기 어려워지면서, 개발자와 운영팀은 시스템의 건강 상태를 파악하고 문제를 해결하는 데 큰 어려움을 겪게 됩니다.

이런 상황에서 옵저버빌리티(Observability)는 현대 분산 시스템 운영에 필수적인 요소로 자리 잡았습니다. 특히 트레이싱(Tracing)과 메트릭스(Metrics)는 시스템 내부를 들여다볼 수 있는 강력한 도구입니다. 하지만 다양한 서비스와 기술 스택에서 파편화된 방식으로 데이터를 수집하고 분석하는 것은 또 다른 난관을 초래합니다. 각 서비스마다 다른 라이브러리, 다른 데이터 형식, 다른 백엔드를 사용한다면 통합된 시야를 확보하기 어렵기 때문입니다.

이 글에서는 이러한 문제에 대한 해답으로 등장한 OpenTelemetry를 활용하여, 분산 시스템의 트레이싱 및 메트릭스 수집 환경을 구축하는 실용적인 방법을 단계별로 안내합니다. OpenTelemetry의 개념부터 실제 애플리케이션에 적용하고 데이터를 시각화하는 과정까지 상세하게 다루어, 여러분의 시스템에 통합된 가시성을 확보하고 효율적인 문제 해결 역량을 갖추도록 돕겠습니다.

📑 목차

1. 왜 OpenTelemetry가 필요한가? 분산 시스템 가시성의 중요성
2. OpenTelemetry란 무엇이며 핵심 구성 요소는?
2.1. OpenTelemetry SDK (Software Development Kit)
2.2. OpenTelemetry Collector
3. OpenTelemetry Collector 설치 및 설정
3.1. 환경 설정 파일 준비 (docker-compose.yaml)
3.2. OpenTelemetry Collector 설정 파일 (otel-collector-config.yaml)
3.3. Prometheus 설정 파일 (prometheus.yaml)
3.4. Grafana 데이터소스 및 대시보드 설정
3.5. 스택 실행
4. 애플리케이션에 OpenTelemetry SDK 통합 (트레이싱 실습)
4.1. Python Flask 서비스 설정
4.2. 애플리케이션 실행 및 트레이스 확인
5. 메트릭스 수집 및 시각화
5.1. Python Flask 서비스에 메트릭스 추가
5.2. 메트릭스 수집 및 Grafana 시각화
6. OpenTelemetry를 활용한 고급 시나리오
6.1. 컨텍스트 전파 (Context Propagation)
6.2. 샘플링 (Sampling) 전략
6.3. 리소스 속성 (Resource Attributes)
6.4. 트레이스, 메트릭스, 로그 연동
7. 결론: 옵저버빌리티의 미래와 OpenTelemetry

OpenTelemetry를 활용한 분산 시스템 트레이싱 및 메트릭스 수집 환경 구축 실습 가이드 - stones, waterfalls, balance, rock balancing, stack, stone balancing, rock stacking, stone stacking, stone stack, stack of stones, stones, stones, waterfalls, balance, balance, balance, balance, balance

Image by Cao135 on Pixabay

1. 왜 OpenTelemetry가 필요한가? 분산 시스템 가시성의 중요성

분산 시스템은 여러 개의 독립적인 서비스가 네트워크를 통해 통신하며 하나의 큰 기능을 수행하는 구조입니다. 이 방식은 개발 속도, 확장성, 장애 격리 등의 장점을 제공하지만, 복잡성 증가라는 치명적인 단점을 안고 있습니다. 단일 요청이 여러 서비스를 거쳐 처리될 때, 각 서비스 내부의 상태와 통신 과정을 파악하기가 매우 어렵습니다.

예를 들어, 사용자 요청 처리 시간이 평소보다 2초가량 길어졌다고 가정해 봅시다. 이 2초의 지연이 데이터베이스 호출에서 발생한 것인지, 외부 API 통신에서 발생한 것인지, 아니면 특정 서비스의 CPU 부하 때문인지 즉시 알아내기 어렵습니다. 각 서비스의 로그를 일일이 뒤지고, 개별 모니터링 툴을 확인하는 과정은 많은 시간과 노력을 소모하며, 문제 해결 시간을 지연시킵니다. 이는 결국 사용자 경험 저하와 비즈니스 손실로 이어질 수 있습니다.

이러한 문제를 해결하기 위해 옵저버빌리티가 필요합니다. 옵저버빌리티는 시스템이 외부에서 관찰 가능한 데이터를 통해 내부 상태를 얼마나 잘 설명할 수 있는지를 나타내는 척도입니다. 핵심 요소로는 트레이싱(Tracing), 메트릭스(Metrics), 로그(Logs)가 있습니다. 이 중 OpenTelemetry는 특히 트레이싱과 메트릭스 수집의 표준화된 방식을 제공하여, 벤더 종속성 없이 시스템의 내부 동작을 심층적으로 이해할 수 있도록 돕습니다.

OpenTelemetry는 다양한 언어와 프레임워크를 아우르며, 모든 텔레메트리 데이터를 하나의 표준 형식으로 수집하고 내보낼 수 있는 기능을 제공합니다. 이는 복잡한 분산 환경에서 일관된 방식으로 성능 모니터링과 문제 진단을 수행할 수 있게 하는 핵심 기반이 됩니다.

2. OpenTelemetry란 무엇이며 핵심 구성 요소는?

OpenTelemetry(OTel)는 클라우드 네이티브 컴퓨팅 재단(CNCF) 프로젝트로, 분산 시스템의 옵저버빌리티 데이터(트레이싱, 메트릭스, 로그)를 수집, 처리, 내보내기 위한 표준화된 벤더-중립적인 프레임워크입니다. 특정 APM(Application Performance Monitoring) 솔루션에 종속되지 않고, 애플리케이션에서 생성되는 텔레메트리 데이터를 유연하게 제어할 수 있게 해주는 것이 가장 큰 특징입니다.

OpenTelemetry는 다음과 같은 핵심 구성 요소로 이루어져 있습니다.

2.1. OpenTelemetry SDK (Software Development Kit)

SDK는 애플리케이션 코드에 통합되어 트레이스, 메트릭스, 로그 데이터를 생성하고 처리하는 라이브러리입니다. 각 프로그래밍 언어(Java, Python, Go, Node.js 등)별로 제공되며, 코드 내에서 수동으로 계측(Instrumentation)하거나, 자동 계측(Auto-Instrumentation)을 통해 텔레메트리 데이터를 생성할 수 있습니다.

Span: 트레이스의 기본 단위입니다. 특정 작업(예: HTTP 요청 처리, DB 쿼리)의 시작과 끝을 나타내며, 이름, 시간, 속성(Attributes), 이벤트 등을 포함합니다.
Trace: 단일 요청의 전체 흐름을 나타내는 스팬들의 트리 구조입니다. 서비스 간의 호출 관계를 시각적으로 보여줍니다.
Metric: 시스템의 상태를 수치로 표현한 데이터입니다. 카운터(Counter), 게이지(Gauge), 히스토그램(Histogram) 등 다양한 타입이 있습니다.

2.2. OpenTelemetry Collector

Collector는 애플리케이션에서 생성된 텔레메트리 데이터를 수신하고, 변환하며, 다양한 백엔드로 내보내는 독립적인 서비스입니다. 이는 애플리케이션 코드와 백엔드 간의 중간 레이어 역할을 하여, 애플리케이션의 부담을 줄이고 데이터 처리의 유연성을 높입니다.

Receiver: 다양한 형식(OTLP, Jaeger, Prometheus 등)으로 텔레메트리 데이터를 수신합니다.
Processor: 수신된 데이터를 필터링, 샘플링, 속성 추가/변경 등 다양한 방식으로 처리합니다.
Exporter: 처리된 데이터를 다양한 백엔드(Jaeger, Prometheus, Grafana Loki, Zipkin, OTLP 등)로 내보냅니다.

OpenTelemetry는 벤더 중립성을 강조하며, 데이터 수집과 백엔드 솔루션을 분리할 수 있게 해줍니다. 다음 표는 OpenTelemetry와 기존 벤더 종속 APM 에이전트의 주요 차이점을 비교합니다.

특징	OpenTelemetry	벤더 종속 APM 에이전트
표준화	텔레메트리 데이터 수집 및 전송의 업계 표준 제공	각 벤더의 독점적인 프로토콜 및 형식 사용
벤더 종속성	벤더 중립적, 다양한 백엔드(Jaeger, Prometheus, Datadog 등) 선택 가능	특정 벤더의 백엔드 솔루션에 종속
유연성	SDK, Collector를 통해 데이터 처리 및 내보내기 고도로 유연	정의된 기능 내에서 제한적인 유연성
커뮤니티	활발한 오픈소스 커뮤니티 지원, 지속적인 발전	벤더 주도의 개발 및 지원
도입 비용	초기 설정 및 학습 곡선 존재, 장기적으로 비용 절감 효과	빠른 도입 가능, 벤더 라이선스 비용 발생

3. OpenTelemetry Collector 설치 및 설정

OpenTelemetry Collector는 애플리케이션에서 생성된 텔레메트리 데이터를 수집하고 처리하여 백엔드로 내보내는 핵심 구성 요소입니다. 여기서는 Docker Compose를 사용하여 Collector와 함께 Jaeger(트레이스 시각화), Prometheus(메트릭스 저장), Grafana(메트릭스 시각화) 환경을 구축하는 방법을 설명합니다.

3.1. 환경 설정 파일 준비 (docker-compose.yaml)

다음 docker-compose.yaml 파일을 생성하여 OpenTelemetry 스택을 구성합니다. 이 설정은 Jaeger, Prometheus, Grafana, 그리고 OpenTelemetry Collector를 포함합니다.


version: "3.8"

services:
  jaeger:
    image: jaegertracing/all-in-one:latest
    ports:
      - "6831:6831/udp" # Compact Thrift protocol for agent
      - "16686:16686" # Jaeger UI
      - "14268:14268" # Jaeger HTTP Thrift
      - "14250:14250" # Jaeger gRPC
    environment:
      - COLLECTOR_OTLP_ENABLED=true
    networks:
      - otel-network

  prometheus:
    image: prom/prometheus:latest
    volumes:
      - ./prometheus.yaml:/etc/prometheus/prometheus.yaml
    command:
      - "--config.file=/etc/prometheus/prometheus.yaml"
    ports:
      - "9090:9090" # Prometheus UI
    networks:
      - otel-network

  grafana:
    image: grafana/grafana:latest
    volumes:
      - ./grafana-datasources.yaml:/etc/grafana/provisioning/datasources/datasources.yaml
      - ./grafana-dashboards.yaml:/etc/grafana/provisioning/dashboards/dashboards.yaml
    ports:
      - "3000:3000" # Grafana UI
    environment:
      - GF_AUTH_ANONYMOUS_ENABLED=true
      - GF_AUTH_ANONYMOUS_ORG_ROLE=Admin
      - GF_SERVER_ROOT_URL=http://localhost:3000
    networks:
      - otel-network
    depends_on:
      - prometheus

  otel-collector:
    image: otel/opentelemetry-collector:latest
    command: ["--config=/etc/otel-collector-config.yaml"]
    volumes:
      - ./otel-collector-config.yaml:/etc/otel-collector-config.yaml
    ports:
      - "4317:4317" # OTLP gRPC receiver
      - "4318:4318" # OTLP HTTP receiver
      - "8889:8889" # zPages extension
      - "9464:9464" # Prometheus Exporter
    networks:
      - otel-network
    depends_on:
      - jaeger
      - prometheus

networks:
  otel-network:
    driver: bridge

3.2. OpenTelemetry Collector 설정 파일 (otel-collector-config.yaml)

Collector가 데이터를 어떻게 수신하고, 처리하며, 내보낼지 정의합니다. 아래 설정은 OTLP 데이터를 수신하여 Jaeger와 Prometheus로 내보내도록 구성합니다.


receivers:
  otlp:
    protocols:
      grpc:
      http:

processors:
  batch:
    send_batch_size: 1000
    timeout: 10s

exporters:
  jaeger:
    grpc:
      endpoint: jaeger:14250
  prometheus:
    endpoint: "0.0.0.0:9464"
  logging:
    loglevel: debug

service:
  pipelines:
    traces:
      receivers: [otlp]
      processors: [batch]
      exporters: [jaeger, logging]
    metrics:
      receivers: [otlp]
      processors: [batch]
      exporters: [prometheus, logging]

3.3. Prometheus 설정 파일 (prometheus.yaml)

Prometheus가 OpenTelemetry Collector에서 메트릭스를 스크랩하도록 설정합니다.


global:
  scrape_interval: 15s

scrape_configs:
  - job_name: "otel-collector"
    static_configs:
      - targets: ["otel-collector:9464"] # otel-collector의 Prometheus exporter 포트

3.4. Grafana 데이터소스 및 대시보드 설정

Grafana가 Prometheus에서 데이터를 가져올 수 있도록 데이터소스를 설정하고, 필요하다면 대시보드도 미리 프로비저닝할 수 있습니다.

grafana-datasources.yaml:


apiVersion: 1

datasources:
  - name: Prometheus
    type: prometheus
    url: http://prometheus:9090
    isDefault: true
    access: proxy
    editable: true

grafana-dashboards.yaml (선택 사항):


apiVersion: 1

providers:
  - name: "Default"
    orgId: 1
    folder: ""
    type: file
    disableDeletion: false
    editable: true
    options:
      path: /etc/grafana/provisioning/dashboards

실제 대시보드 파일은 이 경로에 추가해야 합니다. 여기서는 비워둡니다.

3.5. 스택 실행

모든 설정 파일이 준비되었으면, 다음 명령어를 사용하여 OpenTelemetry 스택을 실행합니다.


docker-compose up -d

이제 다음 주소로 각 서비스에 접근할 수 있습니다:

Jaeger UI: http://localhost:16686
Prometheus UI: http://localhost:9090
Grafana UI: http://localhost:3000

OpenTelemetry를 활용한 분산 시스템 트레이싱 및 메트릭스 수집 환경 구축 실습 가이드 - stones, rocks, stack, pebbles, stone stack, balanced rocks, balancing, zen, garden, meditation, bamboo, relaxation, asia, spiritual, serenity, harmony, japan, park, wellness, stone garden, zen stones, japanese garden, nature, garden, meditation, meditation, meditation, meditation, meditation, bamboo, japan, nature

Image by Schäferle on Pixabay

4. 애플리케이션에 OpenTelemetry SDK 통합 (트레이싱 실습)

이제 분산 시스템의 핵심인 애플리케이션에 OpenTelemetry SDK를 통합하여 트레이싱 데이터를 생성해 보겠습니다. 여기서는 Python Flask 애플리케이션을 예시로 들어 설명합니다. 다른 언어(Java, Go, Node.js 등)도 유사한 방식으로 SDK를 통합할 수 있습니다.

4.1. Python Flask 서비스 설정

두 개의 간단한 Flask 서비스를 생성하여 서로 호출하도록 구성합니다. service-a는 service-b를 호출하고, 각 서비스는 OpenTelemetry로 계측됩니다.

필요 라이브러리 설치:


pip install Flask opentelemetry-sdk opentelemetry-exporter-otlp opentelemetry-instrumentation-flask opentelemetry-instrumentation-requests

service-a.py:


from flask import Flask, request
from opentelemetry import trace
from opentelemetry.instrumentation.flask import FlaskInstrumentor
from opentelemetry.instrumentation.requests import RequestsInstrumentor
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import BatchSpanProcessor
from opentelemetry.exporter.otlp.proto.grpc.trace_exporter import OTLPSpanExporter
import requests
import os

app = Flask(__name__)

# OpenTelemetry Tracer Provider 설정
provider = TracerProvider()
trace.set_tracer_provider(provider)

# OTLP Exporter 설정 (Collector의 gRPC 엔드포인트)
# docker-compose.yaml에서 otel-collector의 4317 포트를 호스트에 맵핑했으므로 localhost:4317 사용
otlp_exporter = OTLPSpanExporter(endpoint="localhost:4317", insecure=True)
span_processor = BatchSpanProcessor(otlp_exporter)
provider.add_span_processor(span_processor)

# Flask 및 requests 라이브러리 자동 계측
FlaskInstrumentor().instrument_app(app)
RequestsInstrumentor().instrument()

tracer = trace.get_tracer(__name__)

@app.route("/")
def hello_service_a():
    with tracer.start_as_current_span("hello-service-a"):
        app.logger.info("Service A received request.")
        # Service B 호출
        service_b_url = os.environ.get("SERVICE_B_URL", "http://localhost:5001/b")
        try:
            response = requests.get(service_b_url)
            response.raise_for_status()
            return f"Hello from Service A! Called Service B: {response.text}"
        except requests.exceptions.RequestException as e:
            app.logger.error(f"Error calling Service B: {e}")
            return f"Error calling Service B: {e}", 500

if __name__ == "__main__":
    app.run(port=5000)

service-b.py:


from flask import Flask, request
from opentelemetry import trace
from opentelemetry.instrumentation.flask import FlaskInstrumentor
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import BatchSpanProcessor
from opentelemetry.exporter.otlp.proto.grpc.trace_exporter import OTLPSpanExporter
import os
import time

app = Flask(__name__)

# OpenTelemetry Tracer Provider 설정
provider = TracerProvider()
trace.set_tracer_provider(provider)

# OTLP Exporter 설정
otlp_exporter = OTLPSpanExporter(endpoint="localhost:4317", insecure=True)
span_processor = BatchSpanProcessor(otlp_exporter)
provider.add_span_processor(span_processor)

# Flask 라이브러리 자동 계측
FlaskInstrumentor().instrument_app(app)

tracer = trace.get_tracer(__name__)

@app.route("/b")
def hello_service_b():
    with tracer.start_as_current_span("hello-service-b"):
        app.logger.info("Service B received request.")
        # 인위적인 지연 추가
        time.sleep(0.1)
        return "Hello from Service B!"

if __name__ == "__main__":
    app.run(port=5001)

각 서비스는 localhost:4317 (OpenTelemetry Collector)로 트레이스 데이터를 내보내도록 설정되었습니다. FlaskInstrumentor와 RequestsInstrumentor는 각각 Flask 애플리케이션과 requests 라이브러리 호출을 자동으로 계측하여 스팬을 생성합니다. tracer.start_as_current_span을 사용하여 특정 코드 블록에 대한 수동 스팬을 추가할 수도 있습니다.

4.2. 애플리케이션 실행 및 트레이스 확인

두 개의 터미널에서 각각 service-a.py와 service-b.py를 실행합니다.


# 터미널 1
python service-a.py

# 터미널 2
python service-b.py

이제 웹 브라우저나 curl을 사용하여 service-a에 요청을 보냅니다:


curl http://localhost:5000/

요청을 보낸 후, Jaeger UI (http://localhost:16686)에 접속하여 "service-a"를 검색합니다. 그러면 service-a에서 시작하여 service-b로 이어진 트레이스를 확인할 수 있습니다. 각 스팬의 지속 시간, 속성, 부모-자식 관계 등을 통해 요청의 전체 흐름과 각 단계의 성능을 시각적으로 파악할 수 있습니다.

5. 메트릭스 수집 및 시각화

트레이싱과 함께 메트릭스는 시스템의 전반적인 상태와 성능 추이를 파악하는 데 필수적입니다. OpenTelemetry를 사용하여 애플리케이션에서 메트릭스를 생성하고, 이를 Prometheus를 통해 수집한 후 Grafana에서 시각화하는 방법을 살펴보겠습니다. 여기서는 Python Flask 서비스에 간단한 메트릭스를 추가해봅니다.

5.1. Python Flask 서비스에 메트릭스 추가

service-a.py에 메트릭스를 추가하여 요청 처리 횟수와 처리 시간을 측정해 보겠습니다.

필요 라이브러리 추가 설치:


pip install opentelemetry-sdk opentelemetry-exporter-otlp opentelemetry-api

service-a.py (메트릭스 추가 부분):


from flask import Flask, request
from opentelemetry import trace, metrics
from opentelemetry.instrumentation.flask import FlaskInstrumentor
from opentelemetry.instrumentation.requests import RequestsInstrumentor
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import BatchSpanProcessor
from opentelemetry.exporter.otlp.proto.grpc.trace_exporter import OTLPSpanExporter
from opentelemetry.sdk.metrics import MeterProvider
from opentelemetry.sdk.metrics.export import PeriodicExportingMetricReader
from opentelemetry.exporter.otlp.proto.grpc.metric_exporter import OTLPMetricExporter
import requests
import os
import time

app = Flask(__name__)

# --- OpenTelemetry 트레이싱 설정 (이전과 동일) ---
trace_provider = TracerProvider()
trace.set_tracer_provider(trace_provider)
otlp_trace_exporter = OTLPSpanExporter(endpoint="localhost:4317", insecure=True)
trace_processor = BatchSpanProcessor(otlp_trace_exporter)
trace_provider.add_span_processor(trace_processor)
FlaskInstrumentor().instrument_app(app)
RequestsInstrumentor().instrument()
tracer = trace.get_tracer(__name__)

# --- OpenTelemetry 메트릭스 설정 ---
metric_reader = PeriodicExportingMetricReader(
    OTLPMetricExporter(endpoint="localhost:4317", insecure=True)
)
metric_provider = MeterProvider(metric_readers=[metric_reader])
metrics.set_meter_provider(metric_provider)
meter = metrics.get_meter(__name__)

# 커스텀 메트릭 정의
requests_counter = meter.create_counter(
    name="app_requests_total",
    description="Total number of requests to the application",
    unit="1",
)
request_latency_histogram = meter.create_histogram(
    name="app_request_latency_seconds",
    description="Latency of application requests",
    unit="s",
)

@app.route("/")
def hello_service_a():
    start_time = time.time()
    with tracer.start_as_current_span("hello-service-a"):
        app.logger.info("Service A received request.")
        requests_counter.add(1, {"route": "/"}) # 요청 카운터 증가

        service_b_url = os.environ.get("SERVICE_B_URL", "http://localhost:5001/b")
        try:
            response = requests.get(service_b_url)
            response.raise_for_status()
            return_message = f"Hello from Service A! Called Service B: {response.text}"
            status_code = 200
        except requests.exceptions.RequestException as e:
            app.logger.error(f"Error calling Service B: {e}")
            return_message = f"Error calling Service B: {e}"
            status_code = 500
        finally:
            latency = time.time() - start_time
            request_latency_histogram.record(latency, {"route": "/", "status_code": status_code}) # 지연 시간 기록
            # FlaskInstrumentor가 응답을 처리하기 전에 이 코드가 실행될 수 있으므로,
            # 실제 Flask 응답 직전에 지연을 기록하는 것이 더 정확할 수 있습니다.
            # 여기서는 예시를 위해 간단히 처리합니다.
    return return_message, status_code

if __name__ == "__main__":
    app.run(port=5000)

MeterProvider를 설정하고 OTLPMetricExporter를 통해 Collector로 메트릭스를 내보냅니다. create_counter로 요청 수를 세고, create_histogram으로 요청 처리 시간을 측정합니다. add()와 record() 메서드를 사용하여 메트릭스 값을 업데이트할 때, 추가적인 속성(Attributes)을 함께 전달하여 데이터를 더욱 풍부하게 만들 수 있습니다.

5.2. 메트릭스 수집 및 Grafana 시각화

service-a.py를 재실행하고, http://localhost:5000/에 여러 번 요청을 보냅니다.


python service-a.py
# (다른 터미널에서)
curl http://localhost:5000/
curl http://localhost:5000/
curl http://localhost:5000/

이제 Prometheus UI (http://localhost:9090)에 접속하여 app_requests_total 또는 app_request_latency_seconds_bucket과 같은 메트릭스를 검색해봅니다. OpenTelemetry Collector를 통해 수집된 메트릭스들이 Prometheus에 저장된 것을 확인할 수 있습니다.

다음으로 Grafana UI (http://localhost:3000)에 접속합니다. 좌측 메뉴에서 "Explore"를 선택하고 데이터소스로 "Prometheus"를 선택합니다. PromQL 쿼리를 사용하여 메트릭스를 시각화합니다:

총 요청 수: sum(app_requests_total)
초당 요청 수 (RPS): sum(rate(app_requests_total[1m]))
평균 요청 지연 시간: histogram_quantile(0.99, sum by (le) (rate(app_request_latency_seconds_bucket[5m]))) (99th percentile)

이러한 쿼리를 통해 애플리케이션의 실시간 성능 지표를 대시보드 형태로 구성하고, 시스템의 병목 지점이나 이상 징후를 빠르게 감지할 수 있습니다.

OpenTelemetry를 활용한 분산 시스템 트레이싱 및 메트릭스 수집 환경 구축 실습 가이드 - apple, books, still life, fruit, food, red apple, stack, stack of books, classroom, apple, apple, apple, apple, apple, books, food

Image by jarmoluk on Pixabay

6. OpenTelemetry를 활용한 고급 시나리오

기본적인 트레이싱과 메트릭스 수집 외에도, OpenTelemetry는 분산 시스템의 가시성을 더욱 높일 수 있는 다양한 고급 기능을 제공합니다.

6.1. 컨텍스트 전파 (Context Propagation)

분산 트레이싱의 핵심은 단일 요청이 여러 서비스를 거칠 때, 모든 스팬이 동일한 트레이스에 속하도록 연결하는 것입니다. 이를 위해 컨텍스트 전파(Context Propagation)가 사용됩니다. OpenTelemetry는 W3C Trace Context 표준을 기본으로 사용하여 HTTP 헤더 등을 통해 트레이스 컨텍스트(trace ID, span ID)를 다음 서비스로 전달합니다.

예시 코드에서 RequestsInstrumentor().instrument()와 같은 자동 계측 라이브러리는 이 컨텍스트 전파를 자동으로 처리해 줍니다. 수동으로 HTTP 클라이언트를 구현하는 경우, TextMapPropagator를 사용하여 컨텍스트를 헤더에 주입하고 추출해야 합니다.

6.2. 샘플링 (Sampling) 전략

모든 요청에 대한 트레이스 데이터를 수집하는 것은 데이터 볼륨과 처리 비용 측면에서 비효율적일 수 있습니다. 샘플링(Sampling)은 특정 기준에 따라 트레이스 데이터를 선별적으로 수집하는 전략입니다.

Head-based sampling: 트레이스가 시작될 때 샘플링 여부를 결정합니다. 예를 들어, 전체 요청 중 1%만 수집하거나, 특정 HTTP 경로에 대한 요청만 수집할 수 있습니다.
Tail-based sampling: 트레이스의 모든 스팬이 완료된 후 샘플링 여부를 결정합니다. 이는 에러가 발생한 트레이스나 특정 임계값을 초과하는 지연 트레이스를 항상 수집하는 데 유용하지만, Collector에서 모든 스팬을 버퍼링해야 하므로 더 많은 리소스가 필요합니다.

OpenTelemetry SDK에서 샘플러를 설정하거나, Collector의 프로세서 단계에서 샘플링을 구성할 수 있습니다.


# Python SDK에서 샘플링 설정 예시 (Head-based)
from opentelemetry.sdk.trace.sampling import TraceIdRatioBased

sampler = TraceIdRatioBased(0.1) # 10%의 요청만 샘플링
provider = TracerProvider(sampler=sampler)

6.3. 리소스 속성 (Resource Attributes)

리소스 속성(Resource Attributes)은 애플리케이션이 실행되는 환경(호스트명, 클라우드 공급자, 서비스 버전 등)에 대한 메타데이터를 제공합니다. 이는 텔레메트리 데이터를 필터링하고 그룹화하는 데 매우 중요합니다.


# Python SDK에서 리소스 속성 추가 예시
from opentelemetry.sdk.resources import Resource

resource = Resource.create({
    "service.name": "my-python-app",
    "service.version": "1.0.0",
    "host.name": "my-server-1",
    "deployment.environment": "production"
})
provider = TracerProvider(resource=resource)

Collector에서도 프로세서를 통해 리소스 속성을 추가하거나 변경할 수 있어, 일관된 메타데이터 관리가 가능합니다.

6.4. 트레이스, 메트릭스, 로그 연동

진정한 옵저버빌리티는 세 가지 기둥(트레이스, 메트릭스, 로그)이 서로 연결될 때 완성됩니다. OpenTelemetry는 이러한 연결을 위한 메커니즘을 제공합니다.

Logs In Context: 로그 메시지에 현재 트레이스 ID와 스팬 ID를 포함시켜, 특정 로그가 발생한 시점의 트레이스 흐름을 쉽게 찾아볼 수 있도록 합니다. OpenTelemetry 로깅 SDK를 사용하거나, 로그 포맷터에서 이 정보를 포함시킬 수 있습니다.
Metrics-to-Traces: 메트릭스 시계열 그래프에서 특정 지점에 스파이크가 발생했을 때, 해당 시점의 관련 트레이스를 드릴다운하여 문제의 근본 원인을 파악하는 시나리오입니다. Grafana와 같은 대시보드 툴에서 PromQL 쿼리에 따라 동적으로 Jaeger 링크를 생성하는 방식으로 구현할 수 있습니다.

이러한 연동은 분산 시스템에서 발생하는 복잡한 문제를 신속하게 진단하고 해결하는 데 결정적인 역할을 합니다.

7. 결론: 옵저버빌리티의 미래와 OpenTelemetry

분산 시스템의 복잡성은 앞으로도 계속 증가할 것이며, 이에 따라 시스템의 내부를 투명하게 들여다볼 수 있는 옵저버빌리티의 중요성 또한 커질 것입니다. OpenTelemetry는 이러한 요구사항에 대한 업계 표준 솔루션으로 자리매김하고 있으며, 벤더 종속성 없이 유연하게 텔레메트리 데이터를 수집하고 활용할 수 있는 강력한 기반을 제공합니다.

이 가이드에서 우리는 OpenTelemetry Collector를 활용하여 Jaeger, Prometheus, Grafana로 구성된 모니터링 스택을 구축하고, Python Flask 애플리케이션에 트레이싱과 메트릭스를 통합하는 실습 과정을 거쳤습니다. 이를 통해 단일 요청의 전체 흐름을 추적하고, 시스템의 핵심 성능 지표를 시각적으로 파악하는 방법을 익혔습니다.

OpenTelemetry는 단순한 데이터 수집 도구를 넘어, 시스템의 동작 방식을 이해하고 성능 병목을 찾아내며, 궁극적으로 더 안정적이고 효율적인 서비스를 구축하는 데 필수적인 역할을 합니다. 여러분의 시스템에 OpenTelemetry를 도입함으로써, 문제 해결 시간을 단축하고 개발 및 운영 효율성을 극대화할 수 있을 것입니다.

이 가이드를 통해 OpenTelemetry의 강력함을 직접 경험하고, 여러분의 분산 시스템에 통합된 가시성을 확보하는 데 도움이 되기를 바랍니다. 궁금한 점이나 더 깊이 논의하고 싶은 내용이 있다면 댓글로 남겨주세요! 함께 더 나은 옵저버빌리티 환경을 만들어나가요.

📌 함께 읽으면 좋은 글

[튜토리얼] Node.js Socket.IO 실시간 웹 애플리케이션 구축 가이드: 웹소켓 통신부터 확장 전략까지
[튜토리얼] Playwright E2E 테스트 환경 구축: CI/CD 연동 및 리포트 자동화 실전 가이드
[보안] 소프트웨어 공급망 보안 강화: 개발 라이브러리 취약점 관리부터 SBOM까지

이 글이 도움이 되셨다면 공감(♥)과 댓글로 응원해 주세요!
궁금한 점이나 다루었으면 하는 주제가 있다면 댓글로 남겨주세요.

'튜토리얼' 카테고리의 다른 글

Playwright로 웹 애플리케이션 E2E 테스트 자동화, 실전 가이드 (0)	2026.04.03
Apollo Server와 GraphQL 백엔드 API, 스키마부터 데이터 연동까지 완벽 실습 가이드 (0)	2026.04.02
Node.js Socket.IO 실시간 웹 애플리케이션 구축 가이드: 웹소켓 통신부터 확장 전략까지 (0)	2026.04.01
Playwright E2E 테스트 환경 구축: CI/CD 연동 및 리포트 자동화 실전 가이드 (0)	2026.03.31
Next.js Prisma 풀스택 웹 서비스 개발 환경 구축: 타입스크립트 API 서버와 데이터베이스 연동 완벽 가이드 (0)	2026.03.31

현재글OpenTelemetry 분산 시스템 트레이싱 및 메트릭스 수집 환경 구축 완벽 가이드

강코의 코딩 일기

[ Git ] https://github.com/Grren99 기억 해야 하는 것들이 너무 많다.

개발자, 개발생산성, 터미널, 클린코드, 자동화, ci/cd, 백엔드, 생산성, 개발도구, Ai, 머신러닝, 유지보수성, Devsecops, DevOps, llm, 개발 도구, 프론트엔드, cli, 개발 생산성, 웹개발,

Today :
Yesterday :

강코의 코딩 일기