❓
물음표살인마 블로그
  • README
  • ALGORITHM
    • Sieve of Eratosthenes
    • Round Up
    • Binary Search
    • Union Find
    • Sorting Array
    • Lcm, Gcd
  • TechTalk Review
    • Template
  • Books
    • CS Note for Interview
      • Ch1. Design Pattern & Programming paradigm
        • 1.1.1 Singleton Pattern
        • 1.1.2 Factory Pattern
        • 1.1.4 Observer Pattern
        • 1.1.5 Proxty Pattern & Proxy Server
        • 1.1.8 Model-View-Controller Pattern
        • 1.2.1 Declarative and Functional Programming
        • 1.2.2 Object Oriented Programming
      • Ch2. Network
        • 2.2.1 TCP/IP Four-Layer Model
        • 2.2.1-1 TCP 3, 4 way handshake
        • 2.3 Network Devices L4, L7
        • 2.4.1 ARP, RARP
        • 2.4.2 Hop By Hop Communication
        • 2.4.3 IP Addressing Scheme
      • Ch3. Operating System
        • 3.1.1 Roles and Structure of Operating Systems
        • 3.2.1 Memory Hierarchy
        • 3.2.2 Memory Management
        • 3.3.1 Processes and Compilation Process
        • 3.3.3 Memory Structure of a Process
        • 3.3.4 Process Control Block (PCB)
        • 3.3.5 Multiprocessing
        • 3.3.6 Threads and Multithreading
        • 3.3.7 Shared Resources and Critical Sections
        • 3.3.8 Deadlock
        • 3.4 CPU Scheduling Algorithm
      • Ch4. Database
        • 4.1 Database Basic
        • 4.2 Normalization
        • 4.3 Transaction and Integrity
        • 4.4 Types of Databases
        • 4.5 Indexes
        • 4.6 Types of Joins
        • 4.7 Principles of Joins
      • Ch5. Data Structure
    • Learning the Basics of Large-Scale System Design through Virtual Interview Cases
      • 1. Scalability based on user counts(1/2)
      • 1. Scalability based on user counts(2/2)
      • 2.Back-of-the-envelope estimation
      • 3. Strategies for System Design Interviews
      • 4. Rate Limiter
      • 5. Consistent Hashing
      • 6. Key-Value System Design
      • 7. Designing a Unique ID Generator for Distributed Systems
      • 8. Designing a URL Shortener
      • 9. Designing a Web Crawler
      • 10. Notification System Design
      • 11. Designing a News Feed System
      • 12. Chat System Design
      • 13. AutoComplete
      • 14. Design YouTube
      • 15. Design Google Drive
      • Loadbalancer Algorithms
      • Cache tier
      • CDN, Content Delivery Network
      • Stateless Web tier
    • Computer System A programmer's perspective
    • Effective Java
      • Item 1. Consider Static Factory Methods Instead of Constructors
      • Item 2. Consider a Builder When Faced with Many Constructor Parameters
      • Item 3. Ensure Singleton with Private Constructor or Enum Type
      • Item 4. Enforce Noninstantiability with a Private Constructor
      • Item 5. Prefer Dependency Injection to Hardwiring Resources
      • Item 6. Avoid Creating Unnecessary Objects
      • Item 7. Eliminate Obsolete Object References
      • Item 8. Avoid Finalizers and Cleaners
      • Item 9.Prefer try-with-resources to try-finally
      • Item10. Adhering to General Rules When Overriding equals
        • Handling Transitivity Issues
        • Ensuring Consistency
      • Item11. Override hashCode When You Override equals
      • Item12. Always Override toString
        • Always Override toString
      • Item13. Override Clone Judiciously
      • Item14. Consider Implementing Comparable
      • Item15. Minimize the Accessibility of Classes and Members
      • Item16. Accessor Methods Over Public Fields
      • Item17. Minimize Mutability
      • Item18. Composition over inherentance
      • Item19. Design and Document for Inheritance, or Else Prohibit It
      • Item20. Prefer Interfaces to Abstract Classes
      • Item21. Design Interfaces with Implementations in Mind
      • Item22. Use Interfaces Only to define Types
      • Item23. Prefer Class Hierarchies to Tagged Classes
      • Item24. Favor Static Member Classes Over Non-Static
      • Item28. Use Lists Instead of Arrays
      • Item29. Prefer Generic Types
      • Item30. Favor Generic Methods
    • Head First Design Patterns
      • Ch1. Strategy Pattern
      • Ch2. Observer Pattern
        • Ver1. Ch2. Observer Pattern
      • Ch3. Decorator Pattern
        • Ch3. Decorator Pattern
      • Ch4. Factory Pattern
      • Ch5. Singleton Pattern
      • Ch6. Command Pattern
      • Ch7. Adapter and Facade Pattern
      • Ch8. Template Method Pattern
    • Digging Deep into JVM
      • Chapter 2. Java Memory Area & Memory Overflow
      • Chapter 3. Garbage Collector & Memory Allocation Strategy (1/2)
      • Chapter 3. Garbage Collector & Memory Allocation Strategy (2/2)
      • Chapter 5. Optimization Practice
      • Chapter 6. Class file structure
      • Chapter 8. Bytecode Executor Engine (1/2)
  • Interview Practices
    • Restful API Practices
      • Url Shortener API
      • Event Ticket Reservation API
      • Course Management API
      • Search posts by tags API
      • Online Code platform API
      • Simple Task Management API
      • Event Participation API
      • Review System API
      • Car management API
      • Online Library
    • Tech Review
      • if(kakao)
        • Kakao Account Cache Migration / if(kakao)2022
        • Improving the Anomaly Detection System for KakaoTalk Messaging Metrics / if(kakao) 2022
        • Standardizing API Case Handling Without Redeployment / if(kakaoAI)2024
        • JVM warm up / if(kakao)2022
    • Naver Computer Science
      • Process & Thread
      • TCP & UDP
      • Spring & Servlet
      • Filter & Interceptor & AOP
      • Equals() & ==
      • Dependency Injection
      • Object Oriented Programming
  • F-Lab
    • Week1
      • Client & Server
      • HTTP
      • TCP/UDP
      • REST API
      • Questions
        • Object Oriented Programming
        • HTTP
        • Process & Thread
        • Data Structure
    • Week2
      • OSI 7 layer
      • Web vs WAS
    • Week3
      • RDB vs NoSQL
      • RDB Index
      • Cache
      • Redis
      • Messaging Queue
    • Week4
      • Project - Ecommerce
    • Week5
      • ERD - 1
    • Week6
      • Ecommerce - 2
      • Role
      • pw hashing && Salt
      • CreatedAt, ModifiedAt
      • JWT
      • Copy of ERD - 1
    • Week7
      • Vault (HashiCorp Vault)
    • Week 8
      • Api Endpoints
    • Week10
      • Product Create Workflow
  • TOY Project
    • CodeMentor
      • Implementation of Kafka
      • Project Improvement (Architectural Enhancements)
      • Communication between servers in msa
  • JAVA
    • MESI protocol in CAS
    • CAS (Compare and Set)
    • BlockingQueue
    • Producer & Consumer
    • Synchronized && ReentrantLock
    • Memory Visibility
    • Checked vs Unchecked Exception
    • Thread
    • Batch delete instead of Cascade
    • Java Questions
      • Week 1(1/2) - Basic Java
      • Week 1(2/2) - OOP
      • Week 2(1/2) - String, Exception, Generic
      • Week2(2/2) Lambda, Stream, Annotation, Reflection
      • Week3(1/2) Collections
      • Week3(2/2) Threads
      • Week4 Java Concurrency Programming
      • Week5 JVM & GC
    • Java 101
      • JVM Structure
      • Java Compiles and Execution Method
      • Override, Overload
      • Interface vs Abstract Class
      • Primitive vs Object Type
      • Identity and equality
      • String, StringBuilder, StringBuffer
      • Checked Exceptions and Unchecked Exceptions
      • Java 8 methods
      • Try-with-reources
      • Strong Coupling and Loose Coupling
      • Serialization and Deserialization
      • Concurrency Programming in Java
      • Mutable vs Immutable
      • JDK vs JRE
  • SPRING
    • DIP. Dependency Inversion Principal
    • Ioc container, di practice
    • @Transactional
    • Proxy Pattern
    • Strategy Pattern
    • Template Method Pattern
    • using profile name as variable
    • Spring Questions
      • Spring Framework
      • Spring MVC & Web Request
      • AOP (Aspect-Oriented Programming)
      • Spring Boot
      • ORM & Data Access
      • Security
      • ETC
  • DATABASE
    • Enhancing Query Performance & Stability - User list
    • Ensuring Data Consistency, Atomicity and UX Optimization (feat.Firebase)
    • Redis: Remote Dictionary Server
    • Database Questions
      • Week1 DBMS, RDBMS basics
      • Week2 SQL
      • Week3 Index
      • Week4 Anomaly, Functional Dependency, Normalization
      • Week5 DB Transaction, Recovery
    • Normalization
      • 1st Normal Form
      • 2nd Normal Form
      • 3rd Normal Form
  • NETWORK
    • HTTP & TCP head of line blocking
    • HTTP 0.9-3.0
    • Blocking, NonBlocking and Sync, Async
    • Network Questions
      • Week1 Computer Network Basic
      • Week2(1/3) Application Layer Protocol - HTTP
      • Week2(2/3) Application Layer Protocol - HTTPS
      • Week2(3/3) Application Layer Protocol - DNS
      • Week3 Application Layer
      • Week4 Transport Layer - UDP, TCP
      • Week5 Network Layer - IP Protocol
    • Network 101
      • https://www.google.com
      • TCP vs UDP
      • Http vs Https
      • TLS Handshake 1.2
      • HTTP Method
      • CORS & SOP
      • Web Server Software
  • OS
    • Operating System Questions
      • Week1 OS & How Computer Systems Work
      • Week2(1/2) Process
      • Week2(2/2) Thread
      • Week3 CPU Scheduling
      • Week4 Process Synchronize
      • Week5 Virtual Memory
    • Operating System 101
      • Operating system
        • The role of the operating system
        • The composition of the operating system.
      • Process
        • In Linux, are all processes except the initial process child processes?
        • Zombie process, orphan process
        • (Linux) Daemon process
        • Process address space
        • Where are uninitialized variables stored?
        • Determination of the size of the Stack and Heap
        • Access speed of Stack vs Heap
        • Reason for memory space partitioning
        • Process of compiling a process
        • sudo kill -9 $CURRENT_PID
      • Thread
        • Composition of a thread's address space
      • Process vs Thread
        • Creation of processes and threads in Linux
      • Multiprocessing
        • Web Browser
        • Implementation of multiprocessing
        • Application areas of multiprocessing
      • Multithreading
        • Application areas of multithreading
      • Interrupt
        • HW / SW Interrupt
        • Method of handling interrupts
        • Occurrence of two or more interrupts simultaneously
      • Polling
      • Dual Mode
        • Reason for distinguishing between user mode and kernel mode
      • System call
        • Differentiation between system calls
        • Types of system calls
        • Execution process of a system call
      • Process Control Block (PCB)
        • PCB의 구조
        • 쓰레드는 PCB를 갖고 있을까?
        • 프로세스 메모리 구조
      • Context switching
        • Timing of context switching
        • Registers saved during context switching
        • Context switching in processes
        • Context switching in threads
        • Difference between context switching in processes and threads
        • Information of the current process during context switching
      • Interprocess Communication (IPC)
        • Cases where IPC is used
        • Process address space in IPC Shared Memory technique
        • Types of IPC
  • COMPUTER SCIENCE
    • Computer Architecture 101
      • 3 components of a computer
      • RAM vs ROM
      • CPU vs GPU
      • SIMD
      • Two's complement
      • Harvard Architecture vs. von Neumann Architecture
      • The structure of a CPU.
      • Instruction cycle (CPU operation method)
      • Instruction pipelining
      • Bus
      • Memory area
      • Memory hierarchy structure
        • Reason for using memory hierarchy structure
      • Cache memory
      • L1, L2, L3 Cache
      • Locality of reference (cache)
      • Fixed-point vs Floating-point
        • epresentation of infinity and NaN (Not a Number) in floating-point
      • RISC vs CISC
      • Hamming code
      • Compiler
      • Linking
      • Compiler vs Interpreter
      • Mutex vs Semaphore
      • 32bit CPU and 64bit CPU
      • Local vs Static Variable
      • Page
  • Programming Paradigm
    • Declarative vs Imperative
  • JPA, QueryDsl
    • why fetchResults() is deprecated
  • PYTHON
    • Icecream
  • FASTAPI
    • Template Page
  • LINUX
    • Template Page
  • DATA STRUCTURE
    • Counting Sort
    • Array vs Linked List
  • GIT, Github
    • git clone, invalid path error
  • INFRA
    • Template Page
  • AWS
    • Server Log Archive Pipeline
    • Image Processing using Lambda
  • DOCKER
    • Docker and VM
    • Python Executable Environment
    • Docker commands
  • docker-compose
    • Kafka, Multi Broker
  • KUBERNATES
    • !Encountered Errors
      • my-sql restarts
      • kafka producer: disconnected
    • Kubernetes Components
    • Helm
      • Helm commands
    • Pod network
    • Service network
      • deployment.yaml
      • services.yaml
    • Service type
      • Cluster IP
      • NodePort
    • service-name-headless?
    • kube-proxy
  • GraphQL
    • Template Page
  • WEB
    • Template Page
  • Reviews
    • Graphic Intern Review
    • Kakao Brain Pathfinder Review
    • JSCODE 자바 1기 Review
  • 😁Dev Jokes
    • Image
      • Plot twist
      • Priorities
      • SQL join guide
      • Google is generous
      • Genie dislikes cloud
      • buggy bugs
      • last day of unpaid internship
      • what if clients know how to inspect
      • its just game
      • how i wrote my achievement on resume
      • self explanatory
      • chr(sum(range(ord(min(str(not))))))
Powered by GitBook
On this page
  1. Interview Practices
  2. Tech Review
  3. if(kakao)

Improving the Anomaly Detection System for KakaoTalk Messaging Metrics / if(kakao) 2022

카카오톡 메시징 지표 이상감지 시스템의 개선사례 / if(kakao) 2022

PreviousKakao Account Cache Migration / if(kakao)2022NextStandardizing API Case Handling Without Redeployment / if(kakaoAI)2024

Last updated 19 days ago

https://www.youtube.com/watch?v=j5xsDv35Nd4&ab_channel=kakaotech

Image

“이상이 있으면 더 빨리 알려주면 좋지 않을까?” 이렇게 문제가 발생했을때, 빠르게 인지하고, 원인을 파악하고, 재발방지할 수 있도록 구조를 개선려고함.

케이스:

문제: 말풍선 좋아요가 안됌!

예상 원인 파악:

  • HBase문제?

  • Grafana에서는?

  • API 호출량은?

  • K8s ingress?

  • 타임아웃이 늘었다

  • 최근 배포 확인 (커밋 로그, 릴리즈)

  • 네트워크 장비, 작업 여부

  • DB인가?

원인: 비즈니스 변경으로 인해 api호출이 많아졌고, mongoDB 조회 호출이 증가해, 응답이 느려져서 발생

해결: 쿼리가 몰리지 않도록 수정

재발방지: 방어 코드, 테스트 코드, 인프라 구축(지표 알림, 관리 기능)

일평균 수발신량: 백억건

트래픽: 5만 TPS

일평균 로그 용량: 6TB

  • 로그 정보

    • 애플리케이션 API 호출 관련 내용: API 호출 수, 에러 응답 수, 응답시간

    • 애플리케이션 에러 관련 내용: 종류별 에러 수

    • Memchached, Redis, DB, kafka, JVM: Status 지표

    • k8s: ingress, worker node 시스템 지표

    • System: CPU, 메모리, 디스크, 네트워크 등 지표

효율적으로 관리하는 방법 (ELK 스택 구축)

  • Kafka: 안정적 메세지 수집

  • Grafana: 지표 시각화

  • 이상 감지 알림 시스템은 자체 구축

  • 지표의 수: API 종류 * 호출양 * 서버 수

수천 개의 지표 중에서 비정상정 패턴 탐지 방법 (전통적인 방법)

  • 임계치 설정 방법

    • 서비스 이해도와 경험적인 임계치 선정 필요

    • 기능 변경으로 임계치 변경이 필요한 경우 개입 필요

    • 지표가 줄어든 경우 탐지가 어려움

  • 과거 비교 방법

    • 트래픽이 비슷한 지난날의 지표와 비교하여 문제 탐색

    • 비교하는 날에 장애가 발생했다면, 지표가 장애로 오염되어 판별하기 어려움

“지표가 너무 많다” → “수 천 개의 지표에서 문제 발생시 알림을 받아보자 (aka 찾아오는 알림): 문제를 찾아가는 것이 아닌, 문제가 알림으로 찾아오도록

개선 방안

  1. 시계열 모델로 이상 탐지

  • 이상 탐지 모델 사용

  • 텍스트나 이미지 학습에 비해 쉬움 → GPU 없이 가능

  • 하둡과 같은 별도의 인프라 구축 불필요

  • “시간:값” 데이터이기 때문에 전처리 작업도 시계열 데이터라 단순

  • 이상탐지: 데이터 세트의 예상치 못한 변경 또는 예상 패턴에서 편차를 찾아냄

    • Point Anomlay: 정상 데이터 분포로부터 벗어난 데이터

    • Contextual Anomaly: 데이터 흐름이 정상이 아닌 데이터

    • Group Anomaly: 비정상 구간

시계열 데이터 메시징 지표 특징

  • 추세성 (데이터가 우상향, 하향)

  • 계절성, 순환성, 불규칙성

  • 메시징 지표는 평일과 주말에 변화가 있는 계절성을 갖는 지표

시계열 데이터 분석 학습 모델 && 알고리즘

  • ARMIA: 방식이 단순하고, 이상치를 찾는데 효과적

  • Prophet: 직관적이며 사용이 쉽고, 속도가 빠름. Seasonality, holiday 지원

  • RNNModel: 딥러닝 LSTM, GRU 사용 예측 기반 모델

  • Informer: transformer 기반으로 단점을 해결한 모델, AAAI에서 best paper 선정

  • AutoEncoder: 재구성 기반, 이미지간 차이로 이상 탐지

Prophet을 먼저 구축하고, 추후에 다른 모델들도 함께 사용할 수 있도록 구축

자동 학습 시스템

  • grafana에서 데이터를 접근할때 가로채서, 데이터를 자동 수집, 학습하고 결과를 출력하도록 구성.

  • grafana에서 그래프의 데이터를 선택할때, 어떤 모델로, 어떻게 학습시킬지, 커스텀 쿼리를 놓음.

  • grafana 그래프에서 outlier가 보여지도록 하였고, 이 구간을 넘어가면 알려주도록 함.

  • outlier 모델이 최적화가 되지 않아서 정상 지표들이 outlier 범위를 넘어갔고, 모델을 개선하기 위한 평가 방법 설정.

학습 모델 평가 방법

  • 오차를 기반으로 오차 수 자체가 많은지, 정상 값에서 오차가 얼마나 벌어졌는지를 평가하고 서비스에 맞게 적절하게 평가 방법에 우선순위를 두고 사용하기

학습 모델 교차 검증

  • 시계열 데이터에서 initial 기간을 학습 → horizon 기간을 예측 평가

  • period / 2 만큼 순차적으로 이동하면서 평가 반복

왜 순차적으로 이동하면서 평가를 반복하는가?

  • 테스트 데이터를 구간별로 여러개 두어서, 학습 모델을 점차적으로 수정.

  • 학습 모델은 새로 만드는 것보단 기존 학습 데이터를 수정하는데 더 효율적.(기존 학습데이터는 더 많은 학습데이터로 만들어졌기때문)

Prophet Parameters

  • 파라미터의 조합을 통해 교차 검증을 하면서 모델 성능을 향상 시킬 수 있음

구현 예정

  • 최적화된 모델을 찾아서 교체: 모델 파라미터들을 자동으로 조합하여 교차 검증을 지속적으로 함

  • 어노테이션 사용: grafana에서 학습에 제외시킬 부분 / 데이터 라벨링이 필요한 경우 바로 피드백을 전달

결과: 기존 방식과 비교

  • 모든 지표에서 이상 탐지를 미리 알 수 있는것을 기대

  • 지표에 대한 추세를 확인해 임계치를 넘지 않는, 이상 지표라도 미리 대응

느낀점

  • 기발하게 접근했다.

  • 다만, “예측 모델”이기때문에, 정확하지 않으면, 다시 알림을 참고해서 문제를 식별해야할 수도 있을 것 같다.

  • 대체하기에는 위험이 좀 있을 수 있을 것 같아서, 기존 알림이랑 같이 사용하면 좋을 것 같다.

Image
Image
Image
Image
Image
Image