❓
물음표살인마 블로그
  • README
  • ALGORITHM
    • Sieve of Eratosthenes
    • Round Up
    • Binary Search
    • Union Find
    • Sorting Array
    • Lcm, Gcd
  • TechTalk Review
    • Template
  • Books
    • CS Note for Interview
      • Ch1. Design Pattern & Programming paradigm
        • 1.1.1 Singleton Pattern
        • 1.1.2 Factory Pattern
        • 1.1.4 Observer Pattern
        • 1.1.5 Proxty Pattern & Proxy Server
        • 1.1.8 Model-View-Controller Pattern
        • 1.2.1 Declarative and Functional Programming
        • 1.2.2 Object Oriented Programming
      • Ch2. Network
        • 2.2.1 TCP/IP Four-Layer Model
        • 2.2.1-1 TCP 3, 4 way handshake
        • 2.3 Network Devices L4, L7
        • 2.4.1 ARP, RARP
        • 2.4.2 Hop By Hop Communication
        • 2.4.3 IP Addressing Scheme
      • Ch3. Operating System
        • 3.1.1 Roles and Structure of Operating Systems
        • 3.2.1 Memory Hierarchy
        • 3.2.2 Memory Management
        • 3.3.1 Processes and Compilation Process
        • 3.3.3 Memory Structure of a Process
        • 3.3.4 Process Control Block (PCB)
        • 3.3.5 Multiprocessing
        • 3.3.6 Threads and Multithreading
        • 3.3.7 Shared Resources and Critical Sections
        • 3.3.8 Deadlock
        • 3.4 CPU Scheduling Algorithm
      • Ch4. Database
        • 4.1 Database Basic
        • 4.2 Normalization
        • 4.3 Transaction and Integrity
        • 4.4 Types of Databases
        • 4.5 Indexes
        • 4.6 Types of Joins
        • 4.7 Principles of Joins
      • Ch5. Data Structure
    • Learning the Basics of Large-Scale System Design through Virtual Interview Cases
      • 1. Scalability based on user counts(1/2)
      • 1. Scalability based on user counts(2/2)
      • 2.Back-of-the-envelope estimation
      • 3. Strategies for System Design Interviews
      • 4. Rate Limiter
      • 5. Consistent Hashing
      • 6. Key-Value System Design
      • 7. Designing a Unique ID Generator for Distributed Systems
      • 8. Designing a URL Shortener
      • 9. Designing a Web Crawler
      • 10. Notification System Design
      • 11. Designing a News Feed System
      • 12. Chat System Design
      • 13. AutoComplete
      • 14. Design YouTube
      • 15. Design Google Drive
      • Loadbalancer Algorithms
      • Cache tier
      • CDN, Content Delivery Network
      • Stateless Web tier
    • Computer System A programmer's perspective
    • Effective Java
      • Item 1. Consider Static Factory Methods Instead of Constructors
      • Item 2. Consider a Builder When Faced with Many Constructor Parameters
      • Item 3. Ensure Singleton with Private Constructor or Enum Type
      • Item 4. Enforce Noninstantiability with a Private Constructor
      • Item 5. Prefer Dependency Injection to Hardwiring Resources
      • Item 6. Avoid Creating Unnecessary Objects
      • Item 7. Eliminate Obsolete Object References
      • Item 8. Avoid Finalizers and Cleaners
      • Item 9.Prefer try-with-resources to try-finally
      • Item10. Adhering to General Rules When Overriding equals
        • Handling Transitivity Issues
        • Ensuring Consistency
      • Item11. Override hashCode When You Override equals
      • Item12. Always Override toString
        • Always Override toString
      • Item13. Override Clone Judiciously
      • Item14. Consider Implementing Comparable
      • Item15. Minimize the Accessibility of Classes and Members
      • Item16. Accessor Methods Over Public Fields
      • Item17. Minimize Mutability
      • Item18. Composition over inherentance
      • Item19. Design and Document for Inheritance, or Else Prohibit It
      • Item20. Prefer Interfaces to Abstract Classes
      • Item21. Design Interfaces with Implementations in Mind
      • Item22. Use Interfaces Only to define Types
      • Item23. Prefer Class Hierarchies to Tagged Classes
      • Item24. Favor Static Member Classes Over Non-Static
      • Item28. Use Lists Instead of Arrays
      • Item29. Prefer Generic Types
      • Item30. Favor Generic Methods
    • Head First Design Patterns
      • Ch1. Strategy Pattern
      • Ch2. Observer Pattern
        • Ver1. Ch2. Observer Pattern
      • Ch3. Decorator Pattern
        • Ch3. Decorator Pattern
      • Ch4. Factory Pattern
      • Ch5. Singleton Pattern
      • Ch6. Command Pattern
      • Ch7. Adapter and Facade Pattern
      • Ch8. Template Method Pattern
    • Digging Deep into JVM
      • Chapter 2. Java Memory Area & Memory Overflow
      • Chapter 3. Garbage Collector & Memory Allocation Strategy (1/2)
      • Chapter 3. Garbage Collector & Memory Allocation Strategy (2/2)
      • Chapter 5. Optimization Practice
      • Chapter 6. Class file structure
      • Chapter 8. Bytecode Executor Engine (1/2)
  • Interview Practices
    • Restful API Practices
      • Url Shortener API
      • Event Ticket Reservation API
      • Course Management API
      • Search posts by tags API
      • Online Code platform API
      • Simple Task Management API
      • Event Participation API
      • Review System API
      • Car management API
      • Online Library
    • Tech Review
      • if(kakao)
        • Kakao Account Cache Migration / if(kakao)2022
        • Improving the Anomaly Detection System for KakaoTalk Messaging Metrics / if(kakao) 2022
        • Standardizing API Case Handling Without Redeployment / if(kakaoAI)2024
        • JVM warm up / if(kakao)2022
    • Naver Computer Science
      • Process & Thread
      • TCP & UDP
      • Spring & Servlet
      • Filter & Interceptor & AOP
      • Equals() & ==
      • Dependency Injection
      • Object Oriented Programming
  • F-Lab
    • Week1
      • Client & Server
      • HTTP
      • TCP/UDP
      • REST API
      • Questions
        • Object Oriented Programming
        • HTTP
        • Process & Thread
        • Data Structure
    • Week2
      • OSI 7 layer
      • Web vs WAS
    • Week3
      • RDB vs NoSQL
      • RDB Index
      • Cache
      • Redis
      • Messaging Queue
    • Week4
      • Project - Ecommerce
    • Week5
      • ERD - 1
    • Week6
      • Ecommerce - 2
      • Role
      • pw hashing && Salt
      • CreatedAt, ModifiedAt
      • JWT
      • Copy of ERD - 1
    • Week7
      • Vault (HashiCorp Vault)
    • Week 8
      • Api Endpoints
    • Week10
      • Product Create Workflow
  • TOY Project
    • CodeMentor
      • Implementation of Kafka
      • Project Improvement (Architectural Enhancements)
      • Communication between servers in msa
  • JAVA
    • MESI protocol in CAS
    • CAS (Compare and Set)
    • BlockingQueue
    • Producer & Consumer
    • Synchronized && ReentrantLock
    • Memory Visibility
    • Checked vs Unchecked Exception
    • Thread
    • Batch delete instead of Cascade
    • Java Questions
      • Week 1(1/2) - Basic Java
      • Week 1(2/2) - OOP
      • Week 2(1/2) - String, Exception, Generic
      • Week2(2/2) Lambda, Stream, Annotation, Reflection
      • Week3(1/2) Collections
      • Week3(2/2) Threads
      • Week4 Java Concurrency Programming
      • Week5 JVM & GC
    • Java 101
      • JVM Structure
      • Java Compiles and Execution Method
      • Override, Overload
      • Interface vs Abstract Class
      • Primitive vs Object Type
      • Identity and equality
      • String, StringBuilder, StringBuffer
      • Checked Exceptions and Unchecked Exceptions
      • Java 8 methods
      • Try-with-reources
      • Strong Coupling and Loose Coupling
      • Serialization and Deserialization
      • Concurrency Programming in Java
      • Mutable vs Immutable
      • JDK vs JRE
  • SPRING
    • DIP. Dependency Inversion Principal
    • Ioc container, di practice
    • @Transactional
    • Proxy Pattern
    • Strategy Pattern
    • Template Method Pattern
    • using profile name as variable
    • Spring Questions
      • Spring Framework
      • Spring MVC & Web Request
      • AOP (Aspect-Oriented Programming)
      • Spring Boot
      • ORM & Data Access
      • Security
      • ETC
  • DATABASE
    • Enhancing Query Performance & Stability - User list
    • Ensuring Data Consistency, Atomicity and UX Optimization (feat.Firebase)
    • Redis: Remote Dictionary Server
    • Database Questions
      • Week1 DBMS, RDBMS basics
      • Week2 SQL
      • Week3 Index
      • Week4 Anomaly, Functional Dependency, Normalization
      • Week5 DB Transaction, Recovery
    • Normalization
      • 1st Normal Form
      • 2nd Normal Form
      • 3rd Normal Form
  • NETWORK
    • HTTP & TCP head of line blocking
    • HTTP 0.9-3.0
    • Blocking, NonBlocking and Sync, Async
    • Network Questions
      • Week1 Computer Network Basic
      • Week2(1/3) Application Layer Protocol - HTTP
      • Week2(2/3) Application Layer Protocol - HTTPS
      • Week2(3/3) Application Layer Protocol - DNS
      • Week3 Application Layer
      • Week4 Transport Layer - UDP, TCP
      • Week5 Network Layer - IP Protocol
    • Network 101
      • https://www.google.com
      • TCP vs UDP
      • Http vs Https
      • TLS Handshake 1.2
      • HTTP Method
      • CORS & SOP
      • Web Server Software
  • OS
    • Operating System Questions
      • Week1 OS & How Computer Systems Work
      • Week2(1/2) Process
      • Week2(2/2) Thread
      • Week3 CPU Scheduling
      • Week4 Process Synchronize
      • Week5 Virtual Memory
    • Operating System 101
      • Operating system
        • The role of the operating system
        • The composition of the operating system.
      • Process
        • In Linux, are all processes except the initial process child processes?
        • Zombie process, orphan process
        • (Linux) Daemon process
        • Process address space
        • Where are uninitialized variables stored?
        • Determination of the size of the Stack and Heap
        • Access speed of Stack vs Heap
        • Reason for memory space partitioning
        • Process of compiling a process
        • sudo kill -9 $CURRENT_PID
      • Thread
        • Composition of a thread's address space
      • Process vs Thread
        • Creation of processes and threads in Linux
      • Multiprocessing
        • Web Browser
        • Implementation of multiprocessing
        • Application areas of multiprocessing
      • Multithreading
        • Application areas of multithreading
      • Interrupt
        • HW / SW Interrupt
        • Method of handling interrupts
        • Occurrence of two or more interrupts simultaneously
      • Polling
      • Dual Mode
        • Reason for distinguishing between user mode and kernel mode
      • System call
        • Differentiation between system calls
        • Types of system calls
        • Execution process of a system call
      • Process Control Block (PCB)
        • PCB의 구조
        • 쓰레드는 PCB를 갖고 있을까?
        • 프로세스 메모리 구조
      • Context switching
        • Timing of context switching
        • Registers saved during context switching
        • Context switching in processes
        • Context switching in threads
        • Difference between context switching in processes and threads
        • Information of the current process during context switching
      • Interprocess Communication (IPC)
        • Cases where IPC is used
        • Process address space in IPC Shared Memory technique
        • Types of IPC
  • COMPUTER SCIENCE
    • Computer Architecture 101
      • 3 components of a computer
      • RAM vs ROM
      • CPU vs GPU
      • SIMD
      • Two's complement
      • Harvard Architecture vs. von Neumann Architecture
      • The structure of a CPU.
      • Instruction cycle (CPU operation method)
      • Instruction pipelining
      • Bus
      • Memory area
      • Memory hierarchy structure
        • Reason for using memory hierarchy structure
      • Cache memory
      • L1, L2, L3 Cache
      • Locality of reference (cache)
      • Fixed-point vs Floating-point
        • epresentation of infinity and NaN (Not a Number) in floating-point
      • RISC vs CISC
      • Hamming code
      • Compiler
      • Linking
      • Compiler vs Interpreter
      • Mutex vs Semaphore
      • 32bit CPU and 64bit CPU
      • Local vs Static Variable
      • Page
  • Programming Paradigm
    • Declarative vs Imperative
  • JPA, QueryDsl
    • why fetchResults() is deprecated
  • PYTHON
    • Icecream
  • FASTAPI
    • Template Page
  • LINUX
    • Template Page
  • DATA STRUCTURE
    • Counting Sort
    • Array vs Linked List
  • GIT, Github
    • git clone, invalid path error
  • INFRA
    • Template Page
  • AWS
    • Server Log Archive Pipeline
    • Image Processing using Lambda
  • DOCKER
    • Docker and VM
    • Python Executable Environment
    • Docker commands
  • docker-compose
    • Kafka, Multi Broker
  • KUBERNATES
    • !Encountered Errors
      • my-sql restarts
      • kafka producer: disconnected
    • Kubernetes Components
    • Helm
      • Helm commands
    • Pod network
    • Service network
      • deployment.yaml
      • services.yaml
    • Service type
      • Cluster IP
      • NodePort
    • service-name-headless?
    • kube-proxy
  • GraphQL
    • Template Page
  • WEB
    • Template Page
  • Reviews
    • Graphic Intern Review
    • Kakao Brain Pathfinder Review
    • JSCODE 자바 1기 Review
  • 😁Dev Jokes
    • Image
      • Plot twist
      • Priorities
      • SQL join guide
      • Google is generous
      • Genie dislikes cloud
      • buggy bugs
      • last day of unpaid internship
      • what if clients know how to inspect
      • its just game
      • how i wrote my achievement on resume
      • self explanatory
      • chr(sum(range(ord(min(str(not))))))
Powered by GitBook
On this page
  • 1. 문제 이해 및 설계 범위 설정
  • 2. 비디오 업로드 과정
  • 2.1. 비디오 업로드
  • 2.2. 메타데이터 갱신
  • 3. 비디오 스트리밍 과정
  • 4. 비디오 트랜스코딩
  • 4.1 주요 목적
  • 4.2 기본 구조
  • 4.3. 비디오 트랜스코딩 아키텍처의 동작 흐름
  • 5. 시스템 최적화
  • 5.1. 속도 최적화
  • 5.2 안정성 최적화
  • 5.3. 비용 최적화
  • 5.4. 오류처리
  1. Books
  2. Learning the Basics of Large-Scale System Design through Virtual Interview Cases

14. Design YouTube

유튜브 설계

Previous13. AutoCompleteNext15. Design Google Drive

Last updated 9 months ago

1. 문제 이해 및 설계 범위 설정

  • 빠른 비디오 업로드

  • 원활한 비디오 재생

  • 재생 품질 선택 기능

  • 낮은 인프라 비용

  • 높은 가용성과 규모 확장성, 안정성

  • 모바일 앱, 웹 브라우저, 스마트 TV 지원

  • 비디오 업로드 절차

  • 비디오 스트리밍 절차

2. 비디오 업로드 과정

  • 사용자

  • 로드밸런서

  • API 서버

  • 메타데이터 데이터베이스: 비디오의 메타데이터 보관. 샤딩과 다중화를 적용하여 성능 및 가용성 확보

  • 메타데이터 캐시: 성능을 높이기 위한 미디오 메타데이터와 사용자 객체 캐시

  • 원본 저장소: 원본 비디오를 저장할 대형 이진 파일 저장소 (BLOB)시스템.

  • 트랜스코딩 서버: 비디오 인코딩을 위한 서버로, 비디오 포맷등을 변환하는 절차를 담당합니다. 단말이나 대역폭 요구사항에 맞는 최적의 비디오 스트림을 제공하기 위해 필요합니다.

  • 트랜스코딩 비디오 저장소: 트랜스코딩이 완료된 비디오를 저장하는 BLOB 저장소

  • CDN: 비디오 캐싱

  • 트랜스코딩 완료 큐: 트랜스코딩 완료 이벤트들을 보관할 메세지 큐

  • 트랜스코딩 완료 핸들러: 트랜스코딩 완료 큐에서 이벤트 데이터를 꺼내어 메타데이터 캐시와 데이터베이스를 갱신할 작업 서버들입니다.

2.1. 비디오 업로드

  1. 비디오를 원본 저장소에 업로드합니다

  2. 트랜스코딩 서버는 원본 저장소에서 해당 비디오를 가져와 트랜스코딩을 시작합니다.

  3. 트랜스코딩이 완료되면 아래 두 절차가 병렬적으로 수행됩니다.

    1. 완료된 비디오를 트랜스코딩 비디오 저장소로 업로드합니다.

    2. 트랜스코딩 완료 이벤트를 트랜스코딩 완료 큐에 넣습니다.

      1. 트랜스코딩이 끝난 비디오를 CDN에 올립니다.

      2. 완료 핸들러가 이벤트 데이터를 큐에서 꺼냅니다.

      3. 완료 핸들러가 메타데이터 데이터베이스와 캐시를 갱신합니다. (고유 식별자를 사용하여 메타데이터데이터베이스에 저장됩니다.)

  4. API 서버가 단말에게 비디오 업로드가 끝나서 스트리밍 준비가 되었음을 알립니다.

2.2. 메타데이터 갱신

원본 저장소에 파일이 업로드되는 동안, 단말은 병렬적으로 비디오 메타데이터 갱신 요청을 API 서버에 보냅니다. 요청에 포함된 파일이름, 크기, 포맷 등의 정보로 메타데이터 캐시와 데이터베이스를 업데이트 합니다.

3. 비디오 스트리밍 과정

  1. 사용자가 비디오 페이지 요청

    • 사용자는 애플리케이션의 비디오 재생 페이지로 접근합니다. 이때 브라우저는 로드밸런서를 통해 요청을 API 서버로 전달합니다.

    • 요청은 해당 비디오의 메타데이터와 트랜스코딩된 비디오 스트림 URL을 가져오기 위한 API 요청입니다.

  2. 메타데이터 캐시 조회

    • API 서버는 먼저 메타데이터 캐시에서 해당 비디오의 메타데이터(예: 제목, 설명, 썸네일, 비디오 파일의 트랜스코딩된 URL 등)를 조회합니다.

    • 캐시에 데이터가 있는 경우, 메타데이터가 즉시 반환되고 다음 단계로 넘어갑니다.

  3. 메타데이터 데이터베이스 조회 (캐시 미스 발생 시)

    • 만약 메타데이터 캐시에서 해당 비디오의 메타데이터를 찾지 못했다면, API 서버는 메타데이터 데이터베이스에서 메타데이터를 조회합니다.

    • 이때 메타데이터 데이터베이스는 샤딩과 다중화를 통해 대규모 요청에도 빠르게 응답할 수 있습니다.

    • 조회한 메타데이터는 다시 메타데이터 캐시에 저장되어 다음 요청 시 빠르게 제공될 수 있도록 준비됩니다.

  4. CDN URL 제공

    • 메타데이터에는 트랜스코딩된 비디오의 CDN URL이 포함되어 있습니다. 이 URL은 트랜스코딩 비디오 저장소에 저장된 비디오 파일을 CDN이 캐시하여 제공하는 경로입니다.

    • 이 URL을 사용하면 사용자는 트랜스코딩된 비디오 파일을 CDN을 통해 빠르게 스트리밍할 수 있습니다.

    • 메타데이터에는 다음과 같은 정보들이 포함될 수 있습니다:

      • 비디오 제목, 설명, 썸네일 URL

      • 비디오의 트랜스코딩된 CDN URL (https://cdn.example.com/video/12345.mp4)

      • 트랜스코딩 포맷(예: 720p, 1080p 등) 및 해상도별 링크

      • 비디오 길이, 크기 등 추가 정보

  5. 비디오 스트리밍 시작 (CDN을 통한 캐싱된 비디오 제공)

    • 사용자는 API 서버에서 제공받은 CDN URL을 통해 비디오를 스트리밍합니다.

    • CDN은 각 지역에 분산된 엣지 서버에 비디오 파일을 캐시하고, 가장 가까운 위치에서 사용자에게 비디오 데이터를 전달하여 지연 시간을 최소화합니다.

    • 사용자가 CDN URL을 요청하면, CDN은 트랜스코딩된 비디오 파일을 제공하여 재생이 시작됩니다.

  6. CDN 미스 발생 시 트랜스코딩 비디오 저장소 조회

    • 만약 CDN에 트랜스코딩된 비디오 파일이 아직 캐시되지 않은 경우(예: 캐시가 삭제되거나 처음 요청되는 경우), CDN은 트랜스코딩 비디오 저장소로부터 비디오 파일을 가져옵니다.

    • 트랜스코딩 비디오 저장소는 트랜스코딩된 비디오 파일을 저장하는 BLOB 저장소로, 여기에서 파일을 읽어 CDN에 전달하고, CDN이 해당 파일을 캐시한 후 사용자에게 제공됩니다.

  7. 비디오 재생 완료 및 추가 요청 처리

    • 사용자가 비디오를 시청하는 동안 API 서버는 사용자 행동을 추적하고, 비디오 재생 상태나 로그 데이터를 수집할 수 있습니다.

    • 예를 들어, 비디오 재생 시간, 일시정지, 해상도 변경 등의 정보가 API 서버로 전송됩니다.

요약:

  • 사용자가 비디오 재생 페이지를 요청: 요청은 로드밸런서를 통해 API 서버로 전달.

  • API 서버는 메타데이터 캐시에서 메타데이터 조회: 없으면 메타데이터 데이터베이스에서 조회.

  • 메타데이터 제공 및 CDN URL 반환: 트랜스코딩된 비디오 파일의 CDN URL 제공.

  • CDN을 통해 비디오 스트리밍: 사용자에게 비디오 파일을 캐싱된 형태로 제공.

  • CDN 미스 시 트랜스코딩 비디오 저장소 조회: 비디오 파일을 캐시하고 사용자에게 스트리밍.

  • 사용자가 비디오를 시청하면서 API 서버로 추가 요청 처리: 로그 수집 등.

4. 비디오 트랜스코딩

비디오 트랜스코딩은 비디오 포맷 변환 과정입니다. 사용자와 장치에 맞는 최적의 비디오 형식으로 변환하는 절차입니다. 비디오 파일은 다양한 형식(코덱, 해상도, 프레임레이트 등)으로 존재할 수 있는데, 모든 장치가 동일한 형식으로 비디오를 효율적으로 재생할 수 있는 것은 아니기 때문에 트랜스코딩이 필요합니다.

4.1 주요 목적

  1. 다양한 해상도 지원

  2. 포맷 변환

  3. 적응형 비트레이트 스트리밍

  4. 장치 호환성

  5. 파일 크기 최적화

4.2 기본 구조

  • 유형 비순환 그래프 (DAG) 모델

    • 트랜스코딩 과정은 여러 단계를 거칩니다. 이 각 단계는 **유형 비순환 그래프(DAG, Directed Acyclic Graph)**로 모델링됩니다. DAG는 일련의 작업들을 순차적으로 수행할 수 있도록 구조화된 모델로, 작업의 의존성을 관리하는 데 매우 유용합니다.

    • 예를 들어, 원본 비디오를 가져와 먼저 압축하고, 그 후 여러 해상도나 포맷으로 변환하는 작업들을 DAG로 표현합니다. 이때, 특정 작업이 완료된 후에만 다음 작업이 실행될 수 있는 순서를 관리할 수 있습니다.

  • DAG 스케줄러

    • DAG 모델을 기반으로 각 트랜스코딩 작업을 스케줄링하는 역할을 담당하는 것이 DAG 스케줄러입니다. DAG 스케줄러는 각 작업의 의존성을 분석하고, 작업 순서를 조율하여 트랜스코딩 작업이 효율적으로 이루어지도록 합니다.

    • 트랜스코딩 과정에서 여러 작업들이 병렬로 처리될 수 있다면, 스케줄러는 이를 최적화하여 작업 병렬 처리를 극대화합니다. 이는 트랜스코딩의 처리 속도를 크게 향상시킬 수 있습니다.

  • 자원 관리자

    • 트랜스코딩 작업은 CPU, 메모리, 네트워크 대역폭 등 시스템 자원을 많이 소모합니다. 이를 효율적으로 관리하기 위해 자원 관리자가 필요합니다.

    • 자원 관리자는 트랜스코딩 작업에 필요한 자원을 할당하고, 시스템 전체의 부하를 균등하게 분배하여 시스템의 효율성을 극대화합니다. 자원이 부족할 경우 작업을 대기 상태로 전환하거나, 우선순위가 높은 작업부터 처리하는 방식으로 운영됩니다.

  • 작업 서버

    • 작업 서버는 실제로 트랜스코딩 작업을 수행하는 서버들입니다. 트랜스코딩 작업은 매우 계산 집약적인 작업이므로, 이를 여러 대의 작업 서버에 분산시켜 병렬로 처리할 수 있습니다.

    • DAG 스케줄러가 작업을 할당하면, 작업 서버는 지정된 트랜스코딩 작업을 수행하고 결과를 임시 저장소에 저장합니다.

  • 임시 저장소

    • 트랜스코딩 작업 중간에 생성되는 파일들이나 임시 데이터를 저장하는 공간입니다. 임시 저장소는 트랜스코딩이 완료된 후 최종 인코딩된 비디오를 저장하기 전에 중간 결과물을 저장하는 데 사용됩니다.

    • 임시 저장소에서 데이터를 효율적으로 관리하여 트랜스코딩 완료 후 필요한 데이터만 최종 저장소로 이동할 수 있도록 최적화됩니다.

  • 인코딩된 비디오 저장소

    • 최종적으로 트랜스코딩된 비디오는 인코딩된 비디오 저장소에 저장됩니다. 이 저장소는 트랜스코딩이 완료된 비디오 파일을 저장하며, 이후 CDN(Content Delivery Network)으로 파일이 전달되어 사용자에게 제공됩니다.

4.3. 비디오 트랜스코딩 아키텍처의 동작 흐름

4.3.1. 비디오 업로드 및 DAG 구성

사용자가 비디오를 업로드하면, 시스템은 해당 비디오에 대한 트랜스코딩 작업들을 DAG로 구성합니다. DAG는 비디오가 다양한 해상도와 포맷으로 변환되어야 하는 의존성을 정의합니다.

4.3.2. DAG 스케줄러에 작업 전달

DAG 스케줄러는 트랜스코딩 작업을 순서대로 또는 병렬로 실행할 수 있도록 스케줄링합니다. 스케줄러는 각 작업이 어느 작업 서버에서 처리될지를 결정하고, 이를 자원 관리자와 협력하여 최적화합니다.

4.3.3. 작업 서버에서 트랜스코딩 수행

트랜스코딩 작업은 여러 작업 서버에 분배되어 병렬로 처리됩니다. 이때 각 작업 서버는 트랜스코딩 작업을 실행하고, 결과를 임시 저장소에 저장합니다.

4.3.4. 임시 데이터 관리

작업 서버에서 처리된 트랜스코딩 결과는 임시 저장소에 저장된 후, 모든 트랜스코딩 작업이 완료되면 최종 인코딩된 비디오로 조합됩니다.

4.3.5. 인코딩된 비디오 저장소로 이동

트랜스코딩이 완료된 비디오는 인코딩된 비디오 저장소에 최종 저장됩니다. 이 저장소에서 CDN으로 파일이 전송되며, 사용자는 CDN을 통해 비디오를 빠르게 스트리밍할 수 있습니다.

5. 시스템 최적화

5.1. 속도 최적화

5.1.2. 업로드 센터를 사용자 근거리에 지정

여러 곳에 업로드 센터를 두는 방법으로, 미국 거주자는 비디오를 북미 지역 업로드 센터로 보내도록 하고, 중국 사용자는 아시아로 보내는 것입니다. CDN을 업로드 센터로 사용하게 됩니다.

5.1.3. 모든 절차를 병렬화

느슨하게 결합된 시스템을 만들어서 병렬성을 높이는 것입니다. 이전 단계의 결과물을 입력으로 사용하여 만들어지는 경우가 있습니다. 이런 결합도를 낮추기 위해 메시지 큐를 사용할 수 있습니다. 기존에는 인코딩 모듈은 다운로드 모듈의 작업이 끝나기를 기다려야 했습니다.

메시지 큐를 도입한 뒤에 인코딩 모듈은 다운로드 모듈의 작업이 끝나기를 더 이상 기다릴 필요가 없습니다.

5.2 안정성 최적화

5.2.1. 미리 사인된 업로드 URL

미리 사인된 URL을 이용하여 허가받은 사용자만 올바른 장소에 비디오를 업로드 할 수 있게 합니다.

절차:

  1. 클라이언트는 HTTP 서버에 POST 요청을 하여 미리 사인된 URL(접근 공유 시그니처)을 받습니다. 해당 URL이 가리키는 객체에 대한 접근 권한이 이미 주어져 있는 상태입니다.

  2. API 서버는 미리 사인된 URL을 돌려줍니다

  3. 클라이언트는 해당 URL이 가리키는 위치에 비디오를 업로드 합니다.

5.2.2. 비디오 보호

비디오 원본의 저작권을 보호하기 위한 방법

  • 디지털 저작권 관리(Digital Rights Management, DRM)

  • AES 암호화(encryption)

  • 워터마크(watermark)

5.3. 비용 최적화

  1. 인기 있는 비디오는 CDN을 통해 재생하고, 다른 비디오는 비디오 서버를 통해 재생합니다.

  2. 인기가 없는 비디오는 인코딩할 필요가 없을 수 있습니다. 짧은 비디오는 필요할때 인코딩 할 수 있습니다.

  3. 어떤 비디오는 특정 지역에서만 인기가 높습니다. 이런 비디오는 다른 지역에 옮길 필요가 없습니다.

  4. CDN을 직접 구축하고 ISP와 제휴합니다.

5.4. 오류처리

  • 회복 가능 오류: 특정 비디오 세그먼트를 트랜스코딩하다 실패하는 오류같이 회복 가능한 오류입니다. 재시도를 통해 해결합니다. (복구가 어려울시 오류 코드 반환)

  • 회복 불가능 오류: 비디오 포맷이 잘못되었거나 회복 불가능 한 오류는 작업을 중단하고 오류 코드를 반환합니다

오류에 대한 전형적 해결 방법

  • 업로드 오류: 몇 회 재시도

  • 비디오 분할 오류: 전체 비디오를 서버로 전송하고 서버가 해당 비디오 분할을 처리

  • 트랜스코딩 오류: 재시도

  • 전처리 오류: DAG 그래프 재생성

  • DAG 스케줄러 오류: 작업을 다시 스케줄링

  • 자원 관리자 큐에 장애 발생: 사본을 이용

  • 작업 서버 장애: 다른 서버에서 해당 작업을 재시도한다.

  • API 서버 장애: 신규 요청은 다른 API서버로 우회

  • 메타데이터 캐시 서버 장애: 장애가 난 캐시 서버는 새로운 것으로 교체

  • 메타데이터 데이터베이스 서버 장애: 부 서버를 주 서버로 교체