Skip to main content

프로젝트 분석 및 기술 스택

프로젝트 분석 및 기술 스택

1.1 비즈니스 요구사항

HPP Production Workflows는 Human Pangenome Reference Consortium의 핵심 인프라로서 다음과 같은 비즈니스 가치를 제공합니다:

주요 사용자

  • 대규모 시퀀싱 센터 (월 100+ 샘플 처리)
  • 학술 연구기관 (프로젝트 기반 워크로드)
  • 상업적 genomics 플랫폼 (SaaS 서비스 제공)

핵심 성능 지표

  • 처리량: 샘플당 24-48시간 내 완료
  • 정확도: QV 50+ (99.999% 정확도)
  • 가용성: 99.9% 업타임 요구
  • 비용 효율성: 샘플당 $200 이하 목표

1.2 기술적 특성 분석

워크플로우 복잡성

워크플로우 구조:
• 6개 주요 Phase × 평균 8개 Task = 48개 병렬/순차 작업
• 총 실행 시간: 24-72시간 (데이터 크기에 따라)
• 피크 메모리 사용량: 512GB (Hifiasm assembly 단계)
• 피크 스토리지 요구량: 1.5TB (중간 파일 포함)

데이터 플로우 특성

  • 입력 데이터: 50-300GB (HiFi + ONT + Hi-C)
  • 중간 파일: 2-3배 증폭 (압축 해제, 정렬 파일)
  • 최종 출력: 6-12GB (diploid assembly)
  • I/O 패턴: 순차 읽기 중심, 랜덤 쓰기 발생

1.3 기술 스택 상세 분석

WDL v1.0 워크플로우 엔진

특성 장점 제약사항
문법 선언적 문법, 강력한 타입 시스템 동적 워크플로우 제한
클라우드 지원 클라우드 네이티브 설계 디버깅 복잡성
AWS 호환성 HealthOmics 네이티브 지원 일부 고급 기능 제한

컨테이너 생태계

Docker 이미지 현황:
• 총 15개 Docker 이미지
• 베이스 이미지: RedHat UBI7 (보안 강화)
• 도구별 이미지: 평균 2-8GB 크기
• ECR 저장 비용: 월 $15-30 예상

핵심 생물정보학 도구

Hifiasm (Primary Assembly Engine)

  • 특성: 메모리 집약적 (256-512GB), CPU 집약적 (32-64 cores)
  • 기능: HiFi 및 ONT 데이터를 이용한 diploid genome assembly
  • 성능: 대용량 샘플 처리 시 12-48시간 소요

DeepPolisher (ML-based Polishing)

  • 특성: GPU 가속 권장 (V100/A100), Transformer 모델
  • 기능: 머신러닝 기반 assembly 정확도 향상
  • 성능: GPU 사용 시 4-10배 성능 향상

NTSM (Sample Swap Detection)

  • 특성: 경량 도구, 빠른 실행 (< 30분)
  • 기능: k-mer 분석을 통한 샘플 스왑 탐지
  • 성능: 모든 QC 워크플로우에서 필수 실행

워크플로우 단계별 분석

Phase 1: Data Processing QC

목적: 원시 시퀀싱 데이터의 품질 검증 및 메트릭 계산
주요 작업:
  • HiFi QC: Coverage, N50, methylation 태그 확인
  • ONT QC: Read length 분포, 품질 점수 분석
  • Hi-C QC: Total bases 계산, 페어링 통계
  • NTSM: 모든 데이터 타입에 대한 샘플 스왑 탐지

Phase 2: Genome Assembly

목적: HiFi + ONT + Hi-C 데이터로 diploid assembly 생성
주요 작업:
  • Cutadapt: HiFi adapter 제거
  • Hifiasm: 메인 assembly 엔진 실행
  • Yak: Sex chromosome 할당 (Hi-C phased)
  • Format conversion: GFA → FASTA 변환

Phase 3: Assembly Cleanup

목적: Contamination 제거 및 mitochondrial assembly
주요 작업:
  • NCBI FCS: Foreign contamination screening
  • Mitochondrial contig 제거
  • MitoHiFi: Mitochondrial genome assembly
  • Chromosome labeling: T2T contig 라벨링

Phase 4: Assembly Polishing

목적: DeepPolisher를 이용한 assembly 정확도 향상
주요 작업:
  • Minimap2: HiFi reads → diploid assembly 정렬
  • PHARAOH: HiFi read phasing 최적화
  • DeepPolisher: Transformer 모델 기반 polishing
  • Quality assessment: Polishing 효과 검증

Phase 5: Assembly QC

목적: 최종 assembly 품질 평가
Standard QC:
  • Compleasm: BUSCO-like completeness 평가
  • Merqury: k-mer 기반 QC
  • Dipcall: Variant calling
  • T2T statistics: 연속성 메트릭
Alignment-based QC:
  • Flagger: Missassembly 탐지
  • NucFreq: Nucleotide frequency 분석

기술적 도전과제

메모리 집약적 워크로드

  • Hifiasm: 대용량 샘플 시 512GB+ 메모리 필요
  • 해결방안: 동적 메모리 할당, 메모리 최적화 알고리즘

I/O 집약적 작업

  • 문제: 대용량 파일 읽기/쓰기로 인한 병목
  • 해결방안: 고성능 스토리지 (FSx Lustre), 병렬 I/O

장시간 실행

  • 문제: 단일 워크플로우 24-72시간 실행
  • 해결방안: 체크포인트, 재시작 메커니즘, 모니터링
💡 핵심 인사이트:
HPP Production Workflows는 전형적인 "Big Data + High Performance Computing" 워크로드입니다. 성공적인 클라우드 마이그레이션을 위해서는 메모리, 스토리지, 네트워크 모든 측면에서의 최적화가 필요합니다.