프로젝트 분석 및 기술 스택
프로젝트 분석 및 기술 스택
1.1 비즈니스 요구사항
HPP Production Workflows는 Human Pangenome Reference Consortium의 핵심 인프라로서 다음과 같은 비즈니스 가치를 제공합니다:
주요 사용자
- 대규모 시퀀싱 센터 (월 100+ 샘플 처리)
- 학술 연구기관 (프로젝트 기반 워크로드)
- 상업적 genomics 플랫폼 (SaaS 서비스 제공)
핵심 성능 지표
- 처리량: 샘플당 24-48시간 내 완료
- 정확도: QV 50+ (99.999% 정확도)
- 가용성: 99.9% 업타임 요구
- 비용 효율성: 샘플당 $200 이하 목표
1.2 기술적 특성 분석
워크플로우 복잡성
워크플로우 구조:
• 6개 주요 Phase × 평균 8개 Task = 48개 병렬/순차 작업
• 총 실행 시간: 24-72시간 (데이터 크기에 따라)
• 피크 메모리 사용량: 512GB (Hifiasm assembly 단계)
• 피크 스토리지 요구량: 1.5TB (중간 파일 포함)
• 6개 주요 Phase × 평균 8개 Task = 48개 병렬/순차 작업
• 총 실행 시간: 24-72시간 (데이터 크기에 따라)
• 피크 메모리 사용량: 512GB (Hifiasm assembly 단계)
• 피크 스토리지 요구량: 1.5TB (중간 파일 포함)
데이터 플로우 특성
- 입력 데이터: 50-300GB (HiFi + ONT + Hi-C)
- 중간 파일: 2-3배 증폭 (압축 해제, 정렬 파일)
- 최종 출력: 6-12GB (diploid assembly)
- I/O 패턴: 순차 읽기 중심, 랜덤 쓰기 발생
1.3 기술 스택 상세 분석
WDL v1.0 워크플로우 엔진
| 특성 | 장점 | 제약사항 |
|---|---|---|
| 문법 | 선언적 문법, 강력한 타입 시스템 | 동적 워크플로우 제한 |
| 클라우드 지원 | 클라우드 네이티브 설계 | 디버깅 복잡성 |
| AWS 호환성 | HealthOmics 네이티브 지원 | 일부 고급 기능 제한 |
컨테이너 생태계
Docker 이미지 현황:
• 총 15개 Docker 이미지
• 베이스 이미지: RedHat UBI7 (보안 강화)
• 도구별 이미지: 평균 2-8GB 크기
• ECR 저장 비용: 월 $15-30 예상
• 총 15개 Docker 이미지
• 베이스 이미지: RedHat UBI7 (보안 강화)
• 도구별 이미지: 평균 2-8GB 크기
• ECR 저장 비용: 월 $15-30 예상
핵심 생물정보학 도구
Hifiasm (Primary Assembly Engine)
- 특성: 메모리 집약적 (256-512GB), CPU 집약적 (32-64 cores)
- 기능: HiFi 및 ONT 데이터를 이용한 diploid genome assembly
- 성능: 대용량 샘플 처리 시 12-48시간 소요
DeepPolisher (ML-based Polishing)
- 특성: GPU 가속 권장 (V100/A100), Transformer 모델
- 기능: 머신러닝 기반 assembly 정확도 향상
- 성능: GPU 사용 시 4-10배 성능 향상
NTSM (Sample Swap Detection)
- 특성: 경량 도구, 빠른 실행 (< 30분)
- 기능: k-mer 분석을 통한 샘플 스왑 탐지
- 성능: 모든 QC 워크플로우에서 필수 실행
워크플로우 단계별 분석
Phase 1: Data Processing QC
목적: 원시 시퀀싱 데이터의 품질 검증 및 메트릭 계산
주요 작업:
주요 작업:
- HiFi QC: Coverage, N50, methylation 태그 확인
- ONT QC: Read length 분포, 품질 점수 분석
- Hi-C QC: Total bases 계산, 페어링 통계
- NTSM: 모든 데이터 타입에 대한 샘플 스왑 탐지
Phase 2: Genome Assembly
목적: HiFi + ONT + Hi-C 데이터로 diploid assembly 생성
주요 작업:
주요 작업:
- Cutadapt: HiFi adapter 제거
- Hifiasm: 메인 assembly 엔진 실행
- Yak: Sex chromosome 할당 (Hi-C phased)
- Format conversion: GFA → FASTA 변환
Phase 3: Assembly Cleanup
목적: Contamination 제거 및 mitochondrial assembly
주요 작업:
주요 작업:
- NCBI FCS: Foreign contamination screening
- Mitochondrial contig 제거
- MitoHiFi: Mitochondrial genome assembly
- Chromosome labeling: T2T contig 라벨링
Phase 4: Assembly Polishing
목적: DeepPolisher를 이용한 assembly 정확도 향상
주요 작업:
주요 작업:
- Minimap2: HiFi reads → diploid assembly 정렬
- PHARAOH: HiFi read phasing 최적화
- DeepPolisher: Transformer 모델 기반 polishing
- Quality assessment: Polishing 효과 검증
Phase 5: Assembly QC
목적: 최종 assembly 품질 평가
Standard QC:
Standard QC:
- Compleasm: BUSCO-like completeness 평가
- Merqury: k-mer 기반 QC
- Dipcall: Variant calling
- T2T statistics: 연속성 메트릭
- Flagger: Missassembly 탐지
- NucFreq: Nucleotide frequency 분석
기술적 도전과제
메모리 집약적 워크로드
- Hifiasm: 대용량 샘플 시 512GB+ 메모리 필요
- 해결방안: 동적 메모리 할당, 메모리 최적화 알고리즘
I/O 집약적 작업
- 문제: 대용량 파일 읽기/쓰기로 인한 병목
- 해결방안: 고성능 스토리지 (FSx Lustre), 병렬 I/O
장시간 실행
- 문제: 단일 워크플로우 24-72시간 실행
- 해결방안: 체크포인트, 재시작 메커니즘, 모니터링
💡 핵심 인사이트:
HPP Production Workflows는 전형적인 "Big Data + High Performance Computing" 워크로드입니다. 성공적인 클라우드 마이그레이션을 위해서는 메모리, 스토리지, 네트워크 모든 측면에서의 최적화가 필요합니다.
HPP Production Workflows는 전형적인 "Big Data + High Performance Computing" 워크로드입니다. 성공적인 클라우드 마이그레이션을 위해서는 메모리, 스토리지, 네트워크 모든 측면에서의 최적화가 필요합니다.
No comments to display
No comments to display