FastQC
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Software
Table of Contents
FastQC #
FastQC는 영국의 Babraham 연구소에서 제작한 유전자 서열 품질검증 프로그램으로, high throughput sequence에 대한 quality control 기능을 갖추고 있다. 이 프로그램은 다양한 형식의 서열 데이터를 읽어들여 서로 다른 몇가지의 QC 체크를 진행하고 결과를 HTML 기반의 보고서로 제작해준다. GUI 기반의 사용환경과 콘솔 기반의 실행환경을 모두 제공한다.
FastQC의 다운로드 #
FastQC는 프로그램을 제작한 Babraham 연구소에서 다운로드할 수 있다. Babraham 연구소에서는 FastQC 외에도 ClusterFlow나 GOliath 등 생물정보와 관련된 여러 프로젝트의 결과물들을 제공하고 있다.
FastQC의 구성 #
FastQC는 JAVA 기반으로 제작되었기 때문에 실행을 위해서는 JAVA 실행환경이 조성되어 있어야 하며, Picard BAM/SAM Libraries가 필요한데, 이는 FastQC 다운로드 파일에 포함되어 있다.
FastQC의 사용 #
FastQC는 윈도우와 리눅스에서 사용 가능한 버전과 맥에서 사용가능한 버전을 제공하는데, 자신의 운영체제에 맞는 프로그램을 다운로드하여 사용하면 된다.
FastQC의 실행 #
GUI 환경에서 사용할 경우 실행 아이콘을 더블클릭하면 되고, 리눅스나 콘솔환경에서 실행할 때는 명령 프롬프트에 [fastqc 입력파일명]과 같이 입력하고 실행시키면 된다.
FastQC의 실행 옵션 #
- --outdir : 실행결과를 저장할 디렉토리를 설정
- 여러 입력파일명 : 입력파일을 한 칸씩 띄워서 여러개 입력하면 순차적으로 한 개씩 검증을 수행한다.
FastQC 결과화면 #
FastQC의 주요 기능 #
- BAM, SAM, FastQ 파일로부터 데이터를 읽음
- 품질에 문제가 있는 부분에 대한 개괄정보를 제공
- 쉽게 살펴볼 수 있는 요약 그래프와 표를 제공
- 결과를 HTML 형식의 보고서로 출력
- 콘솔환경에서도 자동으로 프로그램을 수행하고 결과를 도출
FastQC에서 체크해주는 항목들 #
Basic Statistics #
서열에 대한 기본적인 통계정보
Per base sequence quality #
기본 서열 퀄리티 정보
Per sequence quality score #
서열의 퀄리티 스코어 정보
Per base sequence content #
기본 서열의 content 정보
Per base GC content #
기본 GC content 정보
Per sequence GC content #
서열 GC content 정보
Per base N content #
기본 N content 정보
Sequence Length Distribution #
서열 길이 분산 정보
Sequence Duplication Levels #
서열 중복 레벨 정보
Overrepresented sequences #
과대출현 서열 정보
Kmer content #
Kmer content 정보