Skip to content

Phred and Phrap #

Find similar titles
  • 최초 작성자
    syp

Structured data

Category
Software

Phred/Phrap #

DNA sequencing #

Plasmid DNA, PCR product 등을 비롯하여 수많은 유전자 분석을 위하여 자동 분석장비인 ABI 3730XL 등을 이용하여 서열 분석에 이용하고 있다. 최근에는 NGS 기술의 발달로 대용량의 시퀀싱을 진행하는 추세에 있지만 여전히 소규모 랩에서는 유전자 단위의 PCR을 이용하고 있다.

여기에서 생산된 ABI 서열 원본 파일을 이용하여 우리가 읽을 수 있는 가시화된 서열 정보를 얻을 수 있는데 그 과정은 다음과 같다.

Phred #

초기에는 Phred/Phrap 과 Consed를 이용하여 분석을 진행하였으며 그 사용법은 다음과 같다.

phred -v # 버전 출력
phred -help #도움말 출력

그 기본 사용법은 다음과 같다.

phred -if my_list -sd ./ -qd ./ -pd ../phd_dir

기본적인 옵션은 다음과 같다.

-if <file name>  # $ ls *.abi > my_list 와 같이 서열 이름이 들어 있는 파일을 저장한다.
-sd <dir name> # 결과를 저장하는 폴더로 .seq의 서열 데이터를 저장한다
-qd # .qual의 퀄리티 정보를 저장하는 디렉토리를 지정한다.
-pd # phd file을 지정하는 디렉토리.

좀 더 간결하게 정리하면 다음과 같다.

$ phred -if my_list -trim_alt 0 -trim_fasta -sd ./ -qd ./ -pd ../phd_dir
-trim_alt 0 # enables alternate auto trim
-trim_fasta # trims .seq and .qual files

cross_match #

cross_match는 기존 유전체 연구에서 repeat masking을 위해서 사용하기도 하였지만 여기서는 vector sequence를 제거하기 위한 용도로 사용이 된다. 사용법은 다음과 같다.

$ cross_match <my_fasta_file> vector -minmatch 20 -minscore 20 -screen > screen.out

여기에서 vector는 벡터 서열을 지칭하며 그 결과는 입력한 파일인my_fasta_file.screen 으로 저장된다. 또한 -minmatch 20 -minscore 20 을 이용하여 파라미터를 조정할 수 있다.

phrap #

이렇게 얻어진 서열은 어셈블리 과정을 거치는데 phrap을 사용하거나 cap3를 사용할 수 있다.

$ phrap <my_fasta_file.screen> -minmatch 20 -new_ace > phrap.out

cross_match를 통해 최종 vector sequence를 제거한 서열이 입력이 된다. -minmatch 옵션은 최소한의 overlap 되는 길이를 지정하며 -new_ace는 새로운 파일로 만든다는 옵션이다.

그 결과로는 다음의 파일이 생성이 된다.

  1. contigs - fasta file containing the contig sequences
  2. contigs.qual - qualities for the contig bases
  3. singlets - fasta file containing the singlet reads
  4. log - summary of aspects of the assembly
  5. problems - problems with assembly
  6. ace - used for viewing by consed
  7. view - required for viewing in phrapview

Incoming Links #

Related Articles #

Suggested Pages #

0.0.1_20230725_7_v68