Skip to content

BioJava MSA #
Find similar titles

Structured data

Category
Analysis

Biojava3에서는 Alignment Module을 이용하여 다중서열 분석을 진행하는 방법에 대해서 자세히 알아보도록 하겠다.

1. Alignment 모듈 #

Multiple alignment 분석 기능 및 결과 포맷 파서, 결과 파일을 이용한 가시화 할 수 있는 인터페이스를 제공한다.

package org.biojava.nbio.alignment;

2. Uniprot DB 검색 -> Profile Matrix를 이용한 MSA 분석 -> ClustalW 형식의 결과 파일 출력 #

import java.net.URL;
import java.util.ArrayList;
import java.util.List;

import org.biojava.nbio.alignment.Alignments;
import org.biojava.nbio.alignment.template.Profile;
import org.biojava.nbio.core.sequence.ProteinSequence;
import org.biojava.nbio.core.sequence.compound.AminoAcidCompound;
import org.biojava.nbio.core.sequence.io.FastaReaderHelper;
import org.biojava.nbio.core.util.ConcurrencyTools;

public class CookbookMSA {

    public static void main(String[] args) {
        // uniprot DB에서 분석하고자 하는 단백질 서열을 검색한다. 
        String[] ids = new String[] {"Q21691", "A8WS47", "O48771"};
        try {
            multipleSequenceAlignment(ids);
        } catch (Exception e){
            e.printStackTrace();
        }
    }

// Profile Matrix를 이용한 MSA분석 
private static void multipleSequenceAlignment(String[] ids)
  throws Exception {
    List<ProteinSequence> lst = new ArrayList<ProteinSequence>();
    for (String id : ids) {
            lst.add(getSequenceForId(id));
    }
    Profile<ProteinSequence, AminoAcidCompound> profile =
            Alignments.getMultipleSequenceAlignment(lst);
        System.out.printf("Clustalw:%n%s%n", profile);
        ConcurrencyTools.shutdown();
}

// Uniprot 데이터베이스 웹서비스를 이용한 UniproID검색 및 검색 결과 다운로드
private static ProteinSequence getSequenceForId(String uniProtId)
        throws Exception {
        URL uniprotFasta = new URL(
        String.format("http://www.uniprot.org/uniprot/%s.fasta",
            uniProtId));
        ProteinSequence seq = 
            FastaReaderHelper.readFastaProteinSequence(
               uniprotFasta.openStream()).get(uniProtId);
        System.out.printf("id : %s %s%n%s%n", 
            uniProtId, seq, seq.getOriginalHeader());
        return seq;
    }

}

'''

Suggested Pages #

0.0.1_20210630_7_v33