Skip to content

유전자 발현 관련 Public 데이터베이스 및 분석 도구 (책 발간용 글 편집 및 수정) #

Find similar titles

5회 업데이트 됨.

Edit
  • 최초 작성자
    JSeo
  • 최근 업데이트
    syp

Structured data

Category
Analysis

유전자발현 공공데이터베이스 #

유전자 발현 분석은 크게 두 가지 방법으로 진행이 된다. 첫 번째는 NGS 데이터를 이용한 발현 분석이며, 두 번째는 microarray를 이용한 방법이다.

데이터베이스 #

Gene_Expression_Omnibus #

GEO는 microarray, NGS 시퀀싱 데이터, 연구기관에서 등록한 다양한 기능유전체 데이터들을 보관하고 배포하는 공공 데이터 저장소다. 대용량의 기능 유전체 데이터를 효율적으로 등록할 수 있는 데이터베이스와 연구 커뮤니티에서 전폭적인 지원과 적절히 주석처리 된 데이터를 저장할 수 있는 간단한 제출 절차와 형식. 그리고, 관심있는 유전자 발현프로파일을 조회/검토 및 다운로드 할 수 있도록 사용자 친화적인 메커니즘을 제공한다.

Expression Atlas #

EMBL-EBI에서 운영하는 유전자 발현 패턴에 대한 정보를 제공하는 데이터베이스다. 누구나 사용할 수 있도록 무료로 제공하고 있으며 다양한 조직, 세포 유형, 발달 단계 및 질병에 대한 정보들이 있다. 개별 유전자 또는 유전자 세트를 검색 할 수 있다. 홈페이지에서 두 가지 탭이 있는데 Browse experiments는 데이터를 검색하고 결과에 대한 heat map을 홈페이지에서 바로 확인할 수 있다. 발현값도 TPM, FPKM 중 선택이 가능하다. 원하는 실험을 골라 데이터를 받을 수 있으며 제공되는 데이터는 TPM, FPKM 값을 매트릭스로 받을 수 있으며, R에서 결과를 볼 수 있도록 지원하고, heat map도 볼 수 있다. Download 탭에서는 Atlas에 있는 모든 데이터를 받을 수 있도록 지원하고 있다.

GXD(Gene Expression Database) #

MGI(Mouse Genome Informatics)에서 제공하는 mouse 발현데이터의 데이터베이스다. GXD는 다양한 유형의 표현 데이터를 저장하고 통합되어 있으며 이러한 데이터는 모두가 사용 가능하다. 마우스 발달 중 내인성 유전자 발현에 특히 중점을두고 있다. 이 프로젝트는 NIH/NICHD의 펀딩을 받아 만들어졌다.

유전자발현 분석도구 #

유전자 발현 분석에 사용하는 툴은 유료툴과 무료툴로 크게 나눌 수 있다. 유료툴은 누구나 사용하기 쉬운 인터페이스를 가지고 있으며 다양한 분석을 통합적으로 수행할 수 있다는 장점이 있으나 비용이 든다. 무료툴은 public 툴로 주로 리눅스를 베이스로 해서 명령어를 입력하여 분석하기 때문에 이런 커맨드라인에 익숙치 않은 사람들이 분석하기에 진입장벽이 있지만 무료로 사용 할 수 있다는 장점이 있다.

유료분석툴 #

발현데이터를 분석할 수 있는 유료분석툴은 Geneious, CLC Genomics Workbench 등이 있다. 이 툴들은 발현데이터 뿐만 아니라 변이분석 등 NGS데이터 혹은 서열 데이터로 수행할 수 있는 여러 분석들을 수행할 수 있다.

무료분석툴 #

Public 툴로 분석 시에는 여러 가지 툴을 이용하며 리눅스를 베이스로 하기 때문에 명령어를 입력하여 분석을 진행하며 다양한 파이프라인이 있어서 분석하는 사람이 원하는대로 분석툴을 선택할 수 있다. RNA-seq 분석은 레퍼런스 데이터에 따라 조금씩 달라진다.
* 참조

참고논문은 2016년에 퍼블리쉬된 것으로 RNA-seq 데이터 분석 방법에 대해서 잘 설명되어 있다. 이 페이퍼에서는 레퍼런스가 genome인지 transcriptome인지 레퍼런스가 없는지에 따라 세 가지 방법으로 파이프라인을 제시하고 있다.

레퍼런스에 따른 다른 분석방법 #

레퍼런스 : Genome #

Image

레퍼런스 서열이 genome 일 경우에는 mapper를 TopHat이나 STAR를 사용한다. TopHat은 정통적인 툴이며 2012년 STAR라는 속도가 비교적 굉장히 빠른 mapper가 개발되었다. (STAR에 대한 자세한 정보는 링크를 통해 확인할 수 있다.)
레퍼런스에 리드를 mapping하고 난 뒤, TopHat output으로 분석하는 Cufflinks를 이용하여 read를 계산한다. 이때 GFF가 있는 경우에는 transcript에 따라 expression value를 보여주고 GFF annotaion 파일이 엇는 경우에는 발현 차이가 많이 나거나 관심 있는 부분의 유전자를 Blast2GO를 통해 anntation을 하여 function을 알아본다.

레퍼런스 : Transcriptome #

Image

레퍼런스가 transcriptome일 경우에는 갭을 고려하지 않아도 되는 mapper인 Bowtie를 이용한다. 그리고 RSEM이나 Kallisto를 이용하여 transriptome에 mapping된 리드를 센다.

레퍼런스 : none #

Image

레퍼런스서열이 없는 경우에는 RNA-Seq 데이터를 가지고 de-novo assembly를 먼저 진행하여 reference를 대신할 서열을 만든다. 이 때, De Bruijin 알고리즘을 이용하는 Trinity를 이용하여 진행을 한다. 이 역시 레퍼런스로 transcriptome 데이터가 사용되었기 때문에 갭을 고려하지 않아도 되는 mapper인 Bowtie로 mapping한다. 그뒤에 각 transcript마다 붙어있는 리드를 세고 Blast2GO 등의 툴을 이용하여 각 서열마다 기능 annotation을 진행하여 서열의 의미를 찾는다.

Suggested Pages #

0.0.1_20231010_1_v71