Bioinformatics&Hadoop
#
Find similar titles
-
최초 작성자
ykkang@insilicogen.com
-
최근 업데이트
bjpark@insilicogen.com
Structured data
- Category
- Software
염기서열을 해독하는데 있어 NGS(Next-generation sequencing)기술의 발전으로 DNA를 분석하는 시퀀싱 비용은 1천달러 수준으로 떨어졌으며, 1990년대 한 사람의 유전자를 분석하는데 15년이 걸리고 30억달러에 이르는 비용이 들었지만 2015년에는 4시간, 100달러 수준이 될 것으로 전망되고 있다.
인간 유전체는 약 30억쌍으로 구성되어 있으며, 여기에서 얻어지는 DNA정보가 1인당 약 120GB에 이른다. 이 정보들을 분석하면 염기서열 정보, DNA 변이정보, 질병관련 정보를 파악해 개인 맞춤형 질병 예방과 처방 등에 활용 할 수 있다.
문제는 유전체 데이터의 크기가 워낙 크고 형태가 다양해 정규화가 어렵다는 것이다. 이런 이유로 Bioinformatics IT 인프라는 현재 하둡과 하둡 생태계를 이용하는 쪽으로 많은 기술 적용, 변화가 일어나고 있다. 실제 초기 상용DB나 스토리지를 사용하던 저장 기술 인프라가 많은 부분 하둡과 같은 클러스터링 IT인프라고 대체하고 있으며, 현재 한사람의 DNA를 분석하는데 3일 정보의 시간이 소요되는데, 향후 맵리듀스 지원 어플리케이션이 나오면 분석 시간은 더 빠르게 줄일 수 있을 것으로 예상된다.
아파치 하둡은 저장기능인 HDFS와 처리기능인 MapReduce로 구성되고 이를 보안하고 효율적으로 적용할 수 있도록 다양한 서브 프로젝트가 제공되는데, 이러한 것들로 구성된 것이 바로 하둡 생태계(Hadoop ecosystem) 혹은 하둡 에코시스템이다.
다음 포스팅에서는 하둡의 맵리듀스 기능을 이용한 다양한 분석 어플리케이션에 대해서 얘기해 보도록 하겠다.