Skip to content

MapReduce Application #
Find similar titles

Structured data

Category
Software

Hadoop MapReduce(하둡 맵리듀스)를 이용한 Bioinformatics 프로그램 #

HADOOP(High-Availability Distributed Object-Orientied Platform)은 대용량 자료를 처리할 수 있는 컴퓨터 클러스터에서 동작하는 분삭 응용 프로그램을 지원하는 오픈소스 자바 프레임워크이다. HADOOP(하둡)은 크게 HDFS(Hadoop Distribute File System, 분산 저장)과 MapReduce( 병렬 처리), 2개의 프레임워크로 구성되어 있다. HDFS은 클러스터 환경에서 대용량 데이터를 분산하여 안정적으로 저장하는 프레임워크이고, MapReduce는 HDFS 저장 환경 위에서 병렬로 데이터 프로세싱하는 프레임워크이다.

MarkDown

Hadoop MapReduce libraries for Bioinformatics #

Hadoop의 장점은 MapReduce 알고리즘에 맞게 응용 프로그램을 작성하면 클러스터의 노드 숫자의 증가에 따라 선형적인 성능 증가를 보여준다는 것이다. 즉 이론상 10대 서버에서 20일 걸렸던 작업이 200대 서버가 된다면 1일로 처리 시간이 단축된다. 단 Hadoop 프레임워크에서 분석하기 위해서는 응용프로그램이 반드시 MapReduce에 맞게 작성되어야 한다. 아래 기술한 분석 툴은 Hadoop 환경에서 구동될 수 있는 Bioinformatics 분석 기술이다.

Hadoop BAM #

Hadoop-BAM은 SAMtool툴과 Hadoop MapReduce프레임워크를 이용해서 SAM/BAM/CRAM포맷의 파일을 읽고/쓰고/편집하고/인텍싱하고/볼 수 있는 툴입니다. 현재 지원하는 파일 형식은 아래와 같다.

  • BAM (Binary Alignment/Map)
  • SAM (Sequence Alignment/Map)
  • FASTQ
  • FASTA (input only)
  • QSEQ
  • VCF (Variant Call Format)
  • BCF (Binary VCF) (output is always BGZF-compressed)

SeqPig #

Apache Pig를 이용하여 일반적인 Bioinformatics 파일 포맷을 import, export하는 라이브러리이다.

BioPig #

Processing NGS data with Apache Pig; Presenting UDFs

Biodoop #

MapReduce suite for sequence alignments / manipulation of aligned records; written in Python

DNA - Alignment algorithm based on Haddop #

MapReduce는 병렬처리 프로세싱을 Map과 Reduce 과정으로 나누고, 슬레이브 노드 상에서 원격 실행을 위해 나누어진 잡을 스케줄링 한다. 따라서 알고리즘 내에서 Map과 Reduce기능을 정의해야 한다.

CloudBurst #

Highly Sensitive Short Read Mapping with MapReduce

  1. 기본 알고리즘 : Based on RMAP (seed-and-extend algorithm)
  2. Map: Extracting k-mers of reference,non- overlapping k-mers of reads (as keys)
  3. Reduce: End-to-end alignments of seeds

Seal #

Suite of distributed application for manipulating and analyzing short read alignments

  1. Based on BWA (version 0.5.9)
  2. Map: Alignment using BWA (on a previously created internal file format)
  3. Reduce: Remove duplicates (optional)

Crossbow #

Genotyping from short reads using cloud computing

  1. Based on Bowtie / SOAPsnp
  2. Map: Executing Bowtie on chunks
  3. Reduce: SNP calling using SOAPsnp

RNA - Analysis based on Haddop #

MyRNA #

Pipeline for calculating differential gene expression in large RNA-seq datasets; including Bowtie

FX #

RNA-Seq gene expression analysis toll, empowered by the concept of cloud-computing

Eoulsan #

Versatile framework based on Hadoop implementation

Non-Hadoop based Approaches #

GATK #

MapReduce-like framework including a rich set of tools for quality assurance, alignment and variant calling; not based on Hadoop MapReduce

참고문헌 #

1."Delivering Bioinformatics MapReduce Applications in the Cloud"

0.0.1_20210630_7_v33