SRA Excel
#
Find similar titles
-
최초 작성자
hygkim@insilicogen.com
- 최근 업데이트
Structured data
- Category
- Biology
NGS 데이터 공유와 아카이브를 위한 보다 편리한 형식, SRA Excel #
NGS 기술의 발달로 방대한 "생물서열" 데이터가 쏟아져 나오고 있다. 1000달러 지놈시대는 이미 도래했으며, 조만간 병원에서 진료를 위해 WGS 해봐야 한다며 피 뽑아갈 기세다. 보통 사람 한명의 WGS 데이터는 어림잡아 (100X) 300 GB이고, 이를 처리하고 분석하려면 못해도 1 TB 정도 필요하다. 이 데이터의 증가와 함께, 이를 효과적이고, 체계적으로 관리해야할 필요성도 함께 늘어나고 있다.
NCBI, EBI에서는 이미 오래전부터 SRA (Sequence Read Archive) 서비스를 진행해왔다. NGS 데이터를 임의의 사용자로부터 등록받는 서비스이며, 특정 정부주도 연구과제의 연구결과, 시퀀싱 원본 데이터(reads)들을 등록하게 했다. 이들 기관에서 NGS 데이터를 등록받으려면 데이터가 어떻게 구성되었고, 어떻게 만들어졌는지에 대한 정보를 표준화해야 한다. 그래야만 서로 다른 데이터들을 체계적으로 정리하고, 통합, 관리할 수 있기 때문이다. 여기에 필요한 데이터가 "메타데이터"이다. 데이터가 어떻게 이뤄졌는가를 설명하는 데이터라고 할 수 있겠다.
EBI에서는 SRA 등록을 위한 메타데이터를 XML 형식으로 등록받는다. 이 형식에 의하면, 데이터 등록자는 자신의 NGS 데이터를 다음 항목별로 각각 정리한 XML 파일을 직접 만들어야 했다.
- Submission.xml: 등록과 관련된 정보 기록
- Study.xml: 어떤 연구이고, 전장유전체 서열결정(WGS)인지, 메타지놈서열결정(Metagenomics)인지 등등 어떤 연구이고, 관련 문헌은 어떤 것이 있는지 기록
- Sample.xml: 생물 종 등 시료에 관한 정보 기록
- Experiment.xml: NGS 실험 방법에 대한 정보 기록
- Run.xml: 시퀀싱 장비를 구동(run)하여 어떤 파일들을 얻었고, 파일의 형식은 어떤 것인지에 관한 정보 기록
- Analysis.xml 분석에 관한 정보 기록, 주로 어셈블리 파일(BAM) 혹은 변이추출정보(VCF)에 대한 정보 기록 (선택사항)
위 항목들은 각각 alias 라는 속성을 통해 서로를 공유하도록 되어 있다.
각 항목들은 또한 복수개를 등록할 수 있으며, XML 형식에서 여러개의 항목을 지정할 수도 있도록 되어 있다. 어쨌건 이 메타데이터를 통해 NGS 데이터가 어떻게 구성되었는지에 대한 체계적 이해가 가능하다. 국립농업과학원에서 운영하는 "농생명바이오정보시스템"내 "오믹스등록시스템"의 경우에도 연구자의 NGS데이터를 시스템에 등록하기 위해서는 이 SRA XML 메타데이터가 필요하다.
하지만, 프로그래밍에 익숙하지 않은 일반 사용자가 이 XML 파일을 직접 만들거나 관리하기 어렵다는 단점이 있다. 그동안 이 XML 형식을 자동으로 만들어주는 UI를 만든다던가 하는 방법을 통해 단점을 해결하려는 시도들이 있어 왔다.
(주)인실리코젠 데이터사이언스센터에서는 이 XML 형식을 엑셀 형식으로 변환한 양식 파일을 개발했다. (SRA-template.xlsx, ) 이 엑셀파일은 복잡한 SRA XML 구조들이 모두 반영 가능하도록 설계되었으며, XML과 상호 변환이 가능하다. 예전에 DNA chip 데이터 등록시 복잡한 MIAME XML 형식 대신, 심플한 GEO의 엑셀 형식이 훨씬 더 사용자들이 쓰기 쉽다는 점에 착안하여 SRA도 엑셀로 등록할 수 있도록 하면 사용하기 훨씬 쉽겠다는 판단에 본 엑셀 형식을 개발하게 되었다.
본 형식을 통해 일반 사용자는 보다 쉽게 자신의 NGS 메타데이터를 정리할 수 있을 것이며, 각종 등록 시스템은 이 형식으로 정리된 메타데이터를 등록받게 해서 보다 더 쉽개 데이터를 구분하고 관리할 수 있을 것이다. 정해진 항목을 입력할 때 선택 상자를 제공하는 기능과 엑셀파일 자체적으로 유효성 검증이 가능하게 하는 기능 등 버전에 따른 기능향상이 지속되고 있다.