Skip to content

디지털육종 #

Find similar titles

7회 업데이트 됨.

Edit
  • 최초 작성자
    jhkim
  • 최근 업데이트
    jhkim

최근 종자 관련 산업계와 연구기관의 뜨거운 화두 중의 하나는 디지털 육종입니다.
육종이란 인간의 목적에 맞게 기존의 품종을 개량해 새로운 품종을 만들어 내는 일련의 과정인데, 복잡한 생물을 다루는 과정이라 완벽히 계량화할 수 없는 아날로그적인 특징들이 있습니다.

예를 들어 농업인들은 잘 자라는 품종을 원하지만, ‘잘 자란다’의 기준은 재배 환경이나 사람마다 다를 수밖에 없다. 최근 대두된 디지털 육종은 과감하게도 이러한 아날로그적인 측면을 계량화하고 이를 분석, 예측 가능한 육종 결과를 만들고자 하는 시도입니다.

육종이란? #

육종이란 인간이 원하는 형태로 작물을 개선(진화 또는 변형)하는 것을 목표로 농작물이나 가축을 개량하여 경제(실용) 가치가 더 높은 새로운 품종을 개발하고 증식하여 보급하는 기술입니다. 육종의 목표는 수량 증대와 품질 향상, 내재해성, 내병성, 맛, 향기(풍미), 모양, 사육 환경 등이 다양한 경제 형질로 정해질 수 있습니다.

육종의 대상은 농경을 시작한 이래로 산업적으로 유용한 형질(표현형)을 가진 모든 생물체가 그 대상이었습니다. 경주 능력을 목표한 '서러브레드' 경주마, 우리가 즐겨 먹는 마블링이 우수한 1등급 '한우', 매운맛의 강자 '청양고추', 가난에서 벗어나게 해준 수확량의 제왕 '통일벼', 밀을 대체할 벼 품종 '가루미' 등 동식물을 망라하고 인간에게 유용한 경제 형질을 가진 모든 분야에서 육종이 이루어져 왔습니다.

이렇게 다양한 특징을 가진 농작물 또는 가축을 만드는 것이 전통적인 분리육종만으로는 수십 년 이상을 필요로 하므로 현대 육종방법에서는 최첨단 과학기술을 사용하여 종자 개발을 진행하고 있습니다.

전통육종과 분자육종 #

전통육종 #

서로 가깝거나 또는 유전적으로 비슷한 특징을 가진 두 품종 간 교배를 통해 원하는 형질을 가진 새로운 품종을 만드는 방법으로 교잡 육종(interbreeding)이 여기에 속합니다.
직접 식물 또는 동물을 교배하고, 재배(사육)하여 선발한 개체를 다시 재배하여 확인 작업을 거쳐 품종화시키는 방법이기에 최소 7년에서 20년 이상의 시간이 소요되며 겉으로 드러난 표현형만을 기준으로 하므로 육종의 목표가 되는 형질 외에 다른 형질의 내재성을 모르는 등 그 한계가 분명합니다.

분자육종 #

육종방법으로는 교배, 여교배, 하이브리드 육종 등 전통적인 기술을 사용하지만 선별은 전혀 다른 방법으로 이루어집니다. 전통육종에서 자식세대의 선발은 육종가의 감각에 의해서 진행되었지만 분자육종은 육종기술에 분자 마커를 활용한 새로운 육종방법으로 마커를 통해 각 개체의 유전적 특성을 규명하고 효율적으로 우수한 개체를 판별합니다.
이는 병저항성 등 육안으로 잘 구별되지 않는 특징을 유전자 분석을 통해 쉽게 판별할 수 유용한 형질을 가진 개체를 찾아낼 수 있습니다.
교배하는 것은 전통 육종과 같으나 자손 세대의 재배 없이 분자마커를 이용해 원하는 개체를 찾을 수 있으며 많은 시간을 단축하거나 눈으로 확인할 수 없는 경우 등 개체 선발에 도움을 줍니다.

디지털육종 #

MarkDown
(출처 : 분자육종과 디지털육종 비교 ⓒ 농림축산식품부)

NGS (Next generation sequencing)라는 대용량 시퀀싱 기술로 유전체 서열을 밝히고, 표현형이 다양한 개체들의 변이 정보를 생산함으로써 유전형-표현형에 기반을 둔 선발 육종 방식으로 다양한 표현형을 갖는 집단에서 특정 형질(표현형)을 갖는 개체들만을 유전형을 이용하여 선발하는 방식입니다.

최근에는 유전자분석 기술(NGS)의 도움으로 유전체 정보는 폭발적으로 증가했으나 표현형 정보의 측정 및 분석기술에 한계가 있다는 점이 육종 기술 도입의 한계로 지적되었으나, RGB, NIR 카메라 및 영상 기술이 발달함에 따라 이를 이용해 크기, 수, 이상 현상 등 작물의 표현형을 정확하고 빠르게 대량으로 수집할 수 있게 되었고, 수집된 데이터를 바탕으로 다양한 기술을 이용해 영상 정보(사진, 양상)를 디지털화하고 우수 경제 형질과 연계해 우수한 품종을 선발하는 표현체를 이용한 기술이 주목받고 있습니다.

이렇게 디지털 육종은 각 개체의 표현 형질과 유전적 특성을 미리 알 수 있어 육종 시 원하는 형질을 가진 모본과 부본 간의 교배가 가능하므로 우수 경제 형질을 가진 개체를 선발할 수 있으며 육종 기간 단축을 통해 노력과 시간의 감소 효과를 얻을 수 있습니다.
최근 6~8년 걸리던 호박의 새 품종 개발을 3년 이하로 줄일 수 있었던 것도 첨단 육종 기술입니다.
이렇게 표현형과 연관된 유전형을 찾아 마커로 개발하는 방식은 기존의 다른 육종 기술의 단점들을 대부분 보완하고 있습니다.

디지털 육종의 이론 #

디지털 육종에는 필수 요소 3가지 ‘개체(샘플), 표현형, 유전형’이 있습니다.

첫 번째, 개체 확보 면에서 디지털 육종은 현재 관찰이 가능한 모든 개체를 대상으로 합니다. 야생종부터 돌연변이 종까지 제한이 없으며, 동일한 생장 조건이 필요하지도 않습니다. 예를 들어 밤나무의 경우 전국의 수집 가능한 모든 밤나무가 대상이 될 수 있습니다. 나무의 연령이 모두 달라도 괜찮습니다. 호박과 같은 채소류의 경우 일부러 교배를 통해 다양한 개체를 얻었다면 그 또한 모두 가능합니다.

두 번째, 표현형 정보는 현재 확보된 개체들에서 관찰되는 모든 것을 대상으로 할 수 있습니다. 밤나무의 경우 알곡의 크기, 밤나무가 위치한 지역, 수확 시기, 나무의 크기, 한 가지에 달리는 밤송이의 수, 나무의 연령 (가능하다면) 등 현재 시점에서 관찰할 수 있는 모든 것이 표현형으로 정리될 수 있습니다. 이를 좀 더 효율적으로 수집하고자 하는 기술이 Edging computing을 이용한 디지털화된 장비를 이용한 표현형 수집입니다. 온실에 카메라를 설치하고 주기적으로 사진을 촬영하여 호박의 성장 정보를 영상 분석을 통해 처리하는 AI 기술이 접목된 스마트 팜이 이에 해당합니다.

마지막인 세 번째 유전형 생산은, NGS 기술과 생물정보의 발달로 누구나 쉽게 얻을 수 있게 되었습니다.

이들 3요소가 모두 데이터로 갖춰졌다면 총 4단계의 생물정보 분석을 통해 육종이 이뤄집니다.

표현체 연구를 위한 4단계 과정 #

MarkDown
(표현형 자료 예시)

  1. 데이터베이스 구축 단계 각 재배 및 사육 단계에서 육안 또는 영상, ICT 장비를 이용해 데이터를 체계적으로 수집하는 단계로, 데이터를 수치화하고 객관화시켜 신뢰할 수 있는 표현체 빅데이터를 구축해야 함. 기온, 습도, 날씨 등 다양한 환경 요소를 비롯하여 작물의 성장과 발달 단계에 맞는 정확한 정보(온톨로지)를 통해 수치화하여 수집하는 단계

  2. 지식 정보 그래프 구축 단계 수집 데이터를 '노드'-'엣지'의 그래프로 구현하는 단계로 서로의 데이터 관계를 명확하게 정의하여 표현형, 기능, 유전형의 관계를 체계적으로 구축하는 단계

  3. 연관 관계 분석 단계 각 수집 요소에 대하여 알고리즘을 적용하는 단계로 표현형 및 환경정보와 유전형의 연관 관계에 대하여 중요도를 부여하여 특정 표현형에 대한 쿼리 결과의 순위를 제공하는 단계로 이를 뒷받침하는 유전형의 정보도 제공

  4. 맞춤형 분석 단계 데이터베이스를 재구성하거나 탐색을 통해 자신과 가진 데이터를 비교하거나 분석할 수 있는 플랫폼을 제공하는 단계로 특정 표현형에 대한 집단 비교 분석 및 AI 기술 도입을 통해 최적의 교배 지침을 제공하는 단계
    기존 전통육종에서 디지털 육종으로의 전환을 유도할 수 있는 표현형 데이터는 유전체 데 이때, 표현형은 꼭 두 개의 집단으로 양분되는 구조가 아니어도 됩니다. 밤 알곡의 크기는 정량적인 수치로 크기에 따라 동일한 패턴으로 유전형이 나타난다면, 해당 변이는 알곡 크기에 연관된 마커로 선택될 수 있습니다. 병 저항성의 경우에도 잎의 60%가 마르는 데 걸리는 시간으로 표현형을 정량화할 수 있습니다.

2단계
기계학습 : 표현형에 따른 집단의 구분력을 보이는 변이만을 유전형 데이터로 활용하여 표현형-유전형 기계학습을 수행합니다. 이때, 수집된 개체의 75% 정도를 학습 데이터로 활용하고, 나머지 25%는 학습된 기계학습의 정확도 평가를 위해 사용합니다.
밤 알곡의 크기를 예측하기 위한 기계학습을 예로 들면, 1단계에서 선별된 변이 마커가 30개라면, 개체별 30개의 유전형 정보에 따라 측정된 알곡의 크기를 표현형 정보로 학습되도록 합니다. 이후 구축된 예측모델을 이용해 남겨 두었던 25% 개체의 유전형 정보를 넣고 해당 표현형이 예측될 가능성이 얼마나 될지 확률치를 얻게 됩니다.
기계 학습의 평가는 True Positive (정답을 정답으로 예측), False Negative (오답을 오답으로 예측)로 계산되는 Specificity와 Sensitivity로 정리됩니다. 만약 결과가 만족스럽지 못하다면, 기계학습 알고리즘을 변경해 보거나 학습 데이터를 변경해야 합니다. 학습에 이용되는 30개 마커의 유전형 정보는 개체별로 모두 다를 수 있습니다.
이는 마커 개개의 정보력이 약하기 때문인데, 다수의 개체에서 기계학습을 통한 반복적인 학습을 통해 조금씩 다른 유전형임에도 동일한 표현형으로 학습시켜 정확도를 높일 수 있습니다. 또한, 마커 개별의 정보력이 약한 것은 오히려 한두 개의 변이 정보가 소실된다 할지라도 기계학습의 표현형 예측에는 큰 변수가 되지 않아, 기존의 SSR과 같은 분자 마커를 활용한 육종보다 한 단계 진보한 기술이라 할 수 있습니다.

3단계
확장된 검증 : 구축된 기계학습모델로 더 많은 개체에 적용해 봅니다. 해당 표현형을 예측하는 데 사용되는 마커는 1단계에서 30개로 선별되었고, 이후 미지의 시료에 대해 30개 마커 유전형만을 타입핑하여 표현형을 예측합니다. 이는 여러 출처의 개체로 검증해보는 것이 좋습니다.

4단계
교배 효율 검사 : 기계학습모델 검증이 완료되었다면 최적의 교배 지침을 위한 F1 세대의 표현형 예측 시뮬레이션을 진행합니다. 부·모가 될 개체의 유전형을 기반으로 F1 세대에서 나타날 수 있는 유전형을 무작위 방식 구성합니다.
이때 F1 세대의 개체 수는 2,000개체 이상, 유전형은 해당 표현형을 예측하는 마커 수, 앞선 예로 들자면 30개 유전형을 인실리코상에서 데이터로 생산합니다. 이후 2,000 개체의 유전형을 이용해 구축된 기계학습으로 표현형을 예측하여 F1 세대에서 해당 표현형을 가질 수 있는 평균 개체 수가 어느 정도 되는지 수치화합니다.
이러한 방식으로 F1 세대에서 해당 표현형을 가질 수 있는 개체수가 많은 순서로 교배 조합을 시뮬레이션합니다.
어패류의 경우 교배를 위해 다수의 친어를 수조에 넣어 진행하고, 체외 수정을 하는 종이기 때문에 이러한 교배효율 시뮬레이션은 다음 세대의 육종 효율을 높이는 데 매우 중요합니다.

Reference
1. https://insilicogen.com/blog/377
2. https://insilicogen.com/blog/370
3. https://smartfarm.rda.go.kr/

Suggested Pages #

0.0.1_20231010_1_v71