박주영 한국전자통신연구원 표준연구본부
박주영 한국전자통신연구원 표준연구본부

농업은 사람의 생명을 영위하게 하는 기초 사업이며, 농업이 튼튼할수록 국가 경제 체질이 강건해질 수 있다는 점은 의심의 여지가 없다. 농업 강화를 위해 미국, 독일, 프랑스와 같은 대표적인 농업 강국들은 이미 인공지능과 같은 4차 산업혁명 핵심 기술을 농업 분야에 적용한 정밀농업을 적극적으로 육성하고 있다. 정밀농업의 적용 분야에 대해서는 다소 견해의 차이가 있지만, 생산·유통·소비 전 과정에 ICT 기술을 융합하여 최소한의 노동력과 투입재로 최대한의 생산량을 도모하는 것을 뜻한다.

우리나라에서는 이미 수년 전부터 한국형 스마트팜이라는 이름으로 농산물의 생산량을 높이고 수확량을 예측하기 위해 농가로부터 데이터를 수집하고 이를 저장·처리·분석하고 있다. 농가로부터 데이터를 수집하는 주된 이유는 머신러닝(기존 데이터의 학습을 통해 시스템을 정의할 수 있는 인공지능의 한 형태)을 통해 미래 수확량을 예측하고 이를 기반으로 생산 시기를 조절하기 위함이다.

물론 예측의 정확도를 높이기 위해 다양한 머신러닝 접근 방법이 존재하나, 결국 머신러닝이 더욱 정확하게 미래를 예측하기 위한 양질의 빅데이터가 필수이다. 양질의 빅데이터를 수집하기 위해 그간 정부에서는 농가에 스마트팜 ICT 장비를 설치해 주거나 비용을 지급하면서까지 데이터 수집을 위한 수고를 아끼지 않았다. 하지만 이러한 정부의 노력에 대해 일부 시각은 꼭 긍정적이지만은 않다. 그 이유는 비록 농가로부터 수집된 데이터를 많이 축적하고는 있으나 데이터의 품질이 좋지 않아 활용도가 낮다는 것이다. 데이터 품질이 좋지 않다는 이유는 수집된 데이터의 연속성이나 신뢰도가 떨어진다는 것인데 필자는 이러한 이유보다는 다른 곳에서 이유를 찾고자 한다.

필자가 공부하고 있는 머신러닝 분야에서는 과적합(overfitting 또는 underfitting)이라는 문제가 발생한다. 이러한 문제가 발생하면 정확한 미래 예측이 어려울 수 있는데, 발생하는 이유 중 하나는 머신러닝을 위한 데이터 집합의 패턴이 다양하지 못할 때 발생할 수 있다. 쉬운 예를 들어 어느 특정 모집단으로부터 축출된 데이터를 기반으로 학습한 알고리즘은 해당 모집단의 문제를 적절히 예측할 수 있지만 그렇지 않으면 예측이 어렵다는 것이다.

발명왕 에디슨이 “나는 실패해 본 적이 없다. 다만 효과가 없는 만 가지 방법을 찾았을 뿐이다”라고 말한 것처럼, 머신러닝이 학습해야 하는 데이터는 성공과 실패에 대한 데이터를 모두 학습해야 한다. 농가로부터 수집되는 데이터는 농민이 보유한 노하우를 통해 최대한의 생산량을 얻기 위한 결과물이기 때문에 필자는 이러한 데이터 패턴에 다양성이 부족하지는 않을까 하는 자문을 하게 된다.

스마트팜의 데이터는 인공지능 기반의 정밀농업을 위해 필수 요소이다. 인공지능 기반의 정밀농업을 통해 스마트팜 농가의 생산량을 보다 정확하게 예측하고 비용을 감소시키기 위해서는 농작물의 생육 환경을 다양하게 조성하고 이로부터 다양한 패턴의 생육과 환경 데이터를 축적하는 등의 패러다임 전환이 매우 중요한 때라고 생각한다.

저작권자 © 한국농기계신문 무단전재 및 재배포 금지