역사학에서도 ‘빅데이터 혁명’이 본격적으로 시작될까.


조선 호적 자료 등 빅데이터를 활용한 연구는 10여 년 전부터 등장했지만 최근 컴퓨터 알고리즘(인공지능)을 이용해 자동으로 방대한 사료에서 의미 있는 텍스트를 추출하고 분석하는 연구가 시도돼 주목된다. 


“텍스트 마이닝(text mining·비정형 텍스트 데이터에서 유용한 정보를 찾아내는 기술), 기계학습, 세미-슈퍼바이즈드 러닝(준지도학습)….” 


17일 경기 수원시 아주대에서 열린 학술대회 ‘디지털 역사학의 시작’은 용어만 들어서는 꼭 컴퓨터 프로그래머들의 대회 같았다. 아주대 디지털역사연구센터와 세계학연구소가 주최하고 학제간융합연구팀이 주관한 이날 학술대회에서는 컴퓨터공학, 미디어, 산업공학, 사학, 어문학 분야의 교수 및 연구원들이 공동 연구에 대해 중간발표를 했다.


연구책임자인 이상국 아주대 사학과 교수는 ‘기계학습 기반 조선 전기 권력 메커니즘 추론’에서 조선 전기 권력집단을 2부류로 나눴다. 연구팀은 1476년 간행된 족보로 당대 권력층 절반 이상의 신상이 담겨 있다고 평가되는 ‘안동 권씨 성화보(成化譜·성화 연간에 만들어진 족보)’를 컴퓨터 알고리즘으로 분석해 1452∼1488년 관직에 있던 인물 1589명의 촌수 네트워크를 만들었다. 이어 이들이 실록에 기록된 사건에 대해 낸 찬성과 반대 등 의견에 따라 2개의 권력집단으로 분류했다. 



 

문제는 1589명 중 일부(139명)만 의견을 낸 기록이 남아있고, 이들 역시 기준이 된 사건 모두(133건)가 아니라 일부에만 의견을 냈다는 것. 연구팀은 컴퓨터 알고리즘을 사용해 기록이 없는 인물들이 어느 집단에 속할지 추정했다. 자체 분석에서 이 알고리즘은 68%의 정확도를 갖는 것으로 나타났다. 


이는 기존 역사학에서 권문세족-신진사대부, 훈구-사림, 동인-서인 등의 틀로 나누는 권력집단을 새롭게 정의할 수 있는 가능성을 보여준 것으로 평가된다. 이상국 교수는 “학맥과 지연 등의 요소가 반영되지 않았다는 한계가 있다”면서도 “이 같은 방법론을 통해 권력의 양상을 정량적으로 추론할 수 있고, 새로운 분류 틀을 제시할 수도 있다”고 말했다.


물론 이 연구는 기존 학계의 실증 연구 방법론과 근본적으로 달라 여러 비판이 예상된다. 당장 사료에 의견이 없는 이들을 특정 집단에 속한다고 확률적으로 추정했다는 문제가 있다. 


박만규 아주대 불문과 교수와 예홍진 사이버보안학과 교수 등은 고려사와 실록 데이터에서 관직 임면, 상벌을 자동으로 인식할 수 있는 알고리즘의 개발에 대해 발표했다. 박 교수는 “방대한 텍스트에서 권력 이동과 관련된 정치 행위를 인식하는 시스템을 개발하기 위해 언어 형태소를 분석하고 관련 단어를 사전(온톨로지)화하는 작업을 하고 있다”고 말했다.


이번 연구에 앞서 송양섭 고려대 교수 등은 10여 년 전부터 조선 후기 경상도 단성현의 호적 대장에 수록된 20여만 명의 빅데이터를 분석해 종래의 ‘신분제 붕괴설’이 과장됐다는 등의 결론을 얻기도 했다. 다만 컴퓨터 알고리즘을 사용한 것이 아니라 수작업으로 자료를 입력했고, 엑셀로 분석했다. 


한국연구재단에서 6년 동안 인문한국(HK) 연구 과제를 심사했던 김태승 아주대 사학과 교수는 이날 토론에서 “보완할 것이 적지 않지만 역사학에서 체계적으로 융합 연구를 시도해 실제 결과물을 낸 첫 사례”라며 “인문학 자료의 전산화를 넘어 이제는 ‘디지털 인문학’으로의 전환이 시작되고 있다”라고 말했다. 


출처 : 동아일보 - 인공지능으로 사료 분석… 역사학의 ‘빅데이터 혁명’ 시작되나

Posted by 바로바로