회원가입시 인증행위가 고서의 디지털화에 재활용된다
미국의 많은 도서관들이 장서를 디지털화하는 작업을 진행하고 있는데 서적을 스캔하고 광학문자인식(OCR) 프로그램을 이용해 스캔된 문서에서 글자를 추출한다. 여기서 광학문자인식 프로그램이란 책을 스캔하면 스캐너가 글자를 자동으로 추출해 내어주는 프로그램으로 가정에서 쓰는 스캐너에도 대부분 OCR기능이 들어있다.
문제는 원본 상태가 좋지 않은 책은 OCR 프로그램을 이용해도 글자 식별이 잘 안 된다는 점이다. 이러한 글자는 사람이 일일이 수정해 고쳐야하는데 수백만 권에 달하는 책의 각 페이지마다 이 작업을 하려면 엄청난 시간과 비용이 필요하다.
이를 해결하기 위해 루이스 폰 안 미국 카네기멜론대 교수가 개발한 ‘리캡차(reCAPTCHA)’라는 프로그램이 빛을 발했다. 리캡차는 인식되지 않은 문서의 글자 이미지를 추출해 이를 웹사이트 가입 인증 프로그램인 캡차(CAPTCHA)에 이용한다. 요즘은 웹사이트에 가입할 때 프로그램에 의한 대량 자동 가입을 막기 위해 의도적으로 비틀어진 이미지의 글자를 입력하라고 요구하는데, 이것이 바로 캡차 프로그램이다. 웹사이트에 가입하고자 하는 일반인들의 인증 행위를 고서의 디지털화 작업에 재활용하고 있는 셈으로 이를 통해 하루 약 2000만 단어가 수정되고 있다고 한다.
Google이 이러한 reCAPTCHA사를 매수한다고 발표했는데 스팸메일 발신, 사기 등의 악질 이용을 막고 보안을 강화함과 동시에 Google Books와 Google News 등 스캐닝이 필요한 프로젝트에 활용할 것 같다.

카테고리:과학/연구
최근 댓글