OCR로 문자 인식하는 PDF 문서 만들기와 뷰어앱

OCR로 문자 인식하는 PDF 문서 만들기와 뷰어앱

아이패드 프로로 책 스캔하여 보는 방법

OCR로 문자 인식하는 PDF 문서

이전 내용에서 vFlat으로 스캔을 하였고, pdf로 만들었다. 그런데 그것이 전부가 아니다. pdf에는 문자인식이 된 OCR된 PDF도 있다.

파워포인트나 워드 문서에서 다른 형식으로 저장을 이용하면 PDF로 저장을 할 수 있는 데, 이 경우에 문자들은 마우스를 위에 대고 드래그를 하면 복사가 가능한 문자로 되어 있다.

그런데, 스캔해서 만든 PDF는 이미지이기 때문에 마우스로 드래그해서 복사할 수 없다. 그래서 스캐너에서는 OCR 프로그램을 제공해 준다.

OCR은 Optical Character Reader의 약자로 광학 문자 판독기라고 한다. 즉 이미지 속의 글자를 편집가능한 문자로 변환해주는 것으로 이해하면 된다.

글로만 알려주면 이해가 되지 않기 때문에 화면을 캡쳐하였다.

아크로뱃 리더로 pdf를 읽어들여서 마우스로 문자 위를 드래그할 때 위에처럼 드래그가 되어 문자를 선택하고 복사할 수 있는 문서로 만들 수 있다.

OCR로 문자 인식하는 PDF 문서

PC 뿐만 아니라 태블릿에서도 pdf 문서를 불러 드래그해서 복사 및 밑줄긋기 등의 기능을 할 수 있다.


vFlat

그럼 이런 pdf문서를 만들 수 있는 OCR 프로그램 중 첫번째로는 vFlat의 자체기능을 소개 할 수 있다.

vFlat도 스캐너이기 때문에 OCR 기능을 제공을 해준다. 사용방법은 쉽다

서재에서 스캔한 이미지들을 선택하고 설정에서 “텍스트 인식하기” 를 클릭하면 된다. 쉽게 인식할 수 있게 되어 있다.

하단에는 텍스트 보기 버튼이 있어서 텍스트 인식하기 기능에서 인식된 문자를 확인해 볼 수 있다. 한글 인식율도 꽤 좋은 편이어서 잘 전환이 되었다.

조명 때문에 글자가 흐릿하게 스캔된 부분은 물론 제대로 문자로 인식이 안되기는 한다.

OCR로 문자 인식하는 PDF 문서

그러나 큰 단점이 있다. 바로 최대 인식가능한 장수가 100장이다. 한 번이 아니고 하루. 즉 100장을 넘기면 다음 날에 되어서야 또 문자인식을 할 수 있다는 것이다.

이번에 스캔한 책인 “트렌드 코리아 2020″의 경우 258장이었으므로 3일에 걸쳐서 스캔을 한 셈이었다.

단, 문자 인식 시간은 짦은 것이 장점이다. 100장을 인식할 때 2 ~ 3분 정도 걸렸다.


Adobe Acrobat Pro DC

두번째는 유료이지만 확실한 프로그램으로 Adobe Acrobat Pro DC 이다. Adobe의 구독형 서비스로 사용하는 것으로 회사에서 구입해 사용하고 있다.

Acrobat Pro DC로 PDF 문서를 열어서 텍스트인식 기능을 열어서 구동하면 된다. 스캔 및 OCR 기능에서 작동을 시킬 수 있다. 무료 버전에는 없는 기능이다.

OCR로 문자 인식하는 PDF 문서

스캔 기능을 열면 변환 과정이 나온다. 텍스트 인식 시간은 vFlat에 비해 느린 편이었고, 오류도 많이 나온다. 3권의 책을 이것을 이용해서 인식을 해 본 결과 마지못해 사용한다는 표현이 나올 정도이다.

내 PC의 문제인 지, 프로그램의 문제인 지 많은 페이지를 한 번에 인식시키려면 메모리 오류가 꼭 발생하였다. 이럴 경우 프로그램 강제 종료 후 재실행해서 반복 작업을 해야 했다.

그래서 위의 장면에 보면 페이지 범위를 설정해서 부분 부분 인식 작업을 해서 부분 인식이 완료되면 저장하고를 반복해서 최종 저장을 하는 반복작업을 하였다.

즉, 3일에 걸쳐 작업을 하느냐, 하루에 끝나지만 반복 작업을 하느냐의 선택의 문제였다. vFlat 개발자에게 문의를 하였으나 아직 답변이 없었다.


알PDF

세번째는 알집을 만든 알툴즈에서 배포하는 “알PDF”이다. 이것은 알PDF를 설치한 후 바로 사용할 수 있는 것은 아니고, OCR 플러그인은 추가로 설치해야 한다.

아쉽게도 테스트는 해봤지만, 버그가 있는 지 오류가 나서 결과에 대해 정확히 알 지 못해서 캡쳐를 하지 못했다. 또한 이 프로그램의 라이센스는 개인에게만 무료라 잠깐 테스트해보고 삭제를 했다.


PDF Viewer

이렇게 3가지의 OCR 프로그램을 설명했다. 이제는 아이패드에서 PDF뷰어로 사용하는 책 보기 프로그램을 소개하겠다.

Flexcil

첫번째는 플렉실 (Flexcil)이다. 초기에는 무료로 배포하였는 지 꽤나 많은 사용자들에게 극찬을 받은 프로그램이다.

그러나 내가 사용하려는 지금 시점에는 추가 기능을 이용하려면 11,000원에 구입해야 하는 프로그램이다. 기본 기능으로도 사용이 가능하나 조금 답답한 부분이 있다.

OCR로 문자 인식하는 PDF 문서

두 페이지 보기 기능을 지원해서 추천하는 앱이다. 아이패드 프로를 가로로 배치하고 위 기능으로 책을 보면 정말 책 보는 기능을 느낄 수 있다. 글자 크기도 가독성 좋게 알맞아 보기 좋다.

갤럭시탭 S4를 사용할 때는 두 페이지 보기로 보는 것이 조금 작다고 느꼈다.

유료 기능을 1달 맛보기로 사용해 봤다. 밑줄을 긋거나 형광펜으로 표시하는 기능의 경우 자로 잰 듯 반듯하게 하는 기능을 지원해 주는 데, 이 기능이 일회용이라 다시 사용하려면 기능을 또 활성화시켜서 줄을 그어야 하는 불편한 점이 있었다.

그러나 부분을 선택해서 내장된 노트에 복사해서 책을 정리하는 기능이 마음에 드는 앱이다.


Xodo

두번째는 갤럭시탭 S4에서는 자주 사용했지만, 아이패드에는 없는 줄 알았다가 혹시나 해서 검색해서 있음을 알게된 Xodo (소도)이다.

Xodo도 사용했던 이유가 바로 두 페이지 보기 기능 때문이었다. 옵션에서 Facing을 선택하면 두 페이지 보기가 된다.

갤럭시탭 S4에서도 책보기 기능으로만 사용했는 데, 그 이유는 필기 기능은 다른 메모 필기 앱에 비해 불편하기 때문이었다. 역시 아이패드용으로 나온 이 Xodo도 불편한 것은 마찬가지였다.

또한 잠시 사용하다가 위와 같은 에러가 나왔다. 형광펜으로 표시하려고 했는 데, 주변이 검은색이나 하얀색이 덧씌여진 모양이 되었다. 갤럭시탭 S4에서도 위와 같은 에러는 없었는 데, 아이패드 버전의 문제인 지 모르겠다.

Xodo는 완전히 무료 앱이다. 그것이 최대 장점이다.

OCR로 문자 인식이 된 PDF 만드는 방법과 아이패드에서 책 보는 뷰어 앱에 대해 설명을 했다.


추가정보

Loading

2 thoughts on “OCR로 문자 인식하는 PDF 문서 만들기와 뷰어앱

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다