본문 바로가기

워드

pdf 텍스트 추출 1분안에 무료 진행하기

워드나 아래아 한글과 달리 pdf 파일의 경우 받는 사람이 파일 열람에 대한 걱정이 없어서 정말 좋아요. 이러한 요인이 더해져 많이 사용되고 있는데요. 이번 시간에는 pdf에 있는 모든 텍스트를 추출하는 방법을 알려드리려고 해요. 프로그램을 따로 설치할 필요가 없어요. 그냥 바로 인터넷 상에서 무료로 진행할 수 있거든요.

 

 

온라인 상에서 바로 이용할 수 있는 pdf 사이트는 참 많아요. 일부 사이트의 경우 사용하는 데에 제약이 있거나 우리가 원하는 텍스트 추출 기능을 갖추지 못한 경우가 많은데요. 이번에 사용할 pdf candy 사이트의 경우 기능도 많고, 무료로 텍스트 추출을 할 수 있어요.



pdf candy 사이트에 접속했어요. 이곳에서는 파일 합치기, 압축, word로 변환, 반대로 변환, 이미지로 변환, 자르기, 회전, 워트마크 삽입, 크기 변경 등 굉장히 많은 기능을 사용할 수 있네요. pdf 텍스트 추출 서비스는 이용하려면 OCR을 선택하면 돼요. OCR은 광학 문자 인식을 의미하는데요. 사람이나 컴퓨터가 작성한 문자 이미지를 스캔하여 컴퓨터가 읽을 수 있는 문자로 변환하는 것을 의미해요. OCR을 한 번 하고 나면 편하게 키보드로 편집을 할 수 있게 되는 것이죠.



OCR 서비스 페이지가 열렸어요. Add file 버튼을 누른 후 텍스트 추출을 할 대상이 되는 파일을 선택해 주세요.



미리 준비한 pdf 파일을 선택해 보았어요. 클릭하면 바로 추가가 돼요.



파일이 추가되면 미리 보기 화면을 통해 pdf 파일이 어떤 내용을 담고 있는지 알 수 있는데요. 좌측에 있는 "English"를 클릭해 보세요. 그럼 언어 선택이 가능한데요. 해당 pdf에 많이 사용된 언어를 선택하면 돼요. 영어와 한국어는 물론이고, 이탈리아어, 프랑스어, 스웬덴어, 일본어, 중국어 등 다양한 언어로 씌여진 텍스트를 추출할 수 있어요. 언어 선택을 완료한 이후에는 "Start" 버튼을 눌러주세요.



1분도 되지 않아서 pdf 텍스트 추출이 완료 되는데요. 작업 완료 시 이렇게 화면에 Done 표시가 나타날 거에요. 그럼 해당 페이지 중앙에 있는 Download file 버튼을 클릭해 주세요.



다운로드 버튼을 누르면 확장자가 "txt"로 된 텍스트 파일을 컴퓨터에 저장할 수 있는데요. 파일을 열어보면 pdf 파일에 있던 내용이 추출된 것임을 알 수 있어요.