프로젝트 주제는 <파쇄 문서를 복원하는 알고리즘 구현하기>였습니다. 사람들이 보통 파쇄할 때 문서 정보를 알아볼 수 없도록 파쇄합니다. 이 때 어떤 알고리즘, 딥러닝을 통해 파쇄문서를 복원하는게 목표입니다
[프로젝트 과정]
OCR, 자연어 처리 등 여러 개념들이 복합적으로 융합된 거라서 개념 이해부터 시작했어요. 파쇄하는 방법도 저마다인데요. 세로 방향으로 파쇄, 가로 방향으로 파쇄, 정말 먼지 같이 조그맣게 파쇄하는 방법… 이미 문서가 파쇄됐기 때문에 이미지 순서도 없어졌고, 이미지나 글이 한 문서에 있다보니 문장 순서도 모르겠더라구요. 그래서 이미지 순서와 문장 나열 순서를 같이 복원할 수 있다면 문서 전체를 복원할 수 있을 것이다라는 가설을 세우고 프로젝트를 시작했습니다.
[결과물 및 프로젝트 마무리]
자연어 처리, 컴퓨터 비전 관련해서 여러 분야가 융합된 프로젝트다 보니까 여러 가지를 다룰 수 있었고, 팀원들과 발표 준비를 함께 하며 많이 배웠습니다. 후반기가 돼서야 프로젝트 본질이 뭔지 파악하게 됐는데 그게 좀 아쉽습니다, 그리고 새로운 논문이나 자료를 정말 많이 찾아 보았는데, 이것들 중에서 적용 가능한 게 뭔지 빨리 판단하는 부분이 부족했습니다. 어쨌든 저희가 매주 거의 대부분의 시간을 서로 토론하고 발표하면서, 많이 성장하지 않았나 싶습니다. 시행착오를 겪었던 게 발전의 계기가 된 것 같아요.