티스토리 뷰

졸업 논문 주제로 음성합성을 하고있다

carpedm20님의 발표와 깃허브 자료를 보고 이정도면 따라하면서 배우면서 할수 있을 것 같아서 시작했는데 막상 시작하고 보니 코드가 잘 돌아가지 않아서 우여곡절이 있었다.
결국 중도 포기까지 갔다가 현재 다시 도전중이다. 한글 음성 합성은 일단 미루고, 영어 합성을 먼저 해보고 한글로 순차적으로 진행하기로 했다. 영문이 원본이다보니 좀더 시도해본 사람도 많고 좀 더 원활하게 진행이 된다.

처음에는 영문판도 실패를 거듭하다가 라이브러리 설치를 이버전 저버전 바꿔가면서 시도해본 결과 pre training을 이용한 합성은 성공한 상태이고, training도 현재 진행중이다.(keithito님의 tacotron 소스코드 참고중)
가상환성이 왜 필요한지, 버전 관리가 왜 중요한지 뼈저리게 깨닫는데 중복으로 용량을 차지하는게 너무 많아지는건 좀 문제다.
training에 들어가는 데이터 용량도 엄청나다.

용량이 없어서 path가 안맞아서 라이브러리버전이 달라서 등 우여곡절을 거쳐 현재 LJ dataset을 활용하여 트레이닝 시키고있는중이다.

이상한 소리도 좋으니 코드가 실행이 되긴 됐구나 느낄수있을정도로라도 음성이 나오면 정말 기쁠거같다.

차근차근 조금씩 더 공부하면서 진행중.




반응형
댓글