사용자 삽입 이미지

최근 보컬로이드계의 화젯거리, 보카리스(VocaListener)라는 시스템이 적용되었다고 추측되는 노래, 'PROLOGUE'.



일단 아직 들어보지 못한 분들을 위해서 영상을 링크.


지난달 29일 (4월 29일)에 니코니코에 등록된 영상입니다.  http://www.nicovideo.jp/watch/sm3128145

[하츠네 미쿠] PROLOGUE [보카리스]
이 조교 결과를 들어봐 주시길 바랍니다. 아직 부자연스러운 부분이 좀 있지만 즐겁게 들어주시면 좋겠습니다. 앞으로도 롱버전이나 다른 곡 등을 차츰 올릴 예정이니 잘 부탁드립니다!

보컬로이드 노래를 몇 번 들으시던 분이 처음 들으면 느끼시리라 생각합니다만, '보컬로이드'로 만들어진 노랫소리 치고는 상당히 인간스러운 부분이 느껴지는 노래입니다. 노래 시작 전이나 끝난 후의 말하기도 능숙. 전반적으로 비브라토가 약간 부자연스러운 느낌에, 몇몇 미쿠 특유의 나쁜 발음'(一緒に'-'いっしょに'-'잇쇼니'가 '잇쵸니'로 들리는 등)이 있지만 그런 부분들을 제외하고는 상당한 느낌이지요.

어쨌든 기존에 나온 보컬로이드 노래들과는 차원이 다른 듯한 이 영상의 등장으로 보컬로이드계가 들썩거리기 시작했습니다. 올린이 설명에 이 노래가 어떤 기술이 사용되었는지에 대해서는 일절 말이 없고, 단지 '기존과는 다른 시도를 한 보컬로이드 노래'라는 정도 밖에 밝히지 않았기 때문에 도대체 보컬로이드로 어떻게 이런 목소리를 뽑아낼 수 있었는지에 대해 말이 많았습니다. (지금도 간간히 나오지만 어느 정도 정리된 느낌)

그러다가 구글링을 통해 정체가 약간 밝혀졌는데... '보카리스'를 줄이기 전 단어로 생각되는 'VocaListener'로 검색하면 나타나는 페이지가 딱 하나 있었습니다.(지금은 각종 기사 등의 글로 범벅되었지만 제가 처음 검색했을 때에는 딱 한 페이지만 나왔었습니다) '제75회 음악 정보 과학 연구회 프로그램'라는 제목의 페이지인데, 말 그대로 음악 관련 기술의 연구 발표회인 모양인듯, 5월 28일, 29일 열리는 연구회의 발표 항목들에 대한 설명이 적혀 있습니다. 여기에서 VocaListener 항목을 찾을 수 있는데 그 부분만 옮겨보면 다음과 같습니다.

(9) VocaListener: 유저 가창을 흉내내는 가성 합성 파라메터를 자동 추정하는 시스템의 제안
中野倫靖,後藤真孝(산총연)

지금은 '보카리스'에 대해서 저 문장을 통해 추측하는 수 밖에 없습니다. 저 문장대로라면 노랫소리에서 데이터를 뽑아내서 그걸 보컬로이드에 사용할 수 있는(혹은 범용성이 있는) 파라메터로 수치화 시켜 자동적으로 적용시키는 시스템... 정도로 생각할 수 있겠습니다.

이 시스템이 보컬로이드 에디터 자체에 포함되는 기술인지 아니면 에디터의 애드온 같은 형식인지 아니면 완전히 다른 별개의 프로그램인지는 알 방법이 없습니다만, 일단 공개된 영상을 보는 한 보컬로이드 에디터와 유사한 화면 스크롤을 보여주나, 음계를 제외한 정보는 보여주고 있지 않습니다. 그리고 그 음계도 자연스러운 발음을 나타내기 위한 임의적인 조작을 가한 것이 아닌 최저한의 입력만을 해 둔 상태로 보이고...  따라서 그 외의 부분들을 통해 이런 노랫소리(인간스러운 음계와 비브라토)를 구현하고 있다고 볼 수 있겠습니다.

하지만 'PROLOGUE'를 들어보면 몇 가지 특이할 만한 있는데, 먼저 목소리에서 느껴지는 '음색'이 보통의 미쿠와는 좀 다르게 느껴지는 점. 원래의 어린 느낌이 아닌 젠더팩터를 좀 올린듯한 목소리... 쉽게 말해서 '아줌마'스러운 목소리로 들립니다. 노래 말고도 말하기 부분에서도 그런 느낌이 드는데, 이것이 젠더 팩터 수치를 조절해서 그런 것인지 아니면 구현 방법에 따라서 자연스럽게(어쩔 수 없이) 이렇게 된 것인지는 역시 불명. 혹시 샘플(부른 사람)의 '음색'까지 구현하는 것인지?

두 번째로 위에서도 적은 미묘한 비브라토. 사람에 따라서 다르게 들릴 수도 있겠습니다만, 보통 사람이 부르는 노래라고 생각한다면 약간 부자연스러운 느낌이 듭니다. 샘플을 들어보질 못했으니 이것이 샘플을 충실하게 재현한 것인지 아니면 데이터를 입력하면서 이런 식이 된 건지 역시 불명.

세 번째로 결국 '오리지널' 데이터에서 보컬로이드용으로 파라메터를 수치화 시킨다는 것은 '오리지널'이 없으면 무용지물? 이라는 이야기가 되는가 하는 점인데... 이것 역시 아직 정확하게 밝혀진 것이 없기 때문에(모든 것은 5월 25일 발표회에 밝혀질 듯) 짐작할 수 밖에 없습니다만.. 보컬로이드로 '노래'를 만들기 위해 사람이 부른 '노래'가 필요하게 된다면 이건 그야말로 '주객전도'..가 아니냐는 이야기가 나오네요. 이건 생각하기 나름인 부분이 아닌가 싶습니다만 만약 데이터화 한 가창 파라메터의 사용 범위의 제한이 적다면 여러 가지 부분에 쓰일 수 있는 가능성이 많다고 생각되지만서도... 역시 어떤 형식인지 불명확하기 때문에 아직 뭐라고 확정 짓기는 힘들군요.

네 번째로 저 영상에 쓰인 'PROLOGUE'라는 곡. 여기에서 확인할 수 있습니다만 「연구자가 연구 목적으로 이용하는데 있어 공통 이용의 자유, 학술 이용의 자유가 확보된 음악 정보 처리 연구용 DB」으로 구축되어 있는 「RWC 연구용 음악 데이터베이스」로 등록되어 있는 곡인듯 합니다. 저 쪽에 표기되어 있는 가수의 창법이 위 영상의 노래의 샘플이 되었는지 아닌지는 역시 알 수 없지만... 이 정도까지 나와 있다면 역시 VocaListener 이라는 시스템의 연구 결과로 만들어진 영상이라는 점이 거의 틀림없다고 생각되네요.



자.. 보카리스에 대해서는 이 정도까지 쓰기로 하고...
이번에는 이 '보카리스'의 'PROLOGUE'가 나온 후 2ch 유튜브판 보컬로이드 스레에 올라온 만만찮은 물건을 소개해 드리겠습니다.
일단 스레에 올라온 글을 옮겨보지요.

400 이름 없는 이@배 부르다. [sage] Date:2008/05/01(木) 05:54:16 ID:yM+Njn580
문득 정신차려 보니 한창 "보카리스"라는 것이 화제인 듯 해서
일단 한번 들어봤습니다만 「하아, 과연 그렇군」이라는 느낌을 받은지라
시험적으로 하츠네 미쿠를 써서 제 나름대로 노력해 봤습니다.
 · 듣고서 비교할 수 있는 기존곡
 · 노래의 억양을 판별하기 쉬운 발라드 넘버
...이라는 점에서 하마사키 아유미(통칭 하마 = 29)의 「Dearest」를 부르도록 해 봤습니다.
사비(サビ, 브릿지)의 백 코러스 이외에는 전부 다 하츠네 미쿠, 거기에 단일 트랙입니다.

혹시 평판이 좋으면 작업 과정을 간단한 동영상으로 정리해 볼까 합니다.


478 이름:400[sage] 작성일:2008/05/01(木) 07:43:31 ID:yM+Njn580
죄송합니다. 제 본령인 MEIKO로 조성 작업 하고 있었습니다 > <
잠깐 >> 400의 개요에 대해서 말하자면, 대략적으로 나타낸다면
「소리의 3요소(음정, 음색, 음량)」이라는 원점으로 되돌아 간 느낌입니다.
VCO…VOCALOID(비브라토 기능은 사용하지 않고 노트 에디터와 피치 벤드로 제어)
VCF…DAW(포르만트 변화 등을 오토메이션으로 제어)
VCA…VOCALOID(벨로시티와 다이나믹스)+DAW(컴프레셔와 그 외)
업로드 할 vsq 파일을 준비하겠습니다.

497 이름:400[sage] 작성일:2008/05/01(木) 08:05:17 ID:yM+Njn580
어른의 사정 때문에 풀버전 공개는 역시 좀 그렇고(라고 할까 아직 조율의 여지도 남아있고),
어디까지나 연구용으로 처음 4소절 부분을 올립니다.
VEL/DYN/PIT, 각각의 항목을 참고해 주시기 바랍니다.
ttp://www.42ch.net/UploaderSmall/source/1209596322.zip pass=miku

741 이름:전 스레 400[sage] 작성일:2008/05/01(木) 23:56:49 ID:yM+Njn580
순수한 뉴스 속보판 주민으로서 설마 제 댓글이 전재될 줄은 생각도 못했습니다 > <
그런 고로, 날짜가 바뀌기 전에 작업해서 준비한 MEIKO의 음원을 업로드.

ver.0.50

한번 들어보면 아시겠지만, 현재는 「つ」「じ」 발음이 어색한 상태입니다.
앞으로의 에정으로는 「つ」「じ」 부분의 피치를 먼저 VOCALOID측에서 바꿔가면서, 거기다 그걸 DAW에서 원래의 피치로 시프트시켜서 포르만트를 링크시키는 방향으로 조성하려고 합니다.
그리고, 배음의 트랜전트도 딱 맞도록 조절하지 않으면 안될지도.
알고는 있었습니다만, 비교적 깔끔한 하츠네 미쿠에 비해서 역시 MEIKO는 좀 그렇구나~, 하는 생각이.
그렇기 때문에 애정이 생긴다는 점도 있습니다만.
뭐, 다음주 초에 영상 공개를 할 수 있다면 좋겠는데~ 라는 생각을 하면서 노력하겠습니다.

...뭐, 위에 있는 노래를 들어보시면 아시겠지만... 'PROLOGUE'와 맞먹는 충격을 던져줍니다. 두말할 것 없이 신의 조율이라는 느낌. 혹, 비브라토가 너무 떨리는 것 아니냐는 생각이 드는 분이 계시다다면... http://kr.youtube.com/watch?v=C5Z3QQrv9wQ 에서 하마사키 아유미의 원곡을 한 번 들어보세요. 절대 심하다는 생각이 들지 않습니다. 과연 비교곡으로 선곡할 만하군요.

위의 400씨(처음 글이 올라온 번호가 400번이므로 편의상 이렇게 부릅니다)가 배포한 vsq파일을 들여다보면 DYN과 PIT, VEL을 이용해서 자연스러운(사람같은) 비브라토와 음정을 구현하면서, 발음 교정을 위한 음 추가나 다중 트랙의 추가를 하지 않음은 물론, 다른 파라메터도 일절 건드리지 않았습니다. 거기다 그려놓은 각 파라메타의 형태를 보면 이건... 그야말로 장인정신이 깃들었다고 말해도 좋을 정도.

사용자 삽입 이미지

오랜만에 보컬로이드를 켜 봤습니다 ...

파라메터를 한번 보면 벨로시티는 보통 각 부분마다 발음(자음)의 강약을 처음에는 강하게 시작해서 서서히 약하게 변화시키는 모습이 반복됨을 확인할 수 있습니다.
다이나믹스와 피치는 아주 세심하게 그려진 가파른 곡선의 반복. 그것도 서로가 유기적으로 연결되어 있는듯한 모습이고, 구절마다 하나의 곡선을 그리는 것이 반복되어 있는 것처럼 보입니다. 특히 비브라토를 구현한 듯한 부분은 곡선의 경사가 눈에 띌 정도. 뭐.. 제가 전문가는 아니기 때문에 이 정도까지만 눈에 보입니다만... 전문가들이라면 분명 보고서 '과연 그렇구나'하는 느낌이 오실 듯 하네요.

이 vsq파일을 린과 렌으로 재생해 본 결과(린/렌만 정품이 있는 관계로.. orz), 공개된 파일 만큼은 아니지만 상당히 괜찮은 느낌으로 노래가 재생되었습니다. 물론 특유의 발음과 비음은 남아있을 수 밖에 없지만... 특히 린으로 재생시켰을 때에는 호오~? 하는 감탄사가..

이걸로 보컬로이드로 노래를 만드는 분들에게는 상당한 참고가 될 듯 싶네요. 특이할만한 점이라면.. 이게 순수히 보컬로이드의 파라메터를 수동 지정해서 구현하는 방법이기 때문에 (위에도 있지만) 보컬로이드1 (MEIKO, KAITO)에도 그대로 적용 가능한 방법이라는 것. 따라서 VOCALOID2 (하츠네 미쿠, 카가미네 린 등)가 되면서 가능해진 방법이 아닌, 보컬로이드의 첫 시작때부터 가능했던 방법이라는 것입니다. 따라서 이 400씨의 가창 조율은 완전한 신기술이라기 보다는 '콜롬부스의 달걀'과도 같이 간단(하다고 하기에는 뭐하지만)한 일을 발상의 전환으로 실현한 것이라고 볼 수 있지 않나 싶습니다. 다르게 말하면 VOCALOID의 인간 가창 구현 능력의 기반은 이미 첫 출시때부터 충분히 강력했다..라고 할 수 있을까요.
어쨌든 제작 과정을 담은 영상이 어서 공개되기만을 기다릴 뿐입니다. 400씨의 이 조교 방법에서 과연 이 복잡한 파라메터를 직접 손으로 그리는 것인지 아니면 다른 툴을 통해 파일 변환을 해서 읽어들이는 것인지... 그리고 과연 얼마나 시간이 많이 걸리는 조교법인지 궁금한게 너무 많네요.

뭐 그건 그렇고... 보카리스의 저 영상을 보고서 단시간내에 이렇게 유사한 형태의 조교(라고 말하는게 옳은지는 확실하지 않습니다만 보컬로이드 자체의 기능이 아닌 방법으로 구현한 것은 분명)를 실현해 냈다는 것은 역시 '아는 사람들은 생각해 낼 수 있는 방법이지만 구현하는게 실로 귀찮은 방법'이 아닐까 싶은 생각이 드네요. 보카리스의 정체도 궁금하고... 진실은 이달 말의 발표회에서 풀리겠지요.


쓰다보니 역시나 긴 글이 되었네요. 보컬로이드2 하츠네 미쿠가 발매된지 거의 8개월, 위와 같은 기술들이 나타남으로서 보컬로이드계는 한계를 하나 더 넘어가려고 하지 않나 싶네요. 앞으로 과연 어떤 모습이 되어갈지 너무 기대가 됩니다. 얼른 위 기술들의 실체가 밝혀졌으면... 그리고 기술의 보급으로 보컬로이드계 전체가 한단계 위로 올라갈 수 있으면 좋겠네요.

쓸데없이 긴 글을 읽어주신 분들에게 감사드립니다. ㅜㅜ

쓸데없이 긴 글을 읽기 귀찮아서 밑으로 내리신 당신을 위한 짤막정리 :
-> 니코니코 동영상에 '프롤로그'라는 상당히 인간이 부르는 듯한 느낌의 노래가 올라왔는데, 이게 VocaListener 라는 수수께끼의 기술을 사용하고 있는 듯 하다. VocaListener의 연구 발표는 5월 28일.
-> 위 '프롤로그'가 올라온 후에 2ch에서 유사한 방법으로 보이는 조율을 통해 상당히 인간에 근접한 노래를 미쿠와 메이코로 부르게 한 사람이 나타났다. 샘플 vsq파일 또한 공개했으며, 자세한 제작 영상은 조만간 업로드 할 예정.

우왕ㅋ굳ㅋ


ps. 위의 노래들을 듣고(특히 PROLOGUE) 뭔가 거부감을 느끼신 분들을 위한 읽을거리.
언캐니 밸리 - 위키백과

ps2. 400씨의 Dearest를 제 동생(보컬로이드라는 존재에 대해서는 알고는 있지만 그다지 관심 없음)에게 한 번 들려줬는데... "이거 보컬로이드로 만들어진 노래야"라고 말해주기 전까지는 전혀 눈치를 채지 못했습니다. 여러분들은 과연 어떠신지?

ps3. 위의 연구 발표회에 크립톤사의 사장님(사사키 와타루)도 나오셔서 발표를 하시는 듯. ...과연..?

2008.5.9 추가 - 위의 400P(yuukiss씨인것이 판명났지만)의 조교는 사람의 노래 데이터를 그대로 뽑아서 덮어씌우거나 보컬로이드에 다른 애드온 등을 만들어서 조율한 것은 아닙니다. (물론 DAW쪽에서 손보는건 있지만 그거와는 다른 개념이고) 크립톤 쪽에서 뭔가 관련된 프로그램?이랄까 수상한 것을 만들고 있는 듯 합니다만 아직 밝혀지지도 않았습니다.

2008/05/02 22:49 2008/05/02 22:49
치리 이 작성.



이 사이트는 광고 목적의 댓글, 트랙백을 거부합니다.
이 사이트에서의 메일 주소 무단 수집을 거부합니다.
이를 무시하고 광고 목적의 댓글 및 트랙백을 남기거나 메일 주소 무단 수집이 발견될 시,
관련법에 의거하여 처벌받을 수 있습니다.