#247 – Lyonniais #073 – Vocaloid – mode d’emploi

Hier, Feldo me disait qu’il serait intéressant de savoir comment ça marche concrètement le vocaloid. Alors je vais faire une présentation des éléments de base. Si vous avez déjà touché à un logiciel de MAO, vous allez voir que ce n’est pas sorcier. Sinon, ben vous pouvez toujours en profiter pour vous lancer. Accrochez-vous, ça va être long même si je vais tâcher d’être le plus rapide possible.

Brève présentation du machin

Vocaloid est un logiciel distribué par Yamaha. C’est un synthétiseur et un séquenceur MIDI. Un synthétiseur, vous savez ce que c’est, et un séquenceur MIDI, ce n’est qu’un orgue de barbarie numérique. Vous voyez les orgues de barbarie ? Cet instrument dans la fente duquel on fourre des plaquettes de carton trouées puis dont on tourne la manivelle pour qu’il joue les notes perforées dans les plaquettes ? Voilà. C’est ça. Le petit singe sur l’épaule est optionnel.

Attention, comme je le disais dans un précédent article, les vocaloids sont aussi des chanteurs virtuels. Ils s’achètent indépendamment du logiciel vocaloid. On les appelles normalement « banques de voix ». Donc, pas confondre vocaloid et vocaloids. Avec la version 5 du logiciel, quatre banques de voix sont intégrées. Si vous utilisez une version ultérieur il vous aura fallu en acheter au moins une pour pouvoir faire quoi que ce soit avec, mais de toute façon elle n’est plus à la vente. Donc si vous vous y mettez aujourd’hui, vous aurez forcément des banques de voix intégrées. Moi, j’utilise la version 4 du logiciel, mais ne vous inquiétez pas, la v5 n’est qu’une version améliorée de la v4. Tout ce que je vais vous montrer fonctionnera donc très bien sur les deux versions.

Allez. Vous avez le logiciel ? Vous avez au moins une banque de voix ? Alors lançons la machine.

On prépare le terrain

C’est sobre, c’est simple, c’est… Non, c’est pas beau, mais sobre et simple c’est déjà pas mal.

Vous pouvez déjà voir les blocs essentiels ici.

  • tout en haut, la barre de menu
  • juste en dessous de gauche à droite : les outils pour dessiner vos mélodies et ajuster les paramètres midi / un petit bouton sur lequel nous reviendrons plus tard si j’y pense / les boutons liés à la lecture du morceau (pas plus compliqué qu’un magnétoscope, hein ? Oui je me fais vieux.) / les indicateurs de position, de tempo et de signature rythmique / des informations relatives à la position et durée des notes et la façon dont ces dernières vont s’aimanter à vos barres de mesures ou à leurs subdivisions.
  • En dessous encore l’éditeur de piste. Imaginez que votre orgue de barbarie a plusieurs fentes, chacune de ces pistes en est une. Il y a également des pistes dédiées aux fichiers wav. Pour que vous puissiez synchroniser la musique pour laquelle vous composez votre ligne de chant.
  • Toujours plus bas, l’éditeur de musique, ou piano roll : ce sont vos plaquettes de carton, et c’est ici que vous allez les perforer là où il faut pour que l’orgue de barbarie joue les note que vous voulez entendre. (En fait le terme piano roll vient des piano automatiques qui marchent sur le même principe que l’orgue de barbarie, on y glisse des partitions sur rouleaux de papier perforés et le piano joue tout seul.)
  • Dans la même section, un endroit pour gérer les diverses modifications qui s’appliqueront aux notes que vous aurez dessinées juste au dessus.

Si aucune piste n’est crée (mais il y en a toujours au moins une), ben commencez par en créer une. Patate. Une ou plusieurs si vous voulez faire jouer plusieurs voix en même temps, car on ne peut pas superposer plusieurs notes dans la même piste. On dira donc que chaque piste est monophonique. Elle ne produit qu’une note à la fois.

La piste est créée. Bravo, vous venez de créer une fente dans votre orgue de barbarie, maintenant il va falloir créer les plaquettes en carton sur lesquelles vous allez perforer (enfin, ici dessiner) vos notes. C’est ce qui s’appelle une « part » dans ce logiciel. Plus communément, dans les logiciels de MAO (Musique Assistée par Ordinateur), on appelle ça une région MIDI. Cliquez sur une piste, puis allez chercher « Add Part » dans la barre du menu.

Chaque piste peut contenir plusieurs régions MIDI (les unes après les autres), et pour chaque région vous pouvez sélectionner une banque de voix différente de la précédente. L’avantage c’est que vous pouvez donc alterner les vocaloids sur une même piste si vous n’avez pas besoin de les faire chanter simultanément. En bout de course une piste est souvent égale à un fichier wave, donc c’est de la place économisée sur votre disque dur.

Évidemment, si vous créez plusieurs pistes, ça va vite être le bordel niveau volume sonore. En appuyant sur F3 vous pouvez ouvrir le mixeur. Ici vous contrôlerez le volume et le panoramique stéréo de chaque piste.

Bon. Vous avez créé une piste et une région MIDI (part) sur cette piste. En cliquant avec le bouton droit de la souris là-dessus, un menu déroulant s’ouvrira grâce auquel vous pourrez choisir quelle banque de voix vous voulez utiliser. En gros, c’est le choix de l’instrument.

Moi j’utilise v4flower, parce que c’est ma préférée. On a tous des chouchous.

Tout ça s’annonce bien. Seulement, je ne vais pas faire une mélodie comme ça toute seule sortie de mon imagination. Parce que je suis fainéant. Je vais donc importer une musique déjà existante et reproduire la ligne de chant du refrain de ce morceau. Ce morceau, c’est le générique des Mystérieuses Cités d’Or. Pour importer le fichier un simple glisser-déposer depuis le dossier où se trouve le fichier jusqu’à la piste wave stéréo.

Attention : vocaloid v4 n’accepte que les fichiers wave encodés en 16bit

Maintenant je cherche le tempo de la chanson, je trouve que c’est à peu près 104.5 BPM, donc je double clique sur l’indicateur de tempo que vous avez pu voir sur la première image et je rentre cette information. Vous pouvez voir sur l’image juste en dessous qu’il est également possible de modifier le tempo en cours de morceau, pour cela il suffira de spécifier à quelle mesure et sur quel temps le faire varier.

Ensuite, on s’appuie sur la forme d’onde pour faire correspondre le premier temps des mesures du morceau aux barres de mesure du logiciel et on prie pour avoir trouvé le bon tempo sinon ça va se décaler et… bon ben ça va être la merde parce que musique et voix n’arrêteront pas de se désynchroniser.

Dernier ajustement avant de commencer à dessiner vos notes dans l’éditeur de musique. Sélectionnez les bonnes durées pour la quantification et la durée des notes, sinon vous allez de venir fou·folle. Comme vous le voyez ci-dessous, vous pouvez sélectionner une durée (1/4 : une noire ; 1/8 : une croche ; 1/16 : double croche…) dans ces deux catégories. Le quantificateur (quantize) va déterminer à quelles subdivisions de mesure le début de vos notes vont pouvoir s’accrocher, la durée (length) déterminera la durée minimale des notes que vous pourrez dessiner : noire, croche etc… et quand vous étirerez votre note, de quelle durée vous l’étirerez au minimum.

En gros, si vous sélectionnez 1/4 pour le quantize, vous ne pourrez débuter vos notes que sur chaque temps d’une mesure. Si vous sélectionnez 1/8 pour le length, à chaque fois que vous dessinerez une note le logiciel vous proposera des durées égales à des multiples de croches. Donc plus vous sélectionnez des fractions de petite durée plus vous pourrez ajuster finement le placement et la durée de vos notes.

Avec 1/64, je suis peinard. Ma note peut commencer sur l’une des 64 subdivisions de ma mesure, et je peux dessiner des notes aussi courtes que des quadruple-croches si je le veux.

Maintenant on peut commencer à faire n’importe quoi

Bon, ben voilà. On peut commencer à dessiner nos notes. Sélectionnez la bonne piste et la bonne région. Avec le bouton droit de la souris, cliquez sur le piano roll et sélectionnez l’outil crayon (ou allez le chercher tout en haut à gauche de l’écran comme vous avez pu le voir sur la première image de l’article). Ensuite dessinez vos notes à la hauteur et de la durée que vous désirez.

Voilà la mélodie du refrain du générique des Mystérieuses cités d’or une fois dessinée. Je me suis calé sur la piste wave importée de la musique originale pour retrouver les hauteurs de notes et leur durée.

De base, quand on dessine les notes, elles sont remplies par la voyelle [a]. Voici donc le résultat de mon dessin sans avoir encore modifié les phonèmes de chaque note :

Vous savez que si j’aime autant v4 flower, c’est parce que dans les graves on dirait un·e gamin·e qui fait la gueule, et dans les aigües, ben on dirait la voix du refrain des Mystérieuses cités d’or. Oui, je suis un brin nostalgique comme garçon.

Bon, faites gaffe. De base quand vous dessinez de longue notes, le logiciel vous colle d’office un vibrato, si vous voulez le virer, placez votre curseur à la base des vaguelettes sur la ligne affichée en dessous des notes, maintenez le clic et tirez vers la droite. Si au contraire vous voulez en ajouter, placez le curseur au bout de la partie droite de la ligne horizontale et maintenez le clic en tirant vers la gauche.

Les choses sérieuses maintenant. On va commencer à rentrer les paroles. Attention, très compliqué : double-cliquez sur la note dont vous voulez éditer le phonème.

Maintenant entrez vos paroles. Tadaa. C’est fait. Sauf que. Sauf que v4flower est une chanteuse virtuelle japonaise. Donc ici j’utilise le japonais. Pour passer votre clavier en japonais, y a des tutos partout sur le net, merci de vous y référer.

Donc, pour commencer : une note = une syllabe. C’est pas obligatoirement le cas, mais là c’est un tuto grand débutant, alors on fait simple. Ici, on veut lui faire dire « Esteban, Zia ». Je commence donc par entrer les syllabes japonaises qui sont le plus proche possible du son que je veux obtenir sur chaque note.

エ – テ – バ – シ – ア / E – TE – BA – SHI – A

Les japonais n’ont pas de syllabe « zi », mais ont un « dji » à la place. Pour palier à ça, je veux lui faire prononcer « si » pour le « zi » de « zia ». Mais ils n’ont pas de son « si » non plus. Ils ont « sa », « so », « se », « su », mais avec le i, ça devient un « shi ». Cela dit pas de problème. Le phonème [i] existe, le phonème [s] aussi. Alors allons modifier ça dans les propriétés de la note.

Clic gauche sur la note, puis clic droit : tadaaa, menu déroulant

Voilà ce que me donne le logiciel pour le シ / « shi » : [S i]. Pour le logiciel, ce S majuscule dans la case « phonetic », correspond au son « ch » en français, comme dans chat. Je vais donc modifier ça manuellement.

Attention, confondez pas シ avec ツ et ソ avec ン sinon on va pas s’en sortir.

Je remplace donc le [S] par un [s], qui lui désigne le son ssss. Oui, comme le serpent. Bravo. Vous avez 5 ans ou quoi ?

Une question ? Pourquoi je n’ai pas choisi [z i] ou [dz i] ? Parce que ça passait mal avec v4 flower. Comme je vais vous le dire deux paragraphes plus bas, à chaque banque de voix sa prononciation particulière.

Notez avant ça qu’on n’a pas besoin de changer la syllabe des paroles associées quand on modifie l’aspect phonétique. Paroles et phonétique sont dissociées, même si quand vous entrez des paroles directement dans les notes, le logiciel remplit directement la note avec des phonèmes adaptés. Cliquez sur « protect » pour faire en sorte que même si vous modifiez cette syllabe dans les paroles, les phonèmes que vous avez choisis restent inchangés.

En ce qui concerne les symboles phonétiques acceptés par le logiciel pour les vocaloids japonais, je vous laisse apprendre ça par cœur sur ce site (il existe également un page similaire pour les vocaloids anglais). Sachez toute fois que chaque banque de voix gère différemment les phonèmes, donc pour chacune il faut adapter ses techniques. D’où le fait que la plupart des compositrices et compositeurs restent fidèles à une poignée de vocaloids qu’elles et ils maîtrisent bien.

Si vous êtes assez maligne ou malin, vous aurez pigé que vous pouvez directement entrer les phonèmes dans la case phonetic de chaque note sans passer par le clavier japonais. Ce qui peut être utile, bien que sans savoir quels sons existent en japonais, ça risque d’être assez fastidieux.

Allez, la suite. Je rajoute un « su » (ス) après le « E » de Esteban, et je neutralise le son « u » (noté [M] dans le logiciel) en lui adjoignant un petit [_0] pour qu’il ne reste que le son « s ». C’est ce qu’on appelle un dévoisement, en phonétique. Eh oh, vous vous doutiez bien qu’en voulant faire causer un synthétiseur vous alliez un minimum devoir bosser votre phonétique non ? Sans déconner, veulent plus bosser les jeunes aujourd’hui…

Je rajoute également un [N] après le « ba » de Esteban. Et je fais ainsi pour toutes les autres notes auxquelles il manquait des sons complexes à produire pour des japonais après que je leur avais attribué une syllabe simple.

Voici donc ce que donne donc cette même mélodie avec tout les phonèmes qu’il faut là où il les faut :

Heureusement il n’y avait pas de « r » à prononcer car ce son n’existe pas en japonais. Enfin, à part à « or » de cités d’or, mais c’est en fin de mot donc ça passe.

C’EST PAS TERMINÉ !!!

Enfin, pour moi si, parce que je suis un gros fainéant. Mais voici tous les potards que vous pourriez tourner pour changer le son global de chaque note :

D’abord de succinctes descriptions, ensuite quelques démos.

  • VEL: La manière dont la première consonne est prononcée (sur certains phonèmes c’est l’intensité avec laquelle ils sont prononcés, sur d’autres ça joue sur le timing). N’affecte que les consonnes.
  • DYN: Un bouton de volume en gros. En haut ça gueule, en bas ça chuchote.
  • BRE : Pour rajouter du souffle dans la voix, pour simuler la respiration, ou simplement ajouter un petit grain à la voix.
  • BRI et CLE: Deux filtres type égaliseur qui jouent sur les haut médiums et aigües, jouant donc sur la clarté et la brillance du son.
  • OPE: Un autre filtre qui simule la proportion dans laquelle la voix virtuelle ouvre sa bouche qui n’existe pas. Ce qui étouffe ou rend plus claire l’énonciation.
  • GEN: Pour jouer sur la qualité masculine ou féminine de la voix.
  • POR: pour régler à quel point la note précédente bave sur la suivante.
  • XSY: J’ai pas pigé. Cherchez vous-même.
  • GWL: Pour ajouter du grognement. De la saturation dans la voix.
  • PIT et PBS: Pour modifier manuellement et très finement la hauteur des notes.

On sélectionne ces effets dans le sélecteur d’effets (sans dec…) dont vous pouvez voir le menu déroulant dans l’image du dessus, et on les module avec l’outil crayon en dessinant des courbes et lignes (la partie verte et les barres dans l’image) sous les notes.

Illustrations de quelques uns de ces effets. Évidemment, pour que vous entendiez bien les différences, j’ai poussé les boutons à fond, ce n’est pas très esthétique.

NORMAL
BREATHINESS : souffle
GROWL : grognement

En jouant finement de ces deux paramètres, on peut arriver à reproduire des voix plus réalistes. Mais moi je suis un bourrin donc j’y touche pas trop. Du coup j’ai essayé quand même, pour donner un exemple, mais c’est peu concluant et ça m’a vite saoulé :

BREATHINESS et GROWL presque finement réglés.

Autre exemple, le paramètre GEN pour gender :

Voix plus masculine.
Voix plus féminine (limite enfant là, j’ai trop tourné le bouton)

Voilà. Quand vous avez fini de faire mumuse avec tout ça (moi je ne le fais pas trop, mais si vous voulez un résultat soigné vous devriez). Vous pouvez ajuster vos volumes dans le mixeur si vous avez créé plusieurs voix, ainsi que le panoramique stéréo (ce que j’ai oublié de faire).

Et finalement il ne vous reste plus qu’à exporter le résultat en wave. Plusieurs options s’offrent à vous, elles sont listées dans l’image ci-dessous.

Toujours 16bit max sur la v4.

OUF !

C’est fini. J’en peux plus. Définitivement je ne suis pas fait pour rédiger des tutoriels. J’y ai passé bien trop de temps et j’ai les yeux éclatés. J’espère que vous avez appris deux trois trucs au moins.

Et que vous avez la musique des Mystérieuses cités d’or dans la tronche pour quelques jours.

Avec plusieurs voix pour donner l’effet chœur mais c’est pas fameux, je commençais à en avoir ma claque de ce tuto.

À demain. Et désolé pour les fautes, mais clairement cet article est trop long, je vais pas me relire.