Mesure MOS voix sur mobile : ViSQOL vs POLQA

La qualité vocale perçue par l’abonné reste l’un des indicateurs les plus sensibles pour un opérateur mobile. Un MOS voix dégradé sur une zone génère des plaintes, du churn, et une image de marque abîmée. Pourtant, mesurer objectivement cette qualité sur le terrain reste un défi technique et économique. Deux approches dominent : POLQA, le standard ITU-T historique, et ViSQOL, l’alternative portée par Google Research. Ce guide compare leurs caractéristiques pour aider les équipes QoE à choisir.

Qu’est-ce que le MOS voix ?

Le MOS (Mean Opinion Score) est une échelle de 1 à 5 qui quantifie la qualité perçue d’un signal vocal :

Score MOS	Qualité perçue	Interprétation
4.3 - 5.0	Excellente	Voix naturelle, aucune dégradation perceptible
3.5 - 4.3	Bonne	Légères altérations, conversation confortable
2.5 - 3.5	Passable	Dégradations audibles, effort d’écoute
1.5 - 2.5	Médiocre	Conversation difficile
1.0 - 1.5	Inacceptable	Communication impossible

Historiquement, le MOS était obtenu par des panels d’écoute humains (méthode subjective, ITU-T P.800). Les algorithmes objectifs automatisent cette évaluation en comparant un signal dégradé à une référence.

POLQA : le standard ITU-T P.863

POLQA (Perceptual Objective Listening Quality Analysis) est la recommandation ITU-T P.863, successeur de PESQ (P.862). C’est le standard de référence utilisé par les régulateurs et les grands opérateurs depuis 2011.

Points forts de POLQA

Reconnaissance réglementaire : accepté par l’ARCEP, la BNetzA, l’OFCOM et la plupart des régulateurs comme méthode de mesure officielle
Couverture fréquentielle : mode SWB (Super Wideband, 50 Hz - 14 kHz) adapté aux codecs HD Voice (EVS, AMR-WB)
Corrélation validée : corrélation > 0.95 avec les scores subjectifs sur les corpus ITU-T
Maturité industrielle : intégré dans TEMS, Nemo, Rohde & Schwarz depuis plus de 10 ans

Limites de POLQA

Coût de licence : les droits POLQA sont gérés par OPTICOM/Swissqual. Les licences par canal coûtent typiquement 5 000 - 15 000 EUR/canal/an, ce qui rend le déploiement multi-device prohibitif
Modèle fermé : implémentation propriétaire, boite noire, pas de possibilité d’adaptation
Signal de référence obligatoire : POLQA est une méthode full-reference — il faut injecter un signal connu et le comparer au signal reçu, ce qui complexifie l’automatisation terrain
Latence de calcul : le traitement nécessite le signal complet, ce qui empêche le scoring en temps réel

ViSQOL : l’approche ML de Google Research

ViSQOL (Virtual Speech Quality Objective Listener) est un modèle développé par Google Research, publié en open-source. Il utilise des techniques de machine learning pour estimer la qualité perçue à partir de représentations spectrales (spectrogrammes de Gammatone).

Points forts de ViSQOL

Pas de royalties par canal : le modèle est libre de droits, ce qui permet un déploiement illimité sur autant de devices que nécessaire
Deux modes : speech (16 kHz, optimisé pour la voix) et audio (48 kHz, adapté à la musique et aux contenus mixtes)
Approche ML : le modèle apprend les patterns de dégradation plutôt que de les modéliser analytiquement, ce qui lui confère une meilleure robustesse face aux artefacts non prévus par les modèles classiques
Corrélation compétitive : les publications Google Research montrent une corrélation > 0.92 avec les scores subjectifs sur les corpus TCD-VoIP et GVSO
Intégration embarquée : le modèle est suffisamment léger pour tourner sur ARM64 (Android), ce qui permet le scoring directement sur le device de test

Limites de ViSQOL

Pas de certification ITU-T : ViSQOL n’est pas reconnu comme standard par l’ITU, ce qui peut poser problème pour les audits réglementaires formels
Full-reference : comme POLQA, ViSQOL nécessite un signal de référence pour le calcul
Calibration requise : le modèle ML doit être calibré pour les conditions spécifiques du réseau mobile (codecs EVS/AMR-WB, conditions de bruit ambiant)

Comparaison synthétique

Critère	POLQA (P.863)	ViSQOL
Organisme	ITU-T / OPTICOM	Google Research
Type de modèle	Psychoacoustique analytique	Machine learning (Gammatone)
Certification ITU	Oui (P.863)	Non
Coût de licence	5 000 - 15 000 EUR/canal/an	Libre de droits
Mode speech	SWB (50 Hz - 14 kHz)	16 kHz
Mode audio	Non	48 kHz
Scoring embarqué ARM64	Difficile (licence, CPU)	Oui
Corrélation subjective	> 0.95	> 0.92
Acceptation réglementaire	Standard de référence	En progression

Quel modèle choisir ?

Le choix dépend du contexte d’utilisation :

Choisir POLQA si :

Vos mesures doivent être soumises à un régulateur (ARCEP, BNetzA) dans le cadre d’une obligation de couverture
Votre client exige explicitement la conformité ITU-T P.863 dans le cahier des charges
Vous disposez d’un budget licence confortable et d’un nombre limité de canaux de mesure

Choisir ViSQOL si :

Vous déployez des mesures QoE sur un parc de devices Android (drive test, walk test, benchmarking)
Le coût par canal est un facteur bloquant pour votre modèle économique
Vous souhaitez intégrer le scoring directement sur le device sans dépendance à un serveur de calcul
Vos mesures sont destinées à un usage interne (optimisation réseau, troubleshooting) plutôt qu’à un reporting réglementaire

L’intégration HiCellTek

Le MOS Voice SDK de HiCellTek intègre ViSQOL comme moteur de scoring vocal. Le choix de ViSQOL repose sur trois arguments :

Coût prédictible : la licence SDK annuelle (4 490 EUR/an) inclut un nombre illimité de devices, contrairement au modèle par canal de POLQA
Scoring embarqué : le calcul MOS s’exécute directement sur le smartphone Android ARM64, sans round-trip réseau
Intégration L3 : chaque score MOS est corrélé aux événements Layer 3 (handover, reconfiguration RRC, changement de codec) pour un diagnostic root-cause immédiat

Le SDK fournit un score MOS par segment vocal de 3 secondes, synchronisé avec les KPI RF et les messages de signalisation collectés en parallèle.

Conclusion

POLQA reste le standard réglementaire incontournable pour les audits formels. Mais pour les équipes terrain qui déploient des mesures QoE sur un parc de smartphones Android, ViSQOL offre une alternative techniquement solide à un coût radicalement inférieur. Le MOS Voice SDK de HiCellTek rend cette approche immédiatement opérationnelle, avec un scoring embarqué corrélé aux données Layer 3.

Découvrez les tarifs du MOS Voice SDK et contactez notre équipe pour une démonstration sur vos cas d’usage.

Mesure MOS voix sur mobile : ViSQOL vs POLQA — guide comparatif