Mesure MOS voix sur mobile : ViSQOL vs POLQA — guide comparatif
Comparaison détaillée entre ViSQOL et POLQA pour la mesure automatisée du MOS voix sur mobile. Avantages, limites, coûts et cas d'usage pour les équipes QoE télécom.
La qualité vocale perçue par l’abonné reste l’un des indicateurs les plus sensibles pour un opérateur mobile. Un MOS voix dégradé sur une zone génère des plaintes, du churn, et une image de marque abîmée. Pourtant, mesurer objectivement cette qualité sur le terrain reste un défi technique et économique. Deux approches dominent : POLQA, le standard ITU-T historique, et ViSQOL, l’alternative portée par Google Research. Ce guide compare leurs caractéristiques pour aider les équipes QoE à choisir.
Qu’est-ce que le MOS voix ?
Le MOS (Mean Opinion Score) est une échelle de 1 à 5 qui quantifie la qualité perçue d’un signal vocal :
| Score MOS | Qualité perçue | Interprétation |
|---|---|---|
| 4.3 - 5.0 | Excellente | Voix naturelle, aucune dégradation perceptible |
| 3.5 - 4.3 | Bonne | Légères altérations, conversation confortable |
| 2.5 - 3.5 | Passable | Dégradations audibles, effort d’écoute |
| 1.5 - 2.5 | Médiocre | Conversation difficile |
| 1.0 - 1.5 | Inacceptable | Communication impossible |
Historiquement, le MOS était obtenu par des panels d’écoute humains (méthode subjective, ITU-T P.800). Les algorithmes objectifs automatisent cette évaluation en comparant un signal dégradé à une référence.
POLQA : le standard ITU-T P.863
POLQA (Perceptual Objective Listening Quality Analysis) est la recommandation ITU-T P.863, successeur de PESQ (P.862). C’est le standard de référence utilisé par les régulateurs et les grands opérateurs depuis 2011.
Points forts de POLQA
- Reconnaissance réglementaire : accepté par l’ARCEP, la BNetzA, l’OFCOM et la plupart des régulateurs comme méthode de mesure officielle
- Couverture fréquentielle : mode SWB (Super Wideband, 50 Hz - 14 kHz) adapté aux codecs HD Voice (EVS, AMR-WB)
- Corrélation validée : corrélation > 0.95 avec les scores subjectifs sur les corpus ITU-T
- Maturité industrielle : intégré dans TEMS, Nemo, Rohde & Schwarz depuis plus de 10 ans
Limites de POLQA
- Coût de licence : les droits POLQA sont gérés par OPTICOM/Swissqual. Les licences par canal coûtent typiquement 5 000 - 15 000 EUR/canal/an, ce qui rend le déploiement multi-device prohibitif
- Modèle fermé : implémentation propriétaire, boite noire, pas de possibilité d’adaptation
- Signal de référence obligatoire : POLQA est une méthode full-reference — il faut injecter un signal connu et le comparer au signal reçu, ce qui complexifie l’automatisation terrain
- Latence de calcul : le traitement nécessite le signal complet, ce qui empêche le scoring en temps réel
ViSQOL : l’approche ML de Google Research
ViSQOL (Virtual Speech Quality Objective Listener) est un modèle développé par Google Research, publié en open-source. Il utilise des techniques de machine learning pour estimer la qualité perçue à partir de représentations spectrales (spectrogrammes de Gammatone).
Points forts de ViSQOL
- Pas de royalties par canal : le modèle est libre de droits, ce qui permet un déploiement illimité sur autant de devices que nécessaire
- Deux modes :
speech(16 kHz, optimisé pour la voix) etaudio(48 kHz, adapté à la musique et aux contenus mixtes) - Approche ML : le modèle apprend les patterns de dégradation plutôt que de les modéliser analytiquement, ce qui lui confère une meilleure robustesse face aux artefacts non prévus par les modèles classiques
- Corrélation compétitive : les publications Google Research montrent une corrélation > 0.92 avec les scores subjectifs sur les corpus TCD-VoIP et GVSO
- Intégration embarquée : le modèle est suffisamment léger pour tourner sur ARM64 (Android), ce qui permet le scoring directement sur le device de test
Limites de ViSQOL
- Pas de certification ITU-T : ViSQOL n’est pas reconnu comme standard par l’ITU, ce qui peut poser problème pour les audits réglementaires formels
- Full-reference : comme POLQA, ViSQOL nécessite un signal de référence pour le calcul
- Calibration requise : le modèle ML doit être calibré pour les conditions spécifiques du réseau mobile (codecs EVS/AMR-WB, conditions de bruit ambiant)
Comparaison synthétique
| Critère | POLQA (P.863) | ViSQOL |
|---|---|---|
| Organisme | ITU-T / OPTICOM | Google Research |
| Type de modèle | Psychoacoustique analytique | Machine learning (Gammatone) |
| Certification ITU | Oui (P.863) | Non |
| Coût de licence | 5 000 - 15 000 EUR/canal/an | Libre de droits |
| Mode speech | SWB (50 Hz - 14 kHz) | 16 kHz |
| Mode audio | Non | 48 kHz |
| Scoring embarqué ARM64 | Difficile (licence, CPU) | Oui |
| Corrélation subjective | > 0.95 | > 0.92 |
| Acceptation réglementaire | Standard de référence | En progression |
Quel modèle choisir ?
Le choix dépend du contexte d’utilisation :
Choisir POLQA si :
- Vos mesures doivent être soumises à un régulateur (ARCEP, BNetzA) dans le cadre d’une obligation de couverture
- Votre client exige explicitement la conformité ITU-T P.863 dans le cahier des charges
- Vous disposez d’un budget licence confortable et d’un nombre limité de canaux de mesure
Choisir ViSQOL si :
- Vous déployez des mesures QoE sur un parc de devices Android (drive test, walk test, benchmarking)
- Le coût par canal est un facteur bloquant pour votre modèle économique
- Vous souhaitez intégrer le scoring directement sur le device sans dépendance à un serveur de calcul
- Vos mesures sont destinées à un usage interne (optimisation réseau, troubleshooting) plutôt qu’à un reporting réglementaire
L’intégration HiCellTek
Le MOS Voice SDK de HiCellTek intègre ViSQOL comme moteur de scoring vocal. Le choix de ViSQOL repose sur trois arguments :
- Coût prédictible : la licence SDK annuelle (4 490 EUR/an) inclut un nombre illimité de devices, contrairement au modèle par canal de POLQA
- Scoring embarqué : le calcul MOS s’exécute directement sur le smartphone Android ARM64, sans round-trip réseau
- Intégration L3 : chaque score MOS est corrélé aux événements Layer 3 (handover, reconfiguration RRC, changement de codec) pour un diagnostic root-cause immédiat
Le SDK fournit un score MOS par segment vocal de 3 secondes, synchronisé avec les KPI RF et les messages de signalisation collectés en parallèle.
Conclusion
POLQA reste le standard réglementaire incontournable pour les audits formels. Mais pour les équipes terrain qui déploient des mesures QoE sur un parc de smartphones Android, ViSQOL offre une alternative techniquement solide à un coût radicalement inférieur. Le MOS Voice SDK de HiCellTek rend cette approche immédiatement opérationnelle, avec un scoring embarqué corrélé aux données Layer 3.
Découvrez les tarifs du MOS Voice SDK et contactez notre équipe pour une démonstration sur vos cas d’usage.
Fondatrice HiCellTek. +15 ans dans les télécoms, côté opérateur, côté éditeur, côté terrain. Construit l'outil terrain que les ingénieurs RF méritent.
Demandez une démo personnalisée de HiCellTek, diagnostic réseau 2G/3G/4G/5G sur Android.