Stratégies à zéro latence pour la transmission ...
Document type :
Thèse
Permalink :
Title :
Stratégies à zéro latence pour la transmission vidéo en utilisant l'extrapolation des images
English title :
Zero-Latency strategies for video transmission using frame extrapolation
Author(s) :
Kanj, Hind [Auteur]
Institut d’Électronique, de Microélectronique et de Nanotechnologie - UMR 8520 [IEMN]
COMmunications NUMériques - IEMN [COMNUM - IEMN]
Institut d’Électronique, de Microélectronique et de Nanotechnologie - UMR 8520 [IEMN]
COMmunications NUMériques - IEMN [COMNUM - IEMN]
Thesis director(s) :
Patrick CORLAY
Defence date :
2024-09-11
Accredited body :
Université Polytechnique Hauts de France
Doctoral school :
Ecole Doctorale Polytechnique Hauts-de-France
Keyword(s) :
Codage vidéo linéaire
Apprentissage automatique
zero latence
Transmission vidéo
Algorithme d'adaptation de débit
Schéma hybride
Apprentissage automatique
zero latence
Transmission vidéo
Algorithme d'adaptation de débit
Schéma hybride
English keyword(s) :
Video transmission
Machine learning
Linear Video Coding
zero latency
Adaptive bitrate Algorithm
Hybrid scheme
Machine learning
Linear Video Coding
zero latency
Adaptive bitrate Algorithm
Hybrid scheme
HAL domain(s) :
Physique [physics]
Sciences de l'ingénieur [physics]
Sciences de l'ingénieur [physics]
French abstract :
La demande de diffusion sans interruption de contenu vidéo et de haute qualité avec une latence minimale est essentielle dans les applications telles que la diffusion sportive et le contrôle de systèmes à distance. Cependant, ...
Show more >La demande de diffusion sans interruption de contenu vidéo et de haute qualité avec une latence minimale est essentielle dans les applications telles que la diffusion sportive et le contrôle de systèmes à distance. Cependant, la diffusion vidéo reste exposée à des défis en raison des caractéristiques variables des canaux de communication, qui peuvent avoir un impact sur la qualité de l'expérience en termes de qualité vidéo et de latence de bout en bout (le temps entre l'acquisition de la vidéo à l'émetteur et son affichage au récepteur). L'objectif de cette thèse est d'aborder le problème des applications en temps réel avec transmission unicast du serveur au client, telles que les applications de contrôle à distance, tout en maintenant une bonne qualité. Nous testons l'efficacité d'une technique récente d'apprentissage profond pour la compensation de la latence dans le schéma de transmission vidéo et son impact sur la qualité. Cette technique prédit les images futures à l'aide des images précédentes disponibles, ce qui permet d'afficher les images au moment voulu. Les résultats montrent que l'extrapolation est prometteuse, en particulier pour les contenus avec peu d'informations temporelles. Cependant, elle doit encore être améliorée en termes de qualité, de prédiction à long terme et de délai d'extrapolation. Plusieurs études se concentrent sur l'intégration d'un système hybride numérique-analogique pour améliorer la qualité perceptive, profitant des avantages des méthodes numériques et analogiques. Nous étudions l'efficacité d'un schéma hybride à faible latence en termes de réduction de la latence tout en maintenant une qualité vidéo élevée. Les résultats montrent que le système hybride améliore la qualité de la vidéo reçue dans la plupart des cas. Cependant, les artefacts d'extrapolation surpassent les artefacts d'encodage et masquent les avantages des schémas hybrides. Ainsi, l'amélioration des performances des schémas hybrides repose sur l'amélioration de l'extrapolation. En plus, les méthodes de diffusion adaptative HTTP ont prouvé leur efficacité pour améliorer la qualité de l'expérience en ajustant le débit d'encodage en fonction des conditions du canal. La plupart de ces algorithmes sont utilisés au client, ce qui pose des problèmes pour répondre aux exigences de latence des applications en temps réel. Dans ces applications, les vidéos sont acquises, compressées et transmises à partir de dispositifs jouant le rôle de serveurs. Donc, ces méthodes pilotées par le client ne conviennent pas à cause de la variabilité des conditions du canal. En plus, la prise de décision se fait avec une périodicité de l'ordre de la seconde, ce qui n'est pas assez réactif lorsque le serveur se déplace, ce qui entraîne des retards importants. Il est donc important d'utiliser une granularité d'adaptation plus fine. Nous visons à contrôler la latence de bout en bout tout en garantissant une qualité d'expérience élevée. Un contrôle du débit d'encodage au niveau d'image à l'émetteur est combiné à une extrapolation au récepteur pour compenser le retard de bout en bout. Le contrôle du débit au niveau d'image permet au système de s'adapter aux variations soudaines des conditions du canal. Un retard apparent de bout en bout nul peut être atteint au prix d'une perte de qualité du signal. Les algorithmes existants tentent d'optimiser les sources individuelles de retard dans le schéma de diffusion vidéo, mais pas de réduire la latence de bout en bout et d'atteindre une latence nulle. Un «Model Predictive Control» impliquant le niveau de mémoire tampon à l'émetteur et l'estimation du débit canal est utilisée pour trouver la valeur optimale du débit d'encodage pour chaque image. Il ajuste dynamiquement le compromis entre le débit de codage et l'horizon d'extrapolation, tout en prévoyant l'impact de la décision relative au débit d'encodage sur les images futures, pour améliorer la qualité d'expérience.Show less >
Show more >La demande de diffusion sans interruption de contenu vidéo et de haute qualité avec une latence minimale est essentielle dans les applications telles que la diffusion sportive et le contrôle de systèmes à distance. Cependant, la diffusion vidéo reste exposée à des défis en raison des caractéristiques variables des canaux de communication, qui peuvent avoir un impact sur la qualité de l'expérience en termes de qualité vidéo et de latence de bout en bout (le temps entre l'acquisition de la vidéo à l'émetteur et son affichage au récepteur). L'objectif de cette thèse est d'aborder le problème des applications en temps réel avec transmission unicast du serveur au client, telles que les applications de contrôle à distance, tout en maintenant une bonne qualité. Nous testons l'efficacité d'une technique récente d'apprentissage profond pour la compensation de la latence dans le schéma de transmission vidéo et son impact sur la qualité. Cette technique prédit les images futures à l'aide des images précédentes disponibles, ce qui permet d'afficher les images au moment voulu. Les résultats montrent que l'extrapolation est prometteuse, en particulier pour les contenus avec peu d'informations temporelles. Cependant, elle doit encore être améliorée en termes de qualité, de prédiction à long terme et de délai d'extrapolation. Plusieurs études se concentrent sur l'intégration d'un système hybride numérique-analogique pour améliorer la qualité perceptive, profitant des avantages des méthodes numériques et analogiques. Nous étudions l'efficacité d'un schéma hybride à faible latence en termes de réduction de la latence tout en maintenant une qualité vidéo élevée. Les résultats montrent que le système hybride améliore la qualité de la vidéo reçue dans la plupart des cas. Cependant, les artefacts d'extrapolation surpassent les artefacts d'encodage et masquent les avantages des schémas hybrides. Ainsi, l'amélioration des performances des schémas hybrides repose sur l'amélioration de l'extrapolation. En plus, les méthodes de diffusion adaptative HTTP ont prouvé leur efficacité pour améliorer la qualité de l'expérience en ajustant le débit d'encodage en fonction des conditions du canal. La plupart de ces algorithmes sont utilisés au client, ce qui pose des problèmes pour répondre aux exigences de latence des applications en temps réel. Dans ces applications, les vidéos sont acquises, compressées et transmises à partir de dispositifs jouant le rôle de serveurs. Donc, ces méthodes pilotées par le client ne conviennent pas à cause de la variabilité des conditions du canal. En plus, la prise de décision se fait avec une périodicité de l'ordre de la seconde, ce qui n'est pas assez réactif lorsque le serveur se déplace, ce qui entraîne des retards importants. Il est donc important d'utiliser une granularité d'adaptation plus fine. Nous visons à contrôler la latence de bout en bout tout en garantissant une qualité d'expérience élevée. Un contrôle du débit d'encodage au niveau d'image à l'émetteur est combiné à une extrapolation au récepteur pour compenser le retard de bout en bout. Le contrôle du débit au niveau d'image permet au système de s'adapter aux variations soudaines des conditions du canal. Un retard apparent de bout en bout nul peut être atteint au prix d'une perte de qualité du signal. Les algorithmes existants tentent d'optimiser les sources individuelles de retard dans le schéma de diffusion vidéo, mais pas de réduire la latence de bout en bout et d'atteindre une latence nulle. Un «Model Predictive Control» impliquant le niveau de mémoire tampon à l'émetteur et l'estimation du débit canal est utilisée pour trouver la valeur optimale du débit d'encodage pour chaque image. Il ajuste dynamiquement le compromis entre le débit de codage et l'horizon d'extrapolation, tout en prévoyant l'impact de la décision relative au débit d'encodage sur les images futures, pour améliorer la qualité d'expérience.Show less >
English abstract : [en]
The demand for seamless, high-quality video content delivery with minimal latency is paramount in today's applications such as sports broadcasting, videoconferencing, and remote system control. However, video delivery still ...
Show more >The demand for seamless, high-quality video content delivery with minimal latency is paramount in today's applications such as sports broadcasting, videoconferencing, and remote system control. However, video delivery still faces challenges due to unpredictable nature of communication channels. The variations in channel characteristics can impact the quality of experience in terms of content quality and End-To-End latency - the time elapsed between video acquisition at the transmitter and its display at the receiver. The aim of this thesis is to address the issue of real time applications with unicast transmission from server to client such as remote control applications, while maintaining a good quality. We test the effectiveness of a recent deep learning technique for latency compensation in the video transmission scheme and its impact on video quality. This technique predicts future frames using available previous frames, allowing the end-user to display the images at the desired time. The results demonstrate the promise of extrapolation, especially for content with low temporal information. However, it still needs to be improved in terms of quality, long-term prediction, and extrapolation delay. Various studies focus on the integration of a hybrid digital-analog scheme to improve the perceptual quality, taking advantage of the strengths of both digital and analog methods. We study the effectiveness of low-latency hybrid scheme in term of reducing latency while maintaining high video quality. The results show that the hybrid scheme improves the quality of the received video in most cases. However, the extrapolation artifacts outweigh encoding artifacts and mask the advantages of hybrid schemes. Thus, the improvement in hybrid scheme performance relies on the enhancement of extrapolation. Moreover, HTTP Adaptive Streaming methods have proven their effectiveness in improving the quality of experience by dynamically adjusting the encoding rate based on channel conditions. However, most of these adaptation algorithms are implemented at the client level, which poses challenges in meeting latency requirements for real time applications. In addition, in real time application, videos are acquired, compressed, and transmitted from the device acting as the server. Therefore, client-driven rate adaptation approaches are not suitable due to the variability of the channel characteristics. Moreover, in these methods, the decision-making is done with a periodicity of the order of a second, which is not reactive enough when the server is moving, leading to significant delays. Therefore, it is important to use a finer adaptation granularity in order to reduce the End-To-End delay. We aim to control the End-To-End latency during video delivery while ensuring a high quality of experience. A frame-level encoder rate control at the transmitter side is combined with a frame extrapolation at the receiver side to compensate the End-To-End delays. Frame-level rate control enables the system to adapt to sudden variations of channel characteristics. Null apparent End-To-End delay can be reached at the price of some signal quality. To the best of our knowledge, state-of-the-art algorithms try to optimize the individual sources of delay in the video delivery scheme, but not to reduce the whole End-To-End latency and achieve zero latency. A model predictive control approach involving the buffer level at the transmitter and the throughput estimation is used to find the optimal value of encoding rate for each frame. It dynamically adjusts the trade-off between the encoding rate and the extrapolation horizon at the receiver, while predicting the impact of the encoding rate decision on future frames, thus providing the best quality of experience.Show less >
Show more >The demand for seamless, high-quality video content delivery with minimal latency is paramount in today's applications such as sports broadcasting, videoconferencing, and remote system control. However, video delivery still faces challenges due to unpredictable nature of communication channels. The variations in channel characteristics can impact the quality of experience in terms of content quality and End-To-End latency - the time elapsed between video acquisition at the transmitter and its display at the receiver. The aim of this thesis is to address the issue of real time applications with unicast transmission from server to client such as remote control applications, while maintaining a good quality. We test the effectiveness of a recent deep learning technique for latency compensation in the video transmission scheme and its impact on video quality. This technique predicts future frames using available previous frames, allowing the end-user to display the images at the desired time. The results demonstrate the promise of extrapolation, especially for content with low temporal information. However, it still needs to be improved in terms of quality, long-term prediction, and extrapolation delay. Various studies focus on the integration of a hybrid digital-analog scheme to improve the perceptual quality, taking advantage of the strengths of both digital and analog methods. We study the effectiveness of low-latency hybrid scheme in term of reducing latency while maintaining high video quality. The results show that the hybrid scheme improves the quality of the received video in most cases. However, the extrapolation artifacts outweigh encoding artifacts and mask the advantages of hybrid schemes. Thus, the improvement in hybrid scheme performance relies on the enhancement of extrapolation. Moreover, HTTP Adaptive Streaming methods have proven their effectiveness in improving the quality of experience by dynamically adjusting the encoding rate based on channel conditions. However, most of these adaptation algorithms are implemented at the client level, which poses challenges in meeting latency requirements for real time applications. In addition, in real time application, videos are acquired, compressed, and transmitted from the device acting as the server. Therefore, client-driven rate adaptation approaches are not suitable due to the variability of the channel characteristics. Moreover, in these methods, the decision-making is done with a periodicity of the order of a second, which is not reactive enough when the server is moving, leading to significant delays. Therefore, it is important to use a finer adaptation granularity in order to reduce the End-To-End delay. We aim to control the End-To-End latency during video delivery while ensuring a high quality of experience. A frame-level encoder rate control at the transmitter side is combined with a frame extrapolation at the receiver side to compensate the End-To-End delays. Frame-level rate control enables the system to adapt to sudden variations of channel characteristics. Null apparent End-To-End delay can be reached at the price of some signal quality. To the best of our knowledge, state-of-the-art algorithms try to optimize the individual sources of delay in the video delivery scheme, but not to reduce the whole End-To-End latency and achieve zero latency. A model predictive control approach involving the buffer level at the transmitter and the throughput estimation is used to find the optimal value of encoding rate for each frame. It dynamically adjusts the trade-off between the encoding rate and the extrapolation horizon at the receiver, while predicting the impact of the encoding rate decision on future frames, thus providing the best quality of experience.Show less >
Language :
Anglais
Source :
Submission date :
2024-09-18T04:37:46Z