Game theory for tactical networks - ENSTA Bretagne - École nationale supérieure de techniques avancées Bretagne Accéder directement au contenu
Thèse Année : 2020

Game theory for tactical networks

Théories des jeux pour les communications militaires tactiques

Résumé

Since 1990’s, the demand on wireless devices, mobile and wireless networks, has experienced unprecedented growth which makes the frequency bands more and more crowded. Several studies, initiated by the Federal Communications Commission (FCC), have shown that the frequency bands are not well used: some frequency bands are overlapped while others underutilized. The Opportunistic Spectrum Access (OSA) in Cognitive Radio (CR) represents one of several proposed solutions to tackle the scarcity and enhance the efficiency use of the spectrum. In OSA, two categories of users are considered: Primary Users (PUs), also known as licensed users, have the right to fully access their dedicated bandwidths; and Secondary Users (SUs), i.e. opportunistic users, would like to exploit vacant frequency bands unused by the PUs. [...] To identify the best channel, we formulate OSA as a Multi-Armed Bandit (MAB) problem, in which an agent plays one arm at each time trying to reach the optimal arm with the highest expected reward. Several MAB algorithms have been suggested to solve the MAB problem in the context of OSA, such as Thompson Sampling (TS), Upper Confidence Bound (UCB), e-greedy. By focusing first on a single SU, we analyze the performance of the well-known MAB algorithms (i.e. TS, UCB, e-greedy) that deal with OSA. Thus, we propose our MAB algorithms based on UCB, called: e-UCB and AUCB. Both of them achieve good results compared to well-known variants of MAB algorithms, i.e. UCB and e-greedy. Our analytical proof, as well as the simulation results, of e-UCB and AUCB show that the SU can efficiently distinguish and converge to the best channel after a finite number of time slots. For multiple users, the big challenge of SUs remains to learn collectively (Cooperative learning) or separately (Competitive learning) the vacancy probabilities of the channels. As a matter of fact, a cooperative or competitive learning policy is required in order to manage the secondary network and decrease the number of collisions among users. Generally, the policies to manage a secondary network can be classified into two main categories: Random access or priority access. Most recent works in OSA focus on the random access while the priority access is not enough considered in the literature. In fact, the priority access can have an important role in tactical networks in which several SUs exist with some hierarchy levels. In our work, we propose a cooperative and competitive policies for the priority access respectively called Side Channel and All-Powerful Learning (APL). In our policies, each SU has an assigned priority rank, and his target remains to access the channels according to his rank. Moreover, Side Channel and APL deal with the priority dynamic access where the users can enter into or leave the network. While, to the best of our knowledge, only the priority or dynamic access are considered in several recent works. Finally, a proof is developed to verify the performance of proposed learning policies on a real radio environment. Simulation results show that Side channel and APL can achieve better results than several recent works: the users can quickly reach their dedicated channels while decreasing the number of collisions among them.
Durant le siècle passé, les ressources spectrales ont été allouées aux services qui sont apparus au fur et à mesure des années. Avec une augmentation soutenue des besoins en bandes fréquentielles d'applications de communication sans fil, les opérateurs de radiocommunication se sont trouvés face à une pénurie. Néanmoins, des études initiées par la Commission fédérale des communications (FCC : Federal Communications Commission) ont montré que les bandes de fréquences sont mal exploitées : certaines bandes sont peu chargées, d'autres sont surchargées. L'Accès Opportuniste au Spectre (AOS) dans une radio cognitive représente une potentielle solution proposée pour lutter contre un manque accru du spectre et améliorer le rendement de l’utilisation. Dans un AOS, deux catégories d'utilisateurs sont définis : les utilisateurs primaires (PU), possédant les licences, ont un droit exclusif d'accéder à leurs bandes fréquentielles en permanence ; et les utilisateurs secondaires (SU) ou opportunistes qui cherchent à exploiter les bandes de fréquences libérer par un PU. [...] Pour identifier le meilleur canal, nous avons proposé un modèle d'AOS en se basant sur un problème de multi-arm bandit (MAB), dans lequel un joueur joue une seule machine à sous à chaque tournée en espérant de découvrir la meilleure machine qui augmentera son gain. Plusieurs algorithmes ont été développés pour mieux aborder le problème du MAB, notamment Thompson Sampling (TS), Upper Confidence Bound (UCB), e-greedy. Nous avons analysé et comparé les performances des algorithmes TS, UCB, et e-greedy. Nous avons proposé deux nouveaux variétés de l’algorithme UCB : e-UCB et AUCB. Les deux derniers algorithmes ont donné une grande satisfaction en montrant des meilleures performances que les autres variantes bien connues des algorithmes UCB ou e-greedy, dans lesquelles le SU peut rapidement estimer la probabilité de disponibilité des canaux sans préalable information. Nous avons ensuite étudié un cas plus général où plusieurs utilisateurs secondaires coexistent, le principal goal de ces SU reste à trouver la meilleur stratégie (apprentissage coopératif) ou les stratégies individuelles (apprentissage compétitif) pour mieux estimer les probabilités de disponibilité des canaux. Les travaux les plus récents concentrent sur l'accès aléatoire alors que l'accès priorité n'est pas suffisamment pris en compte dans la littérature. En fait, l'accès priorité peut avoir un rôle important dans les réseaux tactiques dans lesquels plusieurs SU existent avec certains niveaux de hiérarchie. Dans nos études et pour un réseau tactique avec une certaine hiérarchie, nous avons proposé deux stratégies, l’une coopérative : Side Channel ; l’autre compétitive : All-Powerful Learning (APL). Selon ces deux stratégies, chaque SU a un rang fixe, et son objectif est d'accéder aux canaux disponibles en respectant son rang. Side Channel et APL prennent en compte un accès prioritaire et dynamique, où les utilisateurs peuvent entrer ou sortir du réseau à tout moment. Dans la littérature, un accès prioritaire ou un accès dynamique ont été séparément évoqués. Finalement une étude de performance théorique a été développée pour les stratégies d'apprentissage proposées. Les simulations ont montré que Side Channel et APL ont donné les meilleurs résultats par rapport à la littérature. En appliquant l’une de ces deux stratégies, les utilisateurs secondaires peuvent rapidement identifier les canaux correspondants à leurs rangs tout en réduisant le nombre de collisions parmi eux.
Fichier principal
Vignette du fichier
2020_mahmoud_almasri.pdf (10.81 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03350456 , version 1 (21-09-2021)

Identifiants

  • HAL Id : tel-03350456 , version 1

Citer

Mahmoud Almasri. Game theory for tactical networks. Computer Science and Game Theory [cs.GT]. ENSTA Bretagne - École nationale supérieure de techniques avancées Bretagne, 2020. English. ⟨NNT : 2020ENTA0002⟩. ⟨tel-03350456⟩
129 Consultations
35 Téléchargements

Partager

Gmail Facebook X LinkedIn More