Drakkar
Home > News > HDR defense — Maciej Korczynski — December 17

HDR defense — Maciej Korczynski — December 17

Friday 17 December 2021

Traffic Measurements and Data Analysis for DNS Security

Soutenance prévue le vendredi 17 décembre 2021 à 14h dans l’auditorium du bâtiment IMAG, 700 avenue Centrale, Domaine universitaire, 38400 Saint Martin d’Hères.

Résumé

Le protocole DNS (Domain Name System) associe des noms de domaine faciles à mémoriser à leurs étiquettes numériques compréhensibles par les machines (adresses IP), attribuées à chaque appareil connecté à Internet. Le DNS est le protocole le plus critique et le plus méconnu, en l’absence duquel les utilisateurs d’Internet devraient mémoriser les adresses IP de toutes les applications, y compris les sites bancaires, les courriers électroniques ou les médias sociaux.

Aux premiers jours de l’Internet, comme l’a souligné le Dr. Paul Vixie, les scientifiques ont investi tous leurs efforts pour faciliter les communications, car ils pensaient que "quelque chose comme l’Internet pourrait devenir le système nerveux numérique collectif de l’humanité." Lorsque les principes et les spécifications du DNS ont été conçus il y a près de quarante ans, les considérations de sécurité ne posaient pas de problème, car l’Internet était un réseau d’utilisateurs de confiance. Danny Hillis, un inventeur et scientifique américain, lors de l’enregistrement du troisième nom de domaine sur Internet, a pensé qu’il devrait en enregistrer quelques autres au cas où, mais il a jugé que "ce ne serait pas bien." Cet exemple illustre la confiance au sein de la communauté, confiance qui a également été intégrée dans les protocoles de l’Internet, y compris le DNS.

L’Internet d’aujourd’hui n’est pas seulement "le système nerveux numérique collectif de l’humanité," mais aussi un lieu où les cybercriminels exploitent les vulnérabilités techniques et les faiblesses humaines à des fins lucratives. Les spammeurs, les phishers, les créateurs de malwares, les spéculateurs ou les groupes organisés de cybercriminalité abusent largement du protocole DNS et des noms de domaine. Le DNS est devenu aussi essentiel pour leur fonctionnement que pour celui des utilisateurs ordinaires.

La prévention de l’enregistrement de domaines malveillants est un défi car elle nécessite d’évaluer les intentions, possiblement mauvaises des propriétaires de domaines. La suppression rapide des noms de domaine directement impliqués dans la cybercriminalité nécessite de recueillir des preuves ou de vérifier les preuves fournies par des notificateurs de confiance de l’activité malveillante. Les fournisseurs de DNS et d’hébergement n’ont pas les incitations financières nécessaires pour lutter efficacement contre les abus de noms de domaine.

L’infrastructure DNS elle-même reste vulnérable aux attaques en raison de présomptions pas assez restrictives concernant les cybercriminels et du modèle de menaces lors de la conception des protocoles au début de l’Internet. Les vulnérabilités nouvellement découvertes qui sont inhérentes à la composition du DNS conduisent au développement et au déploiement de nouvelles extensions du protocole DNS. Cependant, leur adoption a été très lente. Il s’agit moins d’un problème technologique que d’un problème d’incitation économique, à savoir si la mise en œuvre de ces technologies de sécurité peut être rentable pour les opérateurs qui les déploient.

La nature et l’architecture distribuées du protocole DNS permettent également de renforcer la sécurité et la stabilité de l’Internet. Un exemple où le DNS joue un rôle important est celui des protocoles de sécurité du courrier électronique : Sender Policy Framework (SPF) et Domain-based Message Authentication, Reporting, and Conformance (DMARC). Alors que le protocole SMTP (Simple Mail Transfer Protocol), conçu pour la distribution du courrier électronique, est intrinsèquement non sécurisé, SPF et DMARC, en fournissant un ensemble de règles stockées dans les enregistrements ’TXT’ des ressources DNS, peuvent éliminer le problème de l’usurpation de domaine.

Cependant, les cybercriminels abusent également de l’architecture du protocole DNS et de ses caractéristiques pour renforcer la résilience des infrastructures malveillantes, amplifier les attaques et éviter la détection. Il suffit de mentionner les domaines générés automatiquement (AGD) combinés aux réseaux à flux rapide ou les attaques par déni de service réflectif distribué (DRDoS) qui exploitent les résolveurs DNS ouverts.

Motivée par les problèmes de sécurité DNS et d’abus de noms de domaine, ce mémoire a été consacré à la sécurité DNS : rendre les communications plus difficilement exploitables par les acteurs malveillants afin que le "système nerveux numérique collectif’’ - l’Internet - reste moins affecté, plus sûr, et que ses utilisateurs légitimes lui fassent confiance. Les trois premières contributions présentent des études de mesure du DNS liées aux faiblesses inhérentes aux protocoles Internet et aux noms de domaine qui peuvent conduire à l’exploitation de l’infrastructure DNS et des noms de domaine. Les trois contributions suivantes présentent des approches statistiques et d’apprentissage automatique liées à l’abus de noms de domaine, basées sur des mesures de trafic et des analyses déductives à partir de données liées au DNS.

La première contribution met en lumière le problème des mises à jour dynamiques DNS non sécurisées qui permettent à un mécréant de manipuler les entrées DNS dans les fichiers de zone des serveurs de noms faisant autorité. Nous appelons ce type d’attaque "zone poisoning’’. Dans sa version la plus simple, un acteur malveillant peut remplacer un enregistrement de type ’A’ ou ’MX’ existant dans un fichier de zone d’un serveur faisant autorité et associer le nom de domaine à une adresse IP sous le contrôle d’un attaquant - détournant ainsi effectivement le nom de domaine. Nous présentons la première étude de mesure de cette vulnérabilité. Parmi les domaines vulnérables figurent des gouvernements, des hôpitaux et des banques, ce qui montre que la menace touche des services importants. Avec cette étude et les notifications consécutives aux parties concernées, nous visons à améliorer la sécurité de l’écosystème DNS.

La validation de l’adresse source (SAV) est un standard visant à rejeter les paquets dont l’adresse IP source est usurpée. L’absence de SAV pour le trafic sortant est une cause fondamentale des attaques de type DRDoS qui a été étudiée par un grand nombre de chercheurs. Bien que moins évidente, l’absence de filtrage entrant permet à un attaquant d’apparaître comme un hôte interne d’un réseau et révèle des informations importantes sur l’infrastructure du réseau. Elle peut permettre d’autres vecteurs d’attaque tels que l’empoisonnement du cache DNS. Comme deuxième contribution, nous présentons les résultats du projet Closed Resolver qui vise à atténuer le problème de l’usurpation d’adresse IP entrante. Nous réalisons la première étude de mesure active à l’échelle de l’Internet pour énumérer les réseaux qui n’appliquent pas le filtrage des paquets entrants en fonction de leurs adresses source. Pour atteindre cet objectif, nous identifions les résolveurs DNS fermés et ouverts qui acceptent les requêtes usurpées provenant de l’extérieur de leur réseau. Notre travail implique que l’absence de SAV entrant rend les résolveurs DNS vulnérables à plusieurs types d’attaques, y compris l’empoisonnement du cache DNS, l’empoisonnement de la zone DNS, l’attaque de type NXNSAttack, ou des vulnérabilités zero-day dans le logiciel de serveur DNS.

L’envoi de faux e-mails en profitant de l’usurpation de domaine est une technique courante utilisée par les attaquants. L’absence de mécanismes appropriés de lutte contre l’usurpation d’adresse électronique ou leur mauvaise configuration permettent de lancer avec succès des attaques de phishing ou de diffusion de spam. Dans la troisième contribution, nous évaluons le déploiement de SPF et DMARC dans deux campagnes à grande échelle, en mesurant leur taux d’adoption global et leur déploiement par des domaines importants. Nous proposons un nouvel algorithme pour identifier les domaines enregistrés de manière défensive et recenser les domaines dont les règles SPF sont mal configurées. Nous définissons pour la première fois de nouveaux modèles de menace impliquant l’usurpation de sous-domaines et présentons une méthodologie pour prévenir l’usurpation de domaines, une combinaison de bonnes pratiques pour la gestion des enregistrements SPF et DMARC et l’analyse des journaux DNS. Nos résultats de mesures montrent qu’une grande partie des domaines ne configure pas correctement les règles SPF et DMARC, ce qui permet aux attaquants de délivrer de faux e-mails dans les boîtes de réception des utilisateurs. Enfin, nous rendons compte de la médiation et de ses effets en présentant les résultats des notifications envoyées aux équipes de réponse aux incidents de sécurité informatique responsables des domaines affectés.

Afin de renforcer la concurrence et le choix dans le système des noms de domaine, ICANN (Internet Corporation for Assigned Names and Numbers) a introduit le nouveau programme de domaine générique de premier niveau (gTLD) qui a ajouté des centaines de nouveaux gTLD (par exemple, .nyc, .top) à la zone DNS racine. Si le programme a sans doute augmenté la gamme de noms de domaine disponibles pour les consommateurs, il a également créé de nouvelles opportunités pour les cybercriminels. Pour étudier cette question, nous présentons dans la quatrième contribution la première étude comparative des abus dans les domaines enregistrés dans le cadre du nouveau programme gTLD et dans les gTLD traditionnels (par exemple, .com, .org). Nous combinons des ensembles de données historiques provenant de diverses sources, notamment des fichiers de zone DNS, des enregistrements WHOIS, des mesures DNS et HTTP passives et actives, et des listes noires de noms de domaine réputés pour étudier les abus dans les gTLD. Nous constatons que les nouveaux gTLDs semblent avoir détourné les abus des gTLDs traditionnels : alors que le nombre de domaines abusés pour le spam reste stable entre les gTLDs, nous observons un nombre croissant de domaines de spam dans les nouveaux gTLDs, ce qui suggère un déplacement des gTLDs traditionnels vers les nouveaux gTLDs. Nous analysons également la relation entre les abus de DNS, les indicateurs de sécurité des opérateurs et les propriétés structurelles des nouveaux gTLD. Les résultats indiquent qu’il existe une corrélation inverse entre les abus et les politiques d’enregistrement plus strictes. Nous constatons que les cybercriminels préfèrent de plus en plus enregistrer les noms de domaine plutôt que de les pirater et que certains nouveaux gTLD sont devenus un aimant pour les acteurs malveillants. Comme l’état actuel de la situation en matière d’abus des gTLD a clairement besoin d’être amélioré, nous avons élaboré des cas pour modifier les mesures de protection existantes et en avons proposé de nouvelles. L’ICANN utilise actuellement ces résultats pour réviser les mesures de protection anti-abus existantes, évaluer leurs effets conjoints et introduire des mesures de protection plus efficaces avant le prochain lancement d’un nouveau gTLD.

Les acteurs malveillants abusent chaque jour des milliers de noms de domaine en lançant des attaques à grande échelle telles que des campagnes de phishing ou de logiciels malveillants. Si certains domaines sont enregistrés uniquement à des fins malveillantes, d’autres sont bénins (légitimes) mais sont compromis et utilisés à mauvais escient pour servir du contenu malveillant. Les méthodes de détection existantes permettent soit de détecter les domaines malveillants au moment de leur enregistrement, soit d’identifier les indicateurs d’une activité malveillante en cours, en regroupant les domaines malveillants enregistrés et compromis dans des listes noires populaires. Étant donné que les mesures d’atténuation pour ces deux types de domaines sont différentes, dans la cinquième contribution, nous proposons COMAR (Classification of Compromised versus Maliciously Registered Domains), une approche permettant de différencier les domaines compromis et les domaines enregistrés de manière malveillante, en complément des systèmes de réputation de domaines proposés précédemment. Nous commençons par une analyse approfondie du cycle de vie d’un domaine afin de déterminer la relation entre chaque étape et de définir les caractéristiques associées. Nous avons défini un ensemble de 38 propriétés qu’il est difficile de contourner. Nous évaluons COMAR à l’aide de listes noires d’hameçonnage et de logiciels malveillants et montrons qu’il peut atteindre une grande précision (97% de précision avec un taux de faux positifs de 2,5%) sans utiliser de données privilégiées ou non publiques, ce qui le rend utilisable par n’importe quelle organisation. Nous prévoyons de déployer COMAR chez deux opérateurs de registre de domaines des TLD européens (ccTLD) et de mettre en place un système de notification pour faciliter la remédiation des domaines figurant sur la liste noire.

En 2016, les forces de l’ordre ont démantelé Avalanche, l’infrastructure du service d’hébergement blindé, le plus grand démantèlement d’une opération de cybercriminalité à ce jour. Les familles de logiciels malveillants soutenues par Avalanche utilisent des algorithmes de génération de domaines (DGA) pour générer des noms de domaines aléatoires afin de contrôler leurs botnets. Le démantèlement cible de manière proactive ces domaines présumés malveillants ; toutefois, comme des collisions fortuites avec des domaines légitimes sont possibles, les investigateurs doivent d’abord classer les domaines pour éviter tout préjudice indésirable aux propriétaires de sites Web et aux victimes de botnets. Les contraintes de cette opération dans le monde réel (décisions proactives sans accès à l’activité des logiciels malveillants, absence de profils d’enregistrement en masse et de connexions actives) signifient que les approches basées sur l’état de l’art ne peuvent être appliquées. Le problème de la classification des milliers de noms de domaine enregistrés de la DGA a donc nécessité un effort manuel important et minutieux de la part des investigateurs des forces de l’ordre. Pour réduire considérablement cet effort sans compromettre l’exactitude, nous développons un modèle qui automatise la classification. Grâce à une approche synergique, nous obtenons une précision de 97,6% avec la vérité terrain des démantèlements d’Avalanche de 2017 et 2018 ; pour le démantèlement de 2019, cela se traduit par une réduction de 76,9% de l’effort d’enquête manuel. En outre, nous interprétons le modèle pour fournir aux investigateurs un aperçu de la façon dont les domaines bénins et malveillants diffèrent dans leur comportement, quelles caractéristiques et sources de données sont les plus importantes, et comment le modèle peut être appliqué en fonction des exigences pratiques d’un démantèlement dans le monde réel. Enfin, nous avons aidé les forces de l’ordre en appliquant notre approche à l’itération 2019 du démantèlement Avalanche.

Il ne fait aucun doute que la communication DNS sélective et sécurisée est le tremplin vers un Internet plus sûr et plus stable. Sur la base de l’expérience des premiers jours de l’Internet et des avancées technologiques fournissant plusieurs blocs de sécurité manquants dans le DNS, nos travaux contribuent à la mise en œuvre de protocoles de sécurité, à l’identification de nouveaux (et parfois anciens) problèmes de sécurité négligés par la communauté, ainsi qu’au développement de méthodes statistiques et d’apprentissage automatique pour aider les intermédiaires à atténuer plus efficacement les abus de noms de domaine.

Abstract

The Domain Name System (DNS) protocol maps easy-to-remember domain names to their computer-friendly numeric labels, assigned to each Internet-connected device that uses the Internet Protocol. DNS is the most critical and largely unheralded protocol, in the absence of which Internet users would need to memorize IP addresses of all the Internet applications, including banking sites, emails, or social media.

In the early days of the Internet, as highlighted by Dr. Paul Vixie, scientists invested all their efforts in facilitating communications because they believed that "something like the Internet could become humanity’s collective digital nervous system.’’ When the DNS principles and specifications were designed nearly four decades ago, security consideration was not an issue because the Internet was a network of trusted users. Danny Hillis, an American inventor and scientist, when registering the third domain name on the Internet thought that he should register a few more just in case, but he felt that "it wouldn’t be nice.’’ This example illustrates the trust within the community; the trust that was also built into the protocols of the Internet, including DNS.

Today’s Internet is not only "humanity’s collective digital nervous system’’ but also a place where cybercriminals exploit technical vulnerabilities and human weaknesses for financial gain. Spammers, phishers, malware creators, speculators, or organized e-crime groups widely abuse the DNS protocol and domain names. DNS has become as critical for them to operate as it is for regular users.

Preventing registration of malicious domains is challenging because it requires assessing the (bad) intentions of domain owners. Prompt removal of domain names directly involved in e-crime requires collecting evidence or verifying evidence provided by trusted notifiers of malicious activity. DNS and hosting providers do not have the financial incentives to effectively confront domain name abuse.

The DNS infrastructure itself remains vulnerable to attacks due to not restrictive enough assumptions about cybercriminals and the threat model when designing protocols in the early days of the Internet. Newly discovered vulnerabilities inherent to the DNS design drive the development and deployment of new extensions to the DNS protocol. However, their uptake has been very slow. It has become less of a technology issue than an economic incentive problem, i.e., whether implementing such security technologies can be profitable for the operators deploying them.

The distributed nature and architecture of the DNS protocol also allow for increased Internet security and stability. One example in which DNS plays an important role is in email security protocols: the Sender Policy Framework (SPF) and the Domain-based Message Authentication, Reporting, and Conformance (DMARC). While the Simple Mail Transfer Protocol (SMTP), designed for email distribution, is inherently insecure, SPF and DMARC providing a set of rules stored in the ’TXT’ records of DNS resources can eliminate the problem of domain spoofing. Cybercriminals also abuse the DNS protocol architecture and its features to enhance the resilience of malicious infrastructures, amplify attacks, and avoid detection. Just mention Automatically Generated Domains (AGD) combined with fast-flux networks or Distributed Reflective Denial-of-Service (DRDoS) attacks that leverage open DNS resolvers.

Motivated by the problems of DNS security and domain name abuse, this dissertation has been devoted to DNS security: to make communications more selective and more difficult for malicious actors so that the "collective digital nervous system’’ – the Internet – stays less affected, more secure, and trusted by their benign users. The first three contributions present DNS measurement studies related to weaknesses inherent to Internet protocols and domain names that can lead to the exploitation of DNS infrastructure and domain names. The following three contributions present statistical and machine learning approaches related to domain name abuse based on traffic measurements and inferential analysis from DNS-related data.

The first contribution illuminates the problem of non-secure DNS dynamic updates, which allow a miscreant to manipulate DNS entries in the zone files of authoritative name servers. We refer to this type of attack as zone poisoning. In its simplest version, a malicious actor could replace an existing ’A’ or ’MX’ resource record (RR) in a zone file of an authoritative server and point the domain name to an IP address under control of an attacker, thus effectively hijacking the domain name. We present the first measurement study of the vulnerability. Among the vulnerable domains are governments, health care providers, and banks, demonstrating that the threat impacts important services. With this study and subsequent notifications to affected parties, we aim to improve the security of the DNS ecosystem.

Source Address Validation (SAV) is a standard aimed at discarding packets with spoofed source IP addresses. The absence of SAV for outgoing traffic is a root cause of DRDoS attacks and received widespread attention. While less obvious, the absence of inbound filtering enables an attacker to appear as an internal host of a network and reveals valuable information about the network infrastructure. It may enable other attack vectors such as DNS cache poisoning. As a second contribution, we present the results of the Closed Resolver Project that aims at mitigating the problem of inbound IP spoofing. We perform the first Internet-wide active measurement study to enumerate networks that do not enforce filtering of incoming packets based on their source addresses. To achieve this goal, we identify closed and open DNS resolvers that accept spoofed requests coming from the outside of their network. Our work implies that the absence of inbound SAV makes DNS resolvers vulnerable to several types of attacks, including DNS cache poisoning, DNS zone poisoning, NXNSAttack, or zero-day vulnerabilities in the DNS server software.

Sending forged emails by taking advantage of domain spoofing is a common technique used by attackers. The lack of appropriate email anti-spoofing schemes or their misconfiguration lead to successful phishing attacks or spam dissemination. In the third contribution, we evaluate the coverage of SPF and DMARC deployment in two large-scale campaigns measuring their global adoption rate and deployment by high-profile domains. We propose a new algorithm for identifying defensively registered domains and enumerating the domains with misconfigured SPF rules. We define for the first time, new threat models involving subdomain spoofing and present a methodology for preventing domain spoofing, a combination of good practices for managing SPF and DMARC records and analyzing DNS logs. Our measurement results show that a large part of the domains do not correctly configure the SPF and DMARC rules, which enables attackers to deliver forged emails to user inboxes. Finally, we report on remediation and its effects by presenting the results of notifications sent to Computer Security Incident Response Teams responsible for affected domains.

To enhance competition and choice in the domain name system, the Internet Corporation for Assigned Names and Numbers introduced the new generic Top-Level Domain (gTLD) program, which added hundreds of new gTLDs (e.g. .nyc, .top) to the root DNS zone.
While the program arguably increased the range of domain names available to consumers, it has also created new opportunities for cybercriminals. To investigate this issue, in the fourth contribution, we present the first comparative study of abuse in the domains registered under the new gTLD program and legacy gTLDs (e.g. .com, .org). We combine historical datasets from various sources, including DNS zone files, WHOIS records, passive and active DNS and HTTP measurements, and reputable domain name blacklists to study abuse across gTLDs. We find that the new gTLDs appear to have diverted abuse from the legacy gTLDs: while the total number of domains abused for spam remains stable across gTLDs, we observe a growing number of spam domains in new gTLDs, which suggests a shift from legacy gTLDs to new gTLDs. We also analyze the relationship between DNS abuse, operator security indicators, and the structural properties of new gTLDs. The results indicate that there is an inverse correlation between abuse and stricter registration policies. Our findings suggest that cybercriminals increasingly prefer to register, rather than hack, domain names and some new gTLDs have become a magnet for malicious actors. As the presented state of the art in gTLD abuse is in clear need of improvement, we have developed cases for modifying the existing safeguards and proposed new ones. ICANN is currently using these results to review the existing anti-abuse safeguards, evaluate their joint effects, and introduce more effective safeguards before an upcoming new gTLD rollout.

Malicious actors abuse thousands of domain names every day by launching large-scale attacks such as phishing or malware campaigns. While some domains are solely registered for malicious purposes, others are benign but get compromised and misused to serve malicious content. Existing methods for their detection can either predict malicious domains at the time of registration or identify indicators of an ongoing malicious activity conflating maliciously registered and compromised domains into common blacklists. Since the mitigation actions for these two types domains are different, in the fifth contribution, we propose COMAR (Classification of Compromised versus Maliciously Registered Domains), an approach to differentiate between compromised and maliciously registered domains, complementary to previously proposed domain reputation systems. We start with a thorough analysis of the domain life cycle to determine the relationship between each step and define its associated features. Based on the analysis, we define a set of 38 features costly to evade. We evaluate COMAR using phishing and malware blacklists and show that it can achieve high accuracy (97% accuracy with a 2.5% false-positive rate) without using any privileged or non-publicly available data, which makes it suitable for the use by any organization. We plan to deploy COMAR at two domain registry operators of the European country-code TLDs and set up an early notification system to facilitate the remediation of blacklisted domains.

In 2016, law enforcement dismantled the infrastructure of the Avalanche bulletproof hosting service, the largest takedown of a cybercrime operation so far. The malware families supported by Avalanche use Domain Generation Algorithms (DGAs) to generate random domain names for controlling their botnets. The takedown proactively targeted these presumably malicious domains, however, as coincidental collisions with legitimate domains are possible, investigators had first to classify domains to prevent undesirable harm to website owners and botnet victims. The constraints of this real-world takedown (proactive decisions without access to malware activity, no bulk patterns, and no active connections) mean that approaches based on the state of the art cannot be applied. The problem of classifying thousands of registered DGA domain names therefore required an extensive, painstaking manual effort by law enforcement investigators. To significantly reduce this effort without compromising correctness, we develop a model that automates the classification. Through a synergetic approach, we achieve an accuracy of 97.6% with ground truth from the 2017 and 2018 Avalanche takedowns. For the 2019 takedown, this translates into a reduction of 76.9% in manual investigation effort. Furthermore, we interpret the model to provide investigators with insights into how benign and malicious domains differ in behavior, which features and data sources are the most important, and how the model can be applied according to the practical requirements of a real-world takedown. Finally, we assisted law enforcement agencies by applying our approach to the 2019 Avalanche takedown iteration.

It is beyond doubt that selective and secure DNS communication is the basis for a more secure and stable Internet. Armed with the experience of the early days of the Internet and technological advances providing several missing security blocks in DNS, our work contributes to the implementation of security protocols, the identification of new (old) security problems overlooked by the community, as well as the development of statistical and machine learning methods to help intermediaries more effectively mitigate domain name abuse.


1996-2022 Drakkar | Site Map | | Contact | RSS 2.0 | SPIP