Netzwerkprobleme mit TCP Dup ACK und TCP retransmission aber nur für einen bestimmten Server
vor 6 Monaten
Hallo Telekom-Team,
Ich habe seit gestern ein seltsames Problem bei Aufruf einer Webseite aus dem Telekom-Netz. Die Seite lädt manchmal langsam, manchmal nur teilweise und manchmal gar nicht. Andere Webseiten laden 100% ohne Probleme - z. B. Telekom-Seite, Amazon, Google, Spiegel, Bild, etc.
Das Problem passiert phasenweise (erstmalig gestern (07.11.) zwischen 15.00 und 0.00 Uhr, dann wieder stabil bis heute (08.11.) seit ca. 14.00 Uhr) - innerhalb dieser Phase besteht das Problem nicht permanent, aber die meiste Zeit und immer wieder. Es gibt aber auch kurze Phasen, in denen die Verbindung 100% stabil zu der betroffenen Webseite ist.
Wenn man sich das mit Wireshark ansieht, gibt es (in den Problemphasen) vermehrt Fehlermeldungen wie TCP Dup ACK oder TCP Retransmission (siehe Anhang, betroffene Server-IP 95.217.207.230).
In den wenigen stabilen Phasen, tauchen diese Fehler nicht auf.
Wenn ich die Webseite aus dem O2-Netz oder Vodafone-Netz ansteuere, gibt bzw. gab es aber zu keinem Zeitpunkt Probleme.
Um auszuschließen, dass es nur mit meinem Anschluss zu tun hat, habe ich auch mehrere andere Nutzer der Seite gefragt - und da ist es dasselbe Bild. Nutzer, die die Seite aus dem Telekom-Netz aufrufen haben Probleme - Nutzer, die O2 oder Vodafone verwenden, haben das Problem nicht - auch Nutzer aus Österreich (A1-Netz) haben das Problem nicht.
Woran könnte so etwas liegen und an wen bei der Telekom kann man sich in so einem extrem speziellen Fall wenden?
Vielen Dank für die Hilfe!
958
21
Das könnte Ihnen auch weiterhelfen
1768
2
5
vor 11 Jahren
25765
0
128
375
0
1
444
0
3
vor 6 Monaten
Die Fehlerbeschreibung passt doch so ziemlich 1:1 dazu, bestimmte Netze, Fehler auschließlich aus dem besagten ISP und gleiches Fehlerbild.
Ich habe das Problem um identische Szenarien ergänzt, wodurch auch andere CDN 's betroffen sind mit ebenfalls dem gleichen Fehlerbild. Ebenfalls auschließlich über Telekom-Netz.
Im Anhang noch einmal weitere Beispiele, die mit "http request" betitelten Dateien sind eine HTTP Übertragung von seinem Server. Und die mit "bad" betitelten sind die besagten Übertragungsfehler welche @martin-ebringen im Netz des Providers hat und ich hier bestätigen kann.
Die mit "fine" betitelten, habe ich über unsere redundante Richtfunkanbindung gemacht, welche hier ebenfalls in Magdeburg ausgeht.
Wie unschwer den übertragungszeiten im Browser, bestätigt durch die retransmissions in wireshark zu erkennen ist, läuft hier doch schon gewaltig etwas verkehrt.
Und nachfolgend im Anhang erneut einmal das genau gleiche von Martin beschriebene Problem, angewendet auf einen von mir verwendeten CDN hinter Cloudflare, wie auch unsere Businesspartner verwenden, wodurch sich das gleiche Problem nachweislich eben nicht nur auf die Verbindung zum Rechenzentrum von Hetzner beschränkt.
"cloudflare CDN us bad" ist hier die Aufzeichnung aus dem Telekom-Netz (DSL wie Glasfaser) und die "cloudflare CDN us fine" ist erneut über unsere Redundante Richtfunkanbindung über einen anderen Provider.
Ich habe bis auf weiteres meine Heimanbindung sowie unser Firmennetz auf unseren Ausweichprovider umgeschalten, ich hoffe für dich (Martin) das sich das Problem noch größer für mehr bemerkbar machen wird und somit auch in naher Zukunft angegangen wird.
http request bad.PNG
http request bad wireshark.PNG
http request fine.PNG
http request fine wireshark.PNG
cloudflare cdn us bad.PNG
cloudflare cdn us fine.PNG
0
vor 6 Monaten
Moin!
Mir ist seit dem 7.11 (ab ziemlich genau 14:55) auch aufgefallen, dass Verbindungen zu meinem Hetzner Server in Helsinki nun praktisch nicht mehr nutzbar sind.
Nach einigem Hin und Her mit MTR, iperf und so weiter, bin ich zu dem Ergebnis gekommen, dass es sich wohl, wie hier auch schon erwähnt, um ein Problem mit TCP Paketen handeln muss.
Die Problematik kann komplett umgangen werden, indem ich entweder einen VPN Verwende, um von einem anderen Exit Node (bspw. Schweiz) die Verbindung aufzubauen, oder indem ich mittels Wireguard vom Server aus in mein Heimnetz einen Tunnel erstelle, und meinen Traffic durch diesen leite.
Das führt gar so weit, dass ich mittels NATing via Fritzbox und diversen anderen Routern durch den Wireguard Tunnel externen Telekom Nutzern ermöglichen kann, bspw Minecraft (25565 TCP) auf meinem Server zu spielen.
Hetzner hat das Problem bereits auf dem Schirm und ist angeblich mit der Telekom in Kontakt https://status.hetzner.com/incident/5642a887-dc57-447c-b286-f76053bf9e8d
Das Problem betrifft ALLE Telekom Kunden mit denen ich gesprochen habe und KEINE Kunden anderer ISPs in Deutschland.
Gerne liefere ich auch TCP-Dumps o.ä. bei Bedarf nach.
0
vor 6 Monaten
Also erstmal vielen Dank an die Mühen und die Hinweise generell.
Da auf dem Helsinki-Server auch eine Produktiv-Seite mit mehr als 10.000 Kunden täglich gehosted wurde, konnte ich die Fehleranalyse nicht weiterbetreiben und habe in einer Hauruck-Aktion (18h-Schicht) den Server von Helsinki (95.217.207.230) nach Falkenstein (136.243.61.21) umgezogen. Das stand so oder so auf dem Schirm und jetzt wurde ich indirekt dazu gezwungen.
Die Anbindung an den neuen Server funktioniert wunderbar, so wie das auch grundsätzlich vor dem Do, 10.11.2024 auf dem Helsinki-Server war.
D. h. ich kann jetzt in Ruhe weiter analysieren, was das Problem ist - denn, obwohl auf dem Server keine Last mehr ist, tritt das Problem weiterhin und primär verstärkt zwischen 14.00 auf und 0.00 Uhr auf (bisher am Do, Fr, Sa und heute So).
Für die noch nicht umgezogenen Seiten ist das nicht dramatisch, weil diese nicht von Endkunden genutzt werden (= hier kann also nichts kaputt gehen, egal was ich teste :-)).
@armin23
Vielen Dank, dass du ebenfalls bestätigen kannst, dass die Verbindung sich ganz anders verhält (je nach Provider). Das es sich evtl. um ein größeres Problem handelt (und auch CDNs) betrifft, kann natürlich sein, aber auf diesem Level kann ich nicht mitsprechen, weil ich eben alles andere als ein Netzwerkprofi bin - was ich vielleicht ändern sollte ;-). Trotzdem hilft es schon sehr, wenn man die Bestätigung bekommt, dass andere das auch nachvollziehen können.
@k.breitscheid
Vielen Dank ebenfalls für die Bestätigung der hohen Ping-Zeiten und den Hinweis, dass man mit MTR auch TCP-Pakete testen kann. Jetzt muss ich nur noch rausfinden, wie man das auch unter Windows machen kann. Denn dann kann ich nochmal auf Hetzner zugehen - denn Hetzner möchte als Beweis einen MTR-Report (mit mind. 200 Aufrufen). Das ist für mich nicht nur jetzt im akuten Fall wichtig, sondern auch, um zukünftig bei solchen Fällen eine Analyse betreiben zu können (ich wusste bis Do nichts von MTR oder Wireshark ...) <- d. h. daran arbeite ich jetzt, diese KH-Lücke zu schließen.
@steffenba
Vielen Dank für deine Fehlerbeschreibung - das hätte jetzt 1:1 von mir kommen können.
Mit ICMP-Paketen gibt es keine Probleme und ich verwalte ihn remote über VPN (ebenfalls keine Probleme).
Diese Info habe ich nicht von Hetzner bekommen - und diese Statusmeldung wird auch auf https://status.hetzner.com nicht angezeigt.
Ich habe über 40 Kunden, die bestätigt haben, dass sie das Problem auch betrifft. Bei Kunden mit O2, Vodafone und AT A1 gab es keine Probleme.
0
vor 6 Monaten
Hallo zusammen,
aktuell kann ich zu dem Problem zwar keine weiteren Erkenntnisse beitragen, die nicht weiter oben schon thematisiert wurden. Als Telekom-Nutzer und Hetzner-Helsinki-Serverbetreiber bin ich aber auch betroffen.
Und ich möchte mich mal bei den bisherigen Teilnehmern für die Ausführungen und detaillierte Recherche bedanken. Ich habe am Wochenende ebenfalls sehr viel Zeit investiert um rauszufinden, warum mein Server von zuhause aus quasi nicht mehr bedienbar ist und war schon kurz davor, den Server selbst, mein Betriebssystem, den Router oder meine Verkabelung austauschen zu wollen... nur dass sich das Problem eben bei mir ausschließlich bei Verbindungen zu Hetzner Helsinki bemerkbar macht und ich nun die absurde Situation habe, dass ich über getunnelten Remote-Desktop zur Firma flüssiger an dem System arbeiten kann als direkt von zuhause.
Danke für die Auflösung des Gaslighings, das hat mir in jedem Fall viel Nerven und Geld gespart. Und ich hoffe für uns alle, dass das Problem zeitnah behoben wird.
0
vor 6 Monaten
Das Problem besteht offensichtlich immer noch. Mittlerweile konnte ich auch auf einem Windows-11-System das "Windows Subsystem for Linux (WSL)" und mtr installieren können:
sudo apt update
sudo apt install mtr
eingeben.
Dann sollte mtr installiert sein.
Dann in der bash console mtr mit dem betroffenen Server ausprobieren - zunächst ICMP (hier nur 10 cyclen / weitere Hilfe mit "mtr --help")
Dann habe ich es wie oben von @k.breitscheid vorgeschlagen mit TCP probiert
erhalte dann aber das ist nicht unbedingt das erhoffte Ergebnis
Denn, die fritz.box scheint alle Pakete zu verwerfen (= jetzt muss ich erstmal rausfinden, wie man die fritz.box umstellen kann :-)).
0
vor 6 Monaten
Nun ist das Problem übrigens auch auf der Hauptseite des Hetzner Robot angeschrieben.
Weiterhin scheint es nun etwas begrenzter aufzutreten.
Während via 25565/tcp nun der Traffic scheinbar recht ordentlich durchläuft, macht 443/tcp konkret Probleme.Auch 25565/tcp zickt wieder.
Lasse ich via 444/tcp auf Server und Client ein iperf laufen, so braucht er zwar etwas um loszulegen, und macht lt. Wireshark auch einige retransmissions, aber es geht.
Lasse ich via 443/tcp auf Server und Client ein iperf laufen, so legt er im Endeffekt gar nicht los, in Wireshark tauchen diverse retransmissions auf und irgendwann wird die Verbindung mittels RST ACK quittiert.
Port 80: geht
Port 443: geht nicht
Port 444: geht
Ich hatte heute morgen zwischen 8 und 10 Uhr auch den Eindruck, dass der Seitenaufbau recht fix war, daher kann es also sogar sein, dass das Problem zeitlich begrenzt auftritt. Ich teste das morgen früh noch ein Mal.
1
Antwort
von
vor 6 Monaten
Danke für dein Feedback - ja, ich kann auch bestätigen, dass
a) das jetzt auch im Robot gesehen hatte
b) offensichtlich nicht alle Ports betroffen waren
c) es zeitlich begrenzt war, angefangen von ca. 14/15 Uhr bis nachts ca. 0.00 Uhr
Uneingeloggter Nutzer
Antwort
von
vor 6 Monaten
Mit MTR-Statistiken kann ich dienen, zwar nicht von zuhause auf ein Hetzner-System, aber andersrum.
Von Helsinki gruselige Latenzen und Packet Loss, die aber erst ab #9 einsetzen (was ein Telekom-System ist):
Von Falkenstein hingegen alles gut:
1
Antwort
von
vor 6 Monaten
Danke für dein Feedback. Ich hatte die Webseite am Samstag von Helsinki nach Falkenstein umgezogen, weil ich darauf getippt habe, dass die Probleme "verschwinden" (und so war es dann auch).
Mittlerweile scheint die Telekom das Problem aber gelöst zu haben - zumindest laden die Seiten jetzt einwandfrei und ohne Fehler.
Das ist an sich gut, aber leider wüsste ich jetzt auch nicht, an wen ich mich zukünftig bei der Telekom melden könnte (bei so einem spezifischen Problem) - deshalb war ich etwas "lost", als Hetzner sich nicht darum gekümmert hat und mich an die Telekom verwiesen hat. Und ich habe erst durch @steffenba erfahren, dass Hetzner sich mit der Telekom in Verbindung gesetzt hat (ich wurde weder von Hetzner über das Problem informiert, noch darüber, dass es scheinbar jetzt wieder - seit einigen Stunden - läuft).
Klar, unterm Strich, lag es wohl an einem Gerät bei der Telekom - aber, sowas kann natürlich passieren, aber als Kunde (in diesem Fall von beiden Providern) würde ich mir wünschen, dass so was zeitnah von beiden Seiten analysiert und repariert wird - denn mit diesen Infrastruktur-Problemen möchte ich mich ja gar nicht so intensiv beschäftigen - muss ich aber wohl
Danke an alle für das ausgezeichnete Feedback / Hilfe und die Tipps. Schon wieder einiges gelernt.
Uneingeloggter Nutzer
Antwort
von
Uneingeloggter Nutzer
Frage
von