Problem mid Telekom Glasfaser, wie kann ich die richtigen informationen ins Ticket übermitteln

vor einem Monat

Hi, 

Ich habe seid Anfang März ein wildes problem mit meinem FTH Anschluss. ca alle 2 Stunden bricht die ppoe sitzung (echo reply fehler) und baut sich nach 30 sekunden wieder auf. Anschluss ist von der Dämpfung perfect, Kabel von meiner Dreambox (Unifi) zum Glasfasermodem ist getauscht, alle Geräte mehrfach rebootet und auf der letzten softwareversion. 

Jetzt hatte ich den Techniker vor Ort und gehe den Weg lokale hardware zu tauschen, die unbekannte UDM durch fritzbox zu ersetzen usw. ein Prozess der lange dauert, desen Begründung ich verstehe und den ich natürlich supporte. Allerdings wird er nicht zum Erfolg führen und ich weiss nicht wie ich dies abkürzen kann. 

Warum ist das so ? Der Abbruch findet erst seit dem 5.3. statt, mit unveränderter Software und hardware auf meiner seite. Und ausserhalb des 50 sekunden reconnects ist die Verbindung perfect, kein Packetverlust, kein Slowdown, konstant gute Geschwindigkeit ....

Aber vor allem kommen die reconnect reproduzierbar im 2 Stunden Raster (kann auch mal 1 oder 3 sein) und vor allem immer zur gleichen "Minute". Am 5.3. fand der erster reconnect um 22:57 statt. seid dem schiebt sich die Minute konstant über ca. 30 sekunden nach hinten, aktuell bei :24. Dieser Rythmus verändert sich nie und ist sehr konstant über die letzten Tage. Wenn der Fehler inkl. eines Timeouts in einem meiner Geräte liegen würde so würde sich das schema nach Neustart oder reboot verändern. Selbst wenn ein Fehler einen konstanten Timeout auslösen würde, so würde dieser nach Neustart neu anlaufen und sich das Schema der minutenwerte deutlich verändern .....

Für mich sieht es eher nach einer Softwarekomponente oder configuration auf seiten des Telekom PPOE servers oder der authenifizierung aus. Das zeitliche Schema passt perfect zu einem 1 Stunden Timeout (wobei meist jeder zweite zu einem vollständigen Abbruch führt). Die Verschiebung im Minutenraster lassen sich sehr gut durch erkennungszeiten (3 pings bei mir) und die Verzögerung im Sessionaufbau erklären. 

Nun ist es aber so das im aktuellen Ticket der Prozess abgearbeitet wird, Kabel und ONT sind schon getauscht. Im nächsten Schritt wird es die UDM sein und man mich fragen ein Referenzgerät zu benutzen, dann eventuell das Modem näher am Router plazieren. Ich mache das gerne mit aber nichts davon erklärt das Zeitraster und irgendwie will aktuell niemand diese information aufnehmen oder auch nur berücksichtigen :(

Hilfe needed, I guess.

Letzte Aktivität

vor einem Monat

von

Gelöschter Nutzer

126

0

38

    • vor einem Monat

      Welches SFP Modul hast du drin? 

      Hat die Telekom direkt ausgebaut oder wars die Glasfaser Nordwest?  

      0

      0

    • vor einem Monat

      telekom direkt ausgebaut. und ich nutze kein sfp modul (hatte von Temperaturproblemen gehört. 

      Die UDM baut eine PPOE über 2.5GB/lan mit dem Glasfasermodem der Telekom auf.

      0

      0

    • vor einem Monat

      Hast du mal die Pigtails abgezogen? ggf. hast du dort Staubkörner drauf. 

      0

      0

    • vor einem Monat

      ja, alles durchgemessen und gut, würde auch alles nicht die regelmäßigkeit erklären die eigentlich der stärkste Hinweis auf eine Serverkomponente bzw. Konfiguration ist. 

      Aktuell hoffe ich das der ONT wechsel hier mittlebar hilft da er serverseitig im BRAS/ BNG vermutlich auch eine Configchange anstößt.

      0

      22

      von

      vor einem Monat

      Guten Tag @Codingfragments , der Außendienst hat ja aktuell eine Messung bis Freitag angestoßen. Halte uns gerne auf dem Laufenden. 

       

      Viele Grüße Sven

      0

      von

      vor einem Monat

      Aktuell scheint die Verbindung stabil. Mal sehen ob es so bleibt.

      0

      von

      vor einem Monat

      Wunderbar. Wie Sven bereits schrieb, gib uns einfach Bescheid, wie es sich entwickelt.

      Viele Grüße
      Jonas

      0

      Uneingeloggter Nutzer

      von

    • vor einem Monat

      Codingfragments

      LCP

      ja, als nächstes dann vermutlich ein refferenzgerät mit einer höheren LCP timeout ... (udm macht 3 failed echo mit 10 sec cadence. ) Es kann durchaus sein das es mit einer Fritzbox im 5/30 raster funktioniert (ändert nichts daran das trotzdem jede zweite Stunde die Session für 60 sekunden steht, alle Zoom-calls abbrechen und ich meine Backup logik ändern muss. 

      Meine Wahrnehmung ist leider das Informationen die ich liefern kann nicht im Case berücksichtigt werden. Gibt es hier für mich einen Weg das Augenmerk auf die Serverseite zu legen denn :

      1) es gibt keinen sinnvollen Grund warum einen Kundenseitige Kabelstörung eine Störung exakt im Stundenraster verursachen sollte, und das über Wochen im selben Raster

      2) es gibt keine sinnvollen Grund warum eine Kundenseitige Softwarestörung vorliegt die im Stundenraster zum Abbruch führt, natürlich ist ein Timeout oder ähnliches (Buffer overflow, ...  ) denkbar der genau jeweils eine Stunde nach connect einen Abbruch auslöst entweder im ONT oder dem Router ABER desen Raster hätte sich dann beim Restart verschoben, also Probleme bei minutet 20 dann neustart bei minute 40 ab dann Probleme im Stundenraster bei minute 42 .... ) Das ist aber nicht der fall. Dir Abbrüche finden im Stundenraster statt aber seit Wochen auf der selben Minute (bzw. einer erklärbaren Verschiebung die sich durche eine Stunden timeout + 50-90 Sekunden reconnect ergibt. Um konstant diesen wert "wandert" das ereigniss ...

      3) tcpdumps und ppoe logs belegen eine ultra-stabile verbindung bis eben zum problem, dann sofortiger reconnect und wieder Stabili

      Vor allem das Minutenscharfe Stundenraster über Wochen deutet klar auf ein Problem im bereich server (software) hin, das entweder durch eine Konfiguration oder update Anfang März aufgetreten ist. 

      Nur, will diese Diagnosedaten aktuell niemand sehen :(. Könnt ihr da helfen oder wie ist mein weiterer Weg ?

      Und ja, ich mache das (diagnose von netzwerk und software incidents) beruflich, bzw. habe es lange jahre hands on gemacht. Ich verstehe das euer Team prozessen folgt :( 

      Codingfragments

      LCP

      @Codingfragments 

      Dann zeig uns doch mal einen Screenshot von den LCP Paketen im wireshark mit Zeitstempel und VLAN Prio.

      Welche Firmware läuft denn auf dem Glasfasermodem? Gibt es im Modem ein Log wo man das letzte Update zeitlich nachvollziehen könnte?

      0

      0

    • vor einem Monat

      siehe oben, Logs des modems sind ja für den Kunden nicht einsehbar. Wobei wieder Firmware version noch updates in der Heiminfra sinn machen. Siehe die Zeitkonstants. Der Fehler liegt eindeutig in der Server-Infra (vermutlich im BNG ) ansonsten wäre der zeitliche Verlauf ein anderer. Und an genau das Team komme ich nicht hin.

      0

      0

    • vor einem Monat

      Codingfragments

      siehe oben, Logs des modems sind ja für den Kunden nicht einsehbar.

      siehe oben, Logs des modems sind ja für den Kunden nicht einsehbar. Wobei wieder Firmware version noch updates in der Heiminfra sinn machen. Siehe die Zeitkonstants. Der Fehler liegt eindeutig in der Server-Infra (vermutlich im BNG ) ansonsten wäre der zeitliche Verlauf ein anderer. Und an genau das Team komme ich nicht hin.

      Codingfragments

      siehe oben, Logs des modems sind ja für den Kunden nicht einsehbar.

      @Codingfragments 

      Weißt Du das oder nimmst Du das nur an? Jedes Telekom Gerät welches ich kenne, das eine GUI für Firmware-Updates hat, hat auch ein Log. Deswegen gehe ich eigentlich davon aus, dass auch das Modem ein Log hat, aber wissen tue ich es nicht, ich habe ja nur einen DSL-Anschluss.

      Auf jeden Fall sieht man die Verbindungswerte, was auch schon hilfreich sein könnte.

      Codingfragments

      anbei noch der screenshot

      anbei noch der screenshot, wobei, wie gesagt, ich der Telekom auch gerne die pcaps zur verfügung stellen kann. Im Screenshot zu sehen der letzte fehler. 

      Codingfragments

      anbei noch der screenshot

      Wäre schöner mit lesbaren Zeitstempeln und Screenshots von der VLAN Prio der ausgehenden LCP Pakete fehlen komplett.

      0

      1

      von

      vor einem Monat

      Das ONT ist ein passiver Terminator (mostly) nur Telekom hat hier Zugriff auf die Logs 

      0

      Uneingeloggter Nutzer

      von

    • vor einem Monat

      Vlan prio ist ein red-herring, der gesammte traffic im tcpdump ist im vlan 7 auf dem ppoe interface, also richtiges vlan und ausserhalb der incidents ohne jegliche probleme. 

      Die Zeitkonstanz ist der relevante Hinweis zur weiteren Fehlersuche, hier eine Analyse des Verhaltens.

      Überprüft wurde die Hypothese das seit dem 4.3 ein 60 minuten timeout fenster auf dem Backend entstanden ist was ca. in 50 der Fälle zum Verbindungsabbruch serverseitig führt. Die Analyse zeigt das matching basierend auf einem fixen raster. 

      Sollte der Grund für den Ausfall auf Kundenseite liege (denkbar) so würde hier spätestens ab dem ersten restart eine Abweichung vom Zeitraster sichtbar sein denn das Raster folgt der annahme das der Rythmus seit dem 4.3 konstant fortgeschrieben wird (konkreter window fit 60min+24 sekunden). 

      Auf meiner seite sind alle Geräte mehrfach neu gestartet, unter anderm war mein gesammter Netzwerkstack letzte woche 5 minuten Stromlos ...

      Die Ausreißer im graph korrespondieren mit manuellen disconnects, restarts und Fehlersuche. sind also zu erklären. 

      Die konstanz der Ereignisse schließt meiner Überzeugung auch physische Gründe, flackyness, Kabelverbindungen o.ä. aus.

      Aktuelle Hypothese

      • der Fehler liegt in Software oder Konfiguration
      • die auslösende Komponente wurde nicht neu gestartet seit dem 4.3.
      • Es ist nicht Zeitsynchronisiert sondern basiert auf einem fixen 60 minuten delay
      • Die Verbindung stirbt erst, bevor dann meine seite eine neue Session erzwingt
      • der Fehler liegt vermutlich im Bereich BNG /BRAS

      0

      0

    • vor einem Monat

      Codingfragments

      Vlan prio ist ein red-herring, der gesammte traffic im tcpdump ist im vlan 7 auf dem ppoe interface, also richtiges vlan und ausserhalb der incidents ohne jegliche probleme. 

      Vlan prio ist ein red-herring, der gesammte traffic im tcpdump ist im vlan 7 auf dem ppoe interface, also richtiges vlan und ausserhalb der incidents ohne jegliche probleme. 

      Die Zeitkonstanz ist der relevante Hinweis zur weiteren Fehlersuche, hier eine Analyse des Verhaltens.

      Überprüft wurde die Hypothese das seit dem 4.3 ein 60 minuten timeout fenster auf dem Backend entstanden ist was ca. in 50 der Fälle zum Verbindungsabbruch serverseitig führt. Die Analyse zeigt das matching basierend auf einem fixen raster. 

      Sollte der Grund für den Ausfall auf Kundenseite liege (denkbar) so würde hier spätestens ab dem ersten restart eine Abweichung vom Zeitraster sichtbar sein denn das Raster folgt der annahme das der Rythmus seit dem 4.3 konstant fortgeschrieben wird (konkreter window fit 60min+24 sekunden). 

      Auf meiner seite sind alle Geräte mehrfach neu gestartet, unter anderm war mein gesammter Netzwerkstack letzte woche 5 minuten Stromlos ...

      Die Ausreißer im graph korrespondieren mit manuellen disconnects, restarts und Fehlersuche. sind also zu erklären. 

      Die konstanz der Ereignisse schließt meiner Überzeugung auch physische Gründe, flackyness, Kabelverbindungen o.ä. aus.

      Aktuelle Hypothese

      • der Fehler liegt in Software oder Konfiguration
      • die auslösende Komponente wurde nicht neu gestartet seit dem 4.3.
      • Es ist nicht Zeitsynchronisiert sondern basiert auf einem fixen 60 minuten delay
      • Die Verbindung stirbt erst, bevor dann meine seite eine neue Session erzwingt
      • der Fehler liegt vermutlich im Bereich BNG /BRAS
      Codingfragments

      Vlan prio ist ein red-herring, der gesammte traffic im tcpdump ist im vlan 7 auf dem ppoe interface, also richtiges vlan und ausserhalb der incidents ohne jegliche probleme. 

      @Codingfragments 

      Du weißt scheinbar nicht mal, was die PRIO ist. Sieht im Wireshark so aus und muss bei LCP Paketen auf 6 stehen:

       

      0

      4

      von

      vor einem Monat

      Da kommt jetzt Nix mehr ? Danke

      0

      von

      vor einem Monat

      Codingfragments
      Da kommt jetzt Nix mehr ? Danke

      Da kommt jetzt Nix mehr ? Danke

      Codingfragments

      Da kommt jetzt Nix mehr ? Danke

      @Codingfragments 

      Du bist ja offensichtlich nicht an Hilfe und einer Problemlösung interessiert, also verschwende ich hier keine Zeit mehr.

      0

      von

      vor einem Monat

      Ich bin interessiert. 

      Aber es hilft halt nicht wenn Personen antworten die mein Antwort nicht bis zu Ende lesen, sondern mich sofort dissen sobald sie ein Schlüsselwort lesen. Mit allem Respekt aber das hast du hier getan :(

      Du: Wäre schöner mit lesbaren Zeitstempeln und Screenshots von der VLAN Prio der ausgehenden LCP Pakete fehlen komplett.

      Ich:  Vlan prio ist ein red-herring, der gesammte traffic im tcpdump ist im vlan 7 auf dem ppoe interface, also richtiges vlan und ausserhalb der incidents ohne jegliche probleme

      Du: Du weißt scheinbar nicht mal, was die PRIO ist. Sieht im Wireshark so aus und muss bei LCP Paketen auf 6 stehen

      Ich hatte dir in meiner Antwort schon geschrieben das mir die VLan problematik klar ist, aber hier irrelevant da ich direct auf dem Vlan den dump ziehe .... und ausserdem mit falscher Vlan prio oder konfig hätte ich niemals konstant 60 min eine gute Verbindung. 

      Auch ist der konkretet (absolute) Zeitstempel irrelevant im Dump.

      Sorry, das ich dann etwas angefressen rüber kam. 

      0

      Uneingeloggter Nutzer

      von

    • vor einem Monat

      @Codingfragments 

      Schaue doch mal auf die GUI vom Modem. Da sollte man auch die Verbindungszeit/-qualität und vermutlich ein Log sehen können. Vielleicht stört irgendwas im Heimnetz die Stromversorgung und sorgt für einen Verbindungsverlust vom Modem, da gibt es so viele Möglichkeiten, hat hier schon die komischsten Dinge über die Jahre gegeben.

      Die Möglichkeit, dass nur Dein Anschluss falsch "konfiguriert" ist, halte ich für sehr unwahrscheinlich. Da wären schon etliche Anschlüsse betroffen und dann sollte das auch bei der Telekom schon aufgefallen sein.

      0

      1

      von

      vor einem Monat

      ALLES gute Hinweise, wie auch alles der Technik, und ich bin wirklich DANKBAR über euer Engagment.

      ...... ABER .... 

      könntet ihr vieleicht, nur vieleicht einmal auf die Zeitkonstanz eingehen, und wie diese mit irgendeiner Erklärung ausser dem Fehler auf dem Backend korrelieren kann. 

      Desweiteren:

      • DAS modem ist ein überwiegend passives element, logs sind gecheckt vom support ergebnisslos
      • alle kompenenten bis auf die UDM getauscht
      • alle kompenenten mehrfach gebootet und neu gestartete
      • Fehler statistisch signifikant auf einem 60 minuten Raster seit wochen, keine "zufälligen" physischen Ursachen wären auch nur annähernd in der Lage dies abzubilden. 
      • Ich habe sogar den restlichen Keller für 2 stunden offline genommen, Heizung ausgeschaltet.... um eine Einstreuung in die Ethernetstrecke auszuschließen.

      Sorry, ich bin wirklich über Hilfe froh, aber bitte arbeitet doch mit allen Daten und vor allem suche ich verzweifelt nach einer Möglichkeit das die Telekom experten die Gesammtsicht der Daten bekommen :(

      0

      Uneingeloggter Nutzer

      von

    Uneingeloggter Nutzer

    von

    Beliebte Tags letzte 7 Tage

    Loading...Loading...Loading...Loading...Loading...Loading...Loading...Loading...Loading...Loading...