nomagi-Logo

ML-Projekte richtig gemacht: Unsere Geschichte mit ClearML

Clearml-Logo dunkler Text (3)
Artikel teilen:

Maciej Styk, MLOPS-Ingenieur II 

Wenn Sie bereits an frühen Machine-Learning-Projekten mitgearbeitet haben, kennen Sie dieses Gefühl wahrscheinlich: Überall liegen Codeskripte herum, verschiedene Tabellen mit Wertungen und Parametern sowie zufällig benannte Dateien mit Modellgewichten. 

Als unser Team größer und unsere KI-Projekte anspruchsvoller wurden, erkannten wir, dass einfache Tabellenkalkulationen nicht mehr funktionierten. Wir mussten uns organisieren. Wir brauchten Zuverlässigkeit und einen klaren Überblick über unsere Arbeit. So fanden wir vor einigen Jahren ein wichtiges Tool, das uns dabei half: ClearML und wir verwenden es seitdem.

Wir brauchten ein Tool, das unsere Experimente und Artefakte verfolgen und – noch wichtiger – Ordnung in unseren gesamten KI-Entwicklungsprozess bringen konnte. Nachdem wir uns verschiedene Optionen angesehen hatten, kristallisierte sich ClearML als die beste Wahl heraus. Es bot alle benötigten Funktionen, war einfach einzurichten und versprach, uns bei der Verwaltung unserer Arbeit von Anfang bis Ende zu unterstützen. Wir entschieden uns dafür, und die Wirkung war enorm.

Hier sehen Sie genauer, wie ClearML unseren Arbeitsablauf wesentlich verbessert hat.

Säule 1: Jedes Mal die gleichen Ergebnisse erzielen (Reproduzierbarkeit)

Beim maschinellen Lernen ist es entscheidend, die Ergebnisse reproduzieren zu können. Andernfalls wird die Problembehebung zum Albtraum, die Zusammenarbeit ist schwierig und man kann seiner eigenen Arbeit nicht wirklich vertrauen.

Die Herausforderung für ClearML: Früher war die Wiederholung eines Experiments mit einem langwierigen Prozess verbunden. Wir hatten zahlreiche Tabellenkalkulationen, die sich mit jedem neuen Projekt vermehrten. Die für das Training verwendeten Parameter mussten manuell erfasst werden, und sobald das Training lief, konnten wir die verwendeten Parameter nicht einfach überprüfen. 

Wie ClearML das Problem gelöst hat: ClearML fungiert als automatischer Protokollführer für jedes Experiment. Es speichert automatisch:

  • Genaues Git-Commit: Dazu gehören die genaue Version von Git und erstaunlicherweise sogar Git-Diffs. Sie müssen sich nicht mehr fragen, ob ein „kleiner Test“ Teil des endgültigen Laufs war.
  • Die Trainingskonfiguration: ClearML sammelt einen vollständigen YAML-Dump unserer Trainingskonfiguration.
  • Alle Einstellungen: Es merkt sich alle Einstellungen und Parameter, die zum Ausführen des Experiments verwendet wurden (z. B. Anzahl der verwendeten GPUs, verwendetes GPU-Laufwerk oder Python-Version).

Die Auswirkungen: Das Wiederholen eines Experiments ist jetzt ganz einfach: Klicken Sie auf die Schaltfläche „Klonen“. Das war eine große Hilfe für:

  • Neue Teammitglieder einarbeiten: Sie können sich problemlos alte Experimente ansehen und verstehen, wie diese durchgeführt wurden.
  • Fehler finden: Wenn ein Modell nicht richtig funktioniert, können wir zum genauen Experiment zurückkehren und sehen, was schief gelaufen ist.

Säule 2: Genau sehen, was passiert ist (vollständige Transparenz)

Um bessere Modelle zu erstellen, müssen Sie verstehen, warum ein Experiment ein bestimmtes Ergebnis geliefert hat. Wenn Sie einfach Daten eingeben und ein Ergebnis erhalten, ohne die Modellmetriken zu kennen, tappen Sie im Dunkeln.

Die Herausforderung für ClearML: Wir haben versucht, unsere eigenen, supereinfachen Tools zum Vergleichen von Metriken zu verwenden. Nach etwas Einarbeitung funktionierte das Tool zwar einwandfrei. Dennoch war es mühsam, und die Leistungstrends im Zeitverlauf zu erkennen, war aufwendig. Herauszufinden, welcher Code und welcher Datensatz zu einem bestimmten Ergebnis führte, glich oft Detektivarbeit.

ClearML-Experimentmanager

Wie ClearML das Problem gelöst hat: ClearML bietet uns ein einziges, benutzerfreundliches Dashboard, das als Kommandozentrale für unser gesamtes ML-Training fungiert.

  • Automatisches Tracking: ClearML speichert während unseres Trainings automatisch alle wichtigen Zahlen, Diagramme, Bilder und Textausgaben (sogar die Rohtrainingsprotokolle).
  • Einfacher Vergleich: Wir können alle unsere Experimente übersichtlich auf einer Seite anzeigen und die Unterschiede vergleichen. So erkennen wir selbst kleinste Veränderungen. Wir können nach Metrik filtern, um die Ergebnisse zu vergleichen und die besten zu finden.
  • Übersichtliche Grafiken: Wir können die Leistung unseres Modells mit integrierten Diagrammen verfolgen, die uns zeigen, wie verschiedene Experimente im Vergleich zueinander abschneiden.

Die Auswirkungen: Diese Transparenz hat es uns ermöglicht:

  • Beheben Sie Probleme schneller: Wir können schnell erkennen, was einen fehlgeschlagenen von einem erfolgreichen Lauf unterscheidet.
  • Besser zusammenarbeiten: Teammitglieder können ihre Arbeit problemlos mit vollem Kontext teilen, sodass alle auf dem gleichen Stand sind (ein einzelner Link zu ClearML sagt manchmal mehr als tausend Worte).
  • Treffen Sie intelligentere Entscheidungen: Mit großartigen Tools zum Verfolgen und Vergleichen können wir sicher die besten Modelle auswählen, mit denen wir weitermachen.

Säule 3: Trainingsartefakte am richtigen Ort (einfache Verwaltung)

Beim ML-Training entstehen zahlreiche Dateien: Modellgewichte, Diagramme, Debugdaten, Beispiele, Berichte und vieles mehr, je nach Art des ML-Trainings. Die Organisation aller Dateien ist entscheidend für ein erfolgreiches Arbeiten.

Die Herausforderung für ClearML: Unsere Dateien versteckten sich in den Tiefen der Cloud-Buckets. Modelle gingen leicht verloren, da jedes Training Dutzende von Dateien mit kryptischen Namen produzierte. Dies führte zu Verwirrung, versehentlichen Fehlern und erschwerte die Suche nach der richtigen Datei, wenn wir sie brauchten.

Wie ClearML das Problem gelöst hat: ClearML stellt sicher, dass Ihre Dateien da sind, wenn Sie sie brauchen.

  • Zentraler Speicher: Alle unsere Artefakte werden an einem Ort gespeichert – wir können sie einfach über die ClearML-Benutzeroberfläche verwalten.
  • Einfaches Browsen: Alle Diagramme, Zeitreihen, Debug-Bilder und mehr stehen uns problemlos zum Durchsuchen zur Verfügung. Das gibt uns Sicherheit und die Möglichkeit, schnell durch die wichtigsten Dateien zu springen.

Die Auswirkungen: Dieser organisierte Ansatz zur Dateiverwaltung hat zu Folgendem geführt:

  • Weniger Unordnung und Verwirrung: Sie müssen nicht mehr raten, welche Datei die richtige ist.
  • Bessere Teamarbeit: Jeder im Team kann Artefakte aus Schulungen anderer Ingenieure sicher finden und verwenden.

Das große Ganze: Unsere Arbeit ist jetzt klarer, schneller und zuverlässiger

Der Einsatz von ClearML war mehr als nur ein neues Tool. Es half uns, bessere Arbeitsgewohnheiten zu entwickeln. Da die Plattform einen Großteil der Nachverfolgung und Organisation automatisch übernimmt, verbringt unser Team weniger Zeit mit manueller Datenpflege und mehr Zeit mit der Entwicklung neuer Ideen.

Wir erleben jetzt:

  • Schnellere Entwicklungszyklen.
  • Weniger Zeitaufwand für die Behebung von Problemen und die Suche nach Tippfehlern.
  • Bessere Teamarbeit und Wissensaustausch.
  • Mehr Vertrauen in unsere Modelle und wie wir sie erstellen.

ClearML ist für unser ML-Team zu einem unverzichtbaren Werkzeug geworden. Es bringt ein Maß an Klarheit und Effizienz in unsere Arbeit, das wir vorher nicht erreichen konnten. Wenn Ihr Team mit den komplexen Aspekten des maschinellen Lernens zu kämpfen hat und Sie Ihren Prozess verbessern möchten, empfehlen wir Ihnen dringend, einen Blick auf ClearML zu werfen.

Artikel teilen:

Ihre Zukunft in der Robotik beginnt hier

Setzen Sie sich mit Nomagic in Verbindung und erfahren Sie, wie unsere innovative Technologie Ihre Fulfillment-Prozesse auf die nächste Stufe heben kann.