ClearML-Logo 16x9

ML-Projekte erfolgreich umgesetzt: Unsere Geschichte mit ClearML

Wer schon einmal an frühen Projekten im Bereich maschinelles Lernen mitgearbeitet hat, kennt das wahrscheinlich. Überall findet man Code-Skripte, diverse Tabellen mit notierten Werten und Parametern sowie willkürlich benannte Dateien mit Modellgewichten. 

Als unser Team wuchs und unsere KI-Projekte ambitionierter wurden, erkannten wir, dass die einfachen Tabellenkalkulationsmethoden nicht mehr ausreichten. Wir mussten uns besser organisieren. Wir brauchen Verlässlichkeit und einen klaren Überblick über unsere Arbeit. Dies ist die Geschichte, wie wir vor einigen Jahren ein wichtiges Werkzeug fanden, das uns dabei half: ClearML Und wir nutzen es seit.

Wir brauchten ein Tool, das unsere Experimente und Artefakte verfolgen und vor allem unseren gesamten KI-Entwicklungsprozess strukturieren konnte. Nach der Prüfung erwies sich ClearML als die beste Wahl. Es bot alle benötigten Funktionen, war einfach einzurichten und zu verstehen, uns bei der Verwaltung unserer Arbeit von Anfang bis Ende zu unterstützen. Wir haben uns dafür entschieden, und die Auswirkungen waren enorm.

Hier ein genauerer Blick auf die wichtigsten Wege, wie ClearML unseren Workflow verbessert hat.

Säule 1: Jedes Mal die gleichen Ergebnisse erzielen (Reproduzierbarkeit)

Im maschinellen Lernen ist es unerlässlich, dass man seine Ergebnisse reproduzieren kann. Andernfalls wird die Lösung zum Albtraum, die Zusammenarbeit erschwert und man kann den eigenen Ergebnissen nicht wirklich vertrauen.

Die Herausforderung für ClearML: Früher bedeutet die Wiederholung eines Experiments einen langwierigen Prozess. Wir hatten mehrere Tabellenkalkulationen, die sich mit jedem neuen Projekt vermehrten, die Trainingsparameter mussten manuell notiert werden, und sobald das Training lief, gab es keine einfache Möglichkeit, die verwendeten Parameter zu überprüfen. 

Wie ClearML das Problem gelöst hat: ClearML beginnt wie ein automatischer Protokollführer für jedes Experiment. Es speichert automatisch:

  • Exakter Git-Commit: Dies umfasst die exakte Version aus Git und – erstaunlicherweise – sogar Git-Diffs. Man muss sich nicht mehr fragen, ob ein “kleiner Test” Teil des finalen Laufs war.
  • Die Trainingskonfiguration: ClearML sammelt einen vollständigen YAML-Dump unserer Trainingskonfiguration.
  • Alle Einstellungen: Es speichert alle Einstellungen und Parameter, die zum Ausführen des Experiments verwendet wurden (z. B. Anzahl der verwendeten GPUs, verwendeter GPU-Treiber oder Python-Version).

Die Auswirkungen: Das Wiederholen eines Experiments ist nun so einfach wie ein Klick auf den “Klonen”-Button. Dies hat sich als große Hilfe erwiesen für:

  • Neue Teammitglieder einarbeiten: Sie können sich alte Experimente leicht ansehen und verstehen, wie sie durchgeführt wurden.
  • Fehler gefunden: Wenn ein Modell nicht richtig funktioniert, können wir zum jeweiligen Experiment zurückkehren und sehen, was schiefgelaufen ist.

Säule 2: Genau sehen, was passiert ist (Volle Transparenz)

Um bessere Modelle zu erstellen, muss man verstehen, warum ein Experiment zu einem bestimmten Ergebnis geführt hat. Wenn man einfach nur Daten eingibt und ein Ergebnis erhält, ohne die Modellmetriken zu kennen, ist das, als würde man im Dunkeln tappen.

Die Herausforderung für ClearML: Wir haben versucht, unsere eigenen, sehr einfachen Tools für den Metrikvergleich zu verwenden. Nach einer kurzen Einarbeitungszeit erfüllte das Tool zwar seinen Zweck, war aber dennoch umständlich. Die Analyse von Leistungstrends im Zeitverlauf gestaltete sich sehr aufwendig. Die Suche nach dem Code und dem Datensatz, der ein bestimmtes Ergebnis erzeugte, ist oft Detektivarbeit.

ClearML-Experimentmanager

Wie ClearML das Problem gelöst hat: ClearML bietet uns ein einziges, einfach zu bedienendes Dashboard, das als Kommandozentrale für unser gesamtes ML-Training dient.

  • Automatische Nachverfolgung: ClearML speichert während des Trainings automatisch alle wichtigen Zahlen, Grafiken, Bilder und Textausgaben (sogar die Rohdaten der Trainingsprotokolle).
  • Einfacher Vergleich: Wir können alle unsere Experimente übersichtlich auf einer Seite einsehen und die Unterschiede vergleichen, wodurch selbst kleinste Veränderungen leicht erkennbar werden. Wir können nach Metrik filtern, um Ergebnisse zu vergleichen und die besten zu finden.
  • Übersichtliche Grafiken: Wir können die Leistung unseres Modells mithilfe integrierter Diagramme verfolgen, die uns zeigen, wie sich verschiedene Experimente im Vergleich zueinander schlagen.

Die Auswirkungen: Diese Transparenz hat es uns ermöglicht:

  • Probleme schneller beheben: Wir können schnell erkennen, was den Unterschied zwischen einem fehlgeschlagenen und einem erfolgreichen Lauf ausmachte.
  • Besser zusammenarbeiten: Teammitglieder können ihre Arbeit problemlos im vollständigen Kontext teilen, sodass alle auf dem gleichen Stand sind (ein einziger Link zu ClearML sagt manchmal mehr als tausend Worte).
  • Treffen Sie intelligentere Entscheidungen: Mit hervorragenden Tools zum Tracking und Vergleich können wir die besten Modelle für die weitere Entwicklung sicher auswählen.

Säule 3: Schulungsmaterialien am richtigen Ort (Einfache Verwaltung)

Beim ML-Training entstehen zahlreiche Dateien: Modellgewichte, Diagramme, Debug-Daten, Beispiele, Berichte und vieles mehr, abhängig von der Art des durchgeführten ML-Trainings. Eine gute Organisation dieser Dateien ist entscheidend für erfolgreiches Arbeiten.

Die Herausforderung für ClearML: Unsere Dateien waren in den Tiefen des Cloud-Speichers verschwunden. Da jedes Training Dutzende von Dateien mit kryptischen Namen erzeugte, gingen die Modelle leicht verloren. Das führte zu Verwirrung, versehentlichen Fehlern und erschwerte es, die richtige Datei zu finden, wenn wir sie brauchten.

Wie ClearML das Problem gelöst hat: ClearML sorgt dafür, dass Ihre Dateien da sind, wenn Sie sie brauchen.

  • Zentralspeicher: Alle unsere Artefakte sind an einem Ort gespeichert – wir können sie einfach über die ClearML-Benutzeroberfläche verwalten.
  • Benutzerfreundlichkeit: Sämtliche Diagramme, Zeitreihen- und Debug-Bilder und vieles mehr stehen uns zum einfachen Durchsuchen zur Verfügung. Das gibt uns Sicherheit und ermöglicht es uns, schnell auf die wichtigsten Dateien zuzugreifen.

Die Auswirkungen: Dieser systematische Ansatz zur Dateiverwaltung hat zu Folgendem geführt:

  • Weniger Unordnung und Verwirrung: Keine Rätselraten mehr, welche Datei die richtige ist.
  • Bessere Teamarbeit: Alle Teammitglieder können Schulungsmaterialien anderer Ingenieure sicher finden und verwenden.

Das große Ganze: Unsere Arbeit ist jetzt klarer, schneller und zuverlässiger.

Die Nutzung von ClearML war mehr als nur die Einführung eines neuen Tools. Es ist halb so, bessere Arbeitsgewohnheiten zu entwickeln. Da die Plattform einen Großteil der Nachverfolgung und Organisation automatisch übernimmt, verbringt unser Team weniger Zeit mit der manuellen Datenerfassung und mehr Zeit mit der Entwicklung neuer Ideen.

Wir erleben nun Folgendes:

  • Schnellere Entwicklungszyklen.
  • Weniger Zeitaufwand für die Behebung von Problemen und die Suche nach Tippfehlern.
  • Bessere Teamarbeit und besserer Wissensaustausch.
  • Mehr Vertrauen in unsere Modelle und in die Kunst und Weise, wie wir sie entwickeln.

ClearML ist für unser ML-Team unverzichtbar geworden. Es bringt eine Klarheit und Effizienz in unsere Arbeit, die wir vorher nicht erreichen konnten. Wenn auch Ihr Team mit den komplexen Aspekten des maschinellen Lernens zu kämpfen hat und Sie Ihre Prozesse optimieren möchten, empfehlen wir Ihnen dringend, ClearML einmal genauer anzusehen.

Artikel teilen:

Das könnte Ihnen auch gefallen

Deine Zukunft in der Robotik beginnt hier

Nehmen Sie Kontakt mit Nomagic auf, um zu erfahren, wie unsere innovative Technologie Ihre Fulfillment-Prozesse auf die nächste Stufe heben kann.