ChatGPT o1 gegen Claude 3.5: Programmierschlacht

Nachdem sowohl Anthropic als auch OpenAI aktualisierte Versionen ihrer KI-Modelle veröffentlicht haben, ist es an der Zeit, sie auf die Probe zu stellen.

Nachdem sowohl Anthropic als auch OpenAI aktualisierte Versionen ihrer KI-Modelle veröffentlicht haben, ist es an der Zeit, sie auf die Probe zu stellen. Wir vergleichen Claude 3.5 Sonnet und ChatGPT o1 in zwei praktischen Programmieraufgaben: Implementierung eines Snake-Spiels und Erstellung einer Elektronenwolken-Simulation.

Herausforderung 1: Implementierung des Schlangenspiels

Claude 3.5 Leistung:

Es waren 7 Iterationen erforderlich, um ein voll funktionsfähiges Spiel zu erhalten:
1. Erste Implementierung – grundlegendes Spiel funktioniert
2. Behebung von Problemen bei der schnellen Tasteneingabe
3. Behebung des Ignorierens von Eingaben
4. Verbesserung der Reaktionsfähigkeit bei der Eingabe
5. Behebung des Laichens von Nahrung in der Schlange
6. Hinzufügen von Tastaturkürzeln
7. Letzte Fehlerbehebungen

ChatGPT o1 Leistung:

In 5 Iterationen zu einer funktionierenden Lösung gekommen:
1. Erste Implementierung
2. Korrektur der Richtungsänderungen
3. Behandlung von Tasteneingaben
4. Verbesserung der Reaktionsfähigkeit
5. Endgültige Arbeitsversion

Herausforderung 2: Elektronenwolken-Simulation

Claude 3.5:
– Begann mit einer vielversprechenden Anfangsimplementierung
– Hatte Probleme mit den Randbedingungen
– Fügte unerwünschte Dämpfungsterme hinzu
– Partikel, die sich gegenseitig durchdringen
– Erforderte erhebliche Aufforderungen zur Verbesserung

ChatGPT o1:
– Bessere anfängliche Physik-Implementierung
– Erfolgreiche Implementierung der RK4-Integration
– Hinzufügen eines funktionierenden Partikelzählers
– Erstellen einer Echtzeit-Visualisierung
– Erreichen einer eigenständigen Komplettlösung

Wichtige Verbesserungen in den neuen Versionen

Claude 3.5:
– Etwas bessere anfängliche Codegenerierung
– Neue Fähigkeit, NPY-Dateien zu verarbeiten
– Geringfügige Verbesserung der Iterationszahl
– Hat immer noch Probleme mit komplexer Physik

ChatGPT o1:
– Längere Denkzeit (bis zu 19 Sekunden)
– Besserer Umgang mit komplexer Physik
– Vollständigere Lösungen
– Weniger Iterationen erforderlich

Endgültiges Urteil

Schlangenspiel:
Gewonnen: ChatGPT o1 (5 Iterationen gegen Claude’s 7)

Elektronenwolke:
Gewinner: ChatGPT o1 (erzielte unabhängig eine Komplettlösung)

Wichtige Erkenntnisse:
– ChatGPT o1 zeigt deutliche Verbesserungen gegenüber der Vorgängerversion
– Claude 3.5 zeigt bescheidene Verbesserungen
– Beide erfordern immer noch eine iterative Eingabeaufforderung
– Physikalische Simulationen bleiben eine Herausforderung für KI

Test-Methodik

Um einen fairen Vergleich zu gewährleisten, haben wir für beide KI’s identische Prompts verwendet:

Ursprüngliches Snake-Spiel:
"Create a Snake game in Python"

Initiale Elektronenwolke:
"Create a Python simulation for electrons repelling each other within a circular boundary..."


Möchten Sie mehr über den Einsatz von KI-Tools beim Programmieren erfahren? Schauen Sie sich unsere Python-Kurse bei Training Scientists an, in denen wir Ihnen beibringen, wie Sie KI effektiv nutzen und gleichzeitig solide Programmiergrundlagen erwerben können.

Teilen:

Mehr Beiträge

Senden Sie uns eine Nachricht

Nach oben scrollen