Wir haben drei führende KI-Codierassistenten einem strengen Test unterzogen, um herauszufinden, welcher am besten abschneidet. Claude, GPT-4 und GitHub Copilot stellen sich praktischen Programmierherausforderungen: Implementierung eines Snake-Spiels und Erstellung einer Elektronenwolken-Simulation.
Herausforderung 1: Implementierung des Schlangenspiels
Claude 3.5 Leistung:
– Die erste funktionierende Version wurde im ersten Versuch erstellt
– Es waren 6 Iterationen erforderlich, um alle Probleme zu beheben
– Die letzten Probleme wurden behoben:
– Verhinderung von 180-Grad-Drehungen
– Umgang mit schnellen Tasteneingaben
– Korrekte Kollisionserkennung
– Artefakte-Funktion erleichtert den Versionsvergleich
GPT-4 Leistung:
– Auch die erste Version funktionierte
– Nach 8 Iterationen konnten immer noch nicht alle Probleme behoben werden
– Anhaltende Probleme mit:
– Behandlung von Tasteneingaben
– Spielfenster öffnet sich nicht
– Weniger komfortable Schnittstelle für mehrere Iterationen
Herausforderung 2: Elektronenwolken-Simulation
Anfangsphase:
– Beide KIs erstellten grundlegende Partikelsimulationen
– GPT-4 erzeugte anfangs die bessere Physik
– Claude enthielt nicht angeforderte Dämpfungsterme
Erweiterte Funktionen:
– GPT-4 fügte erfolgreich die Geschwindigkeitssteuerung hinzu
– Scheiterte beim Hinzufügen der Partikelzählfunktion
– Claude kämpfte mit der anfänglichen Physik
– Implementierte erfolgreich erweiterte Funktionen unter Verwendung des Basiscodes von GPT-4
Endgültige Ergebnisse:
– Unentschieden zwischen Claude und GPT-4
– Claude besser bei iterativen Verbesserungen
– GPT-4 besser bei der ersten Implementierung
GitHub Copilot Leistung
Wichtige Probleme:
– Kompatibilitätsprobleme bei der Installation mit VS Code
– Schwierigkeiten beim Lesen und Verstehen von vorhandenem Code
– Generierung unvollständiger Codeschnipsel
– Fehlerhafte Integration von Änderungen
– Unfähig, seine eigenen Fehlermeldungen zu beheben
Beschränkungen:
– Trotz lokaler Ausführung konnte der Kontext nicht effektiv genutzt werden
– Die Leistung war schlechter als erwartet für ein kostenpflichtiges Tool
– Die theoretischen Vorteile konnten nicht genutzt werden
Endgültiges Urteil
Schlangenspiel:
🥇 Claude 3.5
🥈 GPT-4
🥉 GitHub Copilot
Elektronenwolken-Simulation:
🥇 Gleichstand zwischen Claude 3.5 und GPT-4
🥉 GitHub Copilot
Wichtige Erkenntnisse:
– Claude 3.5 zeichnet sich durch iterative Verbesserungen aus
– GPT-4 stark bei ersten Implementierungen
– GitHub Copilot schnitt trotz theoretischer Vorteile unterdurchschnittlich ab
– Die Schnittstelle ist wichtig: Claudes Artefakt-Funktion hat sich als wertvoll erwiesen
– Alle Tools erfordern weiterhin menschliche Aufsicht und Iteration
Möchten Sie Ihre Python-Programmierkenntnisse verbessern? Schauen Sie sich unsere Kurse bei Training Scientists an, um von Experten geführten Unterricht in wissenschaftlichem Rechnen und Simulation zu erhalten.