Claude 3.5 vs. ChatGPT 4o vs. GitHub Copilot

Wir haben drei führende KI-Codierassistenten einem strengen Test unterzogen, um herauszufinden, welcher am besten abschneidet.

Wir haben drei führende KI-Codierassistenten einem strengen Test unterzogen, um herauszufinden, welcher am besten abschneidet. Claude, GPT-4 und GitHub Copilot stellen sich praktischen Programmierherausforderungen: Implementierung eines Snake-Spiels und Erstellung einer Elektronenwolken-Simulation.

Herausforderung 1: Implementierung des Schlangenspiels

Claude 3.5 Leistung:
– Die erste funktionierende Version wurde im ersten Versuch erstellt
– Es waren 6 Iterationen erforderlich, um alle Probleme zu beheben
– Die letzten Probleme wurden behoben:
– Verhinderung von 180-Grad-Drehungen
– Umgang mit schnellen Tasteneingaben
– Korrekte Kollisionserkennung
– Artefakte-Funktion erleichtert den Versionsvergleich

GPT-4 Leistung:
– Auch die erste Version funktionierte
– Nach 8 Iterationen konnten immer noch nicht alle Probleme behoben werden
– Anhaltende Probleme mit:
– Behandlung von Tasteneingaben
– Spielfenster öffnet sich nicht
– Weniger komfortable Schnittstelle für mehrere Iterationen

Herausforderung 2: Elektronenwolken-Simulation

Anfangsphase:
– Beide KIs erstellten grundlegende Partikelsimulationen
– GPT-4 erzeugte anfangs die bessere Physik
– Claude enthielt nicht angeforderte Dämpfungsterme

Erweiterte Funktionen:
– GPT-4 fügte erfolgreich die Geschwindigkeitssteuerung hinzu
– Scheiterte beim Hinzufügen der Partikelzählfunktion
– Claude kämpfte mit der anfänglichen Physik
– Implementierte erfolgreich erweiterte Funktionen unter Verwendung des Basiscodes von GPT-4

Endgültige Ergebnisse:
– Unentschieden zwischen Claude und GPT-4
– Claude besser bei iterativen Verbesserungen
– GPT-4 besser bei der ersten Implementierung

GitHub Copilot Leistung

Wichtige Probleme:
– Kompatibilitätsprobleme bei der Installation mit VS Code
– Schwierigkeiten beim Lesen und Verstehen von vorhandenem Code
– Generierung unvollständiger Codeschnipsel
– Fehlerhafte Integration von Änderungen
– Unfähig, seine eigenen Fehlermeldungen zu beheben

Beschränkungen:
– Trotz lokaler Ausführung konnte der Kontext nicht effektiv genutzt werden
– Die Leistung war schlechter als erwartet für ein kostenpflichtiges Tool
– Die theoretischen Vorteile konnten nicht genutzt werden

Endgültiges Urteil

Schlangenspiel:
🥇 Claude 3.5
🥈 GPT-4
🥉 GitHub Copilot

Elektronenwolken-Simulation:
🥇 Gleichstand zwischen Claude 3.5 und GPT-4
🥉 GitHub Copilot

Wichtige Erkenntnisse:
– Claude 3.5 zeichnet sich durch iterative Verbesserungen aus
– GPT-4 stark bei ersten Implementierungen
– GitHub Copilot schnitt trotz theoretischer Vorteile unterdurchschnittlich ab
– Die Schnittstelle ist wichtig: Claudes Artefakt-Funktion hat sich als wertvoll erwiesen
– Alle Tools erfordern weiterhin menschliche Aufsicht und Iteration


Möchten Sie Ihre Python-Programmierkenntnisse verbessern? Schauen Sie sich unsere Kurse bei Training Scientists an, um von Experten geführten Unterricht in wissenschaftlichem Rechnen und Simulation zu erhalten.

Teilen:

Mehr Beiträge

Senden Sie uns eine Nachricht

Nach oben scrollen