Sehr schöner ChatGPT Takedown an einem sehr simplen aber extrem lustigen Beispiel mindmatters.ai/2025/08/chatgpt…
ChatGPT-5 Tries Out “Rotated” Tic-Tac-Toe. You Be the Judge…
It’s no mystery why LLMs aren’t intelligent in any meaningful way. The real mystery is why so many otherwise intelligent people still take the claims seriously.Gary Smith (Mind Matters)
Ralf Stockmann
Als Antwort auf Max von Webel • • •Max von Webel
Als Antwort auf Ralf Stockmann • • •Ralf Stockmann
Als Antwort auf Max von Webel • • •peksor 🔸
Als Antwort auf Ralf Stockmann • • •Max von Webel
Als Antwort auf Max von Webel • • •Ralf Stockmann
Als Antwort auf Max von Webel • • •Na ja, es ist aber halt andersrum: dieses „Beispiel" funktioniert bei exakt KEINEM der aktuellen Flagship-Modelle. Getestet: Mistral (lokal!), Gemini 3 Pro, ChatGPT 5.2, Claude Sonnet 4.5.
Keines fällt darauf rein, die Antwort von Gemini mal als hübsches Beispiel.
Und so läuft das seit 2 Jahren:
10 „haha, schaut was die GPTs alles nicht können"
20 ich setze mich 1 Minute dran und exakt das funktioniert in allen neuen Modellen
30 goto 10
🤷🏻♂️
Ralf Stockmann
Als Antwort auf Ralf Stockmann • • •"hätten wir vor 5 Jahren einer Definition von AGI zugestimmt: der Computer darf nicht _mehr_ Fehler machen bei Wissen, Kommunikation und Strategie als ein(e) durschnittliche Erdenbürger:in mit IQ von genau 100“.
Ich zumindest hätte da wohlwollend genickt. Das Problem ist, dass AGI ständig mit ASI verwechselt wird. AGI muss perfekt sein, Menschen aber nicht?
Max von Webel
Als Antwort auf Ralf Stockmann • • •Max von Webel
Als Antwort auf Max von Webel • • •Max von Webel
Als Antwort auf Max von Webel • • •Ralf Stockmann
Als Antwort auf Max von Webel • • •a) LLMs lernen derzeit stündlich, nur aufgrund der einzusetzenden Ressourcen zentralisiert (neue Versionen). Ich halte es für realistisch, dass wir in 5 bis max. 10 Jahren lokal eigene LLMs trainieren (anlernen) können.
b) LORAs sind schon jetzt de fakto „Anlernenungen“ von LLM (innerhalb bestimmter Grenzen, ja)
c) wenn das Kontext-Fenster nur groß genug ist/wird (siehe Ressourcen) kann ein „Lernchat" problemlos mitlaufen
Max von Webel
Als Antwort auf Ralf Stockmann • • •b) lernen ist nicht “jemand kippt Informationen rein”. Da wird nichts gelernt, da werden neue Informationen reingekippt… (1/2)
Max von Webel
Als Antwort auf Max von Webel • • •Ralf Stockmann
Als Antwort auf Max von Webel • • •Max von Webel
Als Antwort auf Ralf Stockmann • • •Ralf Stockmann
Als Antwort auf Max von Webel • • •OmniJan
Als Antwort auf Ralf Stockmann • • •@rstockm ich fürchte, dass wir da sowohl an semantische als auch ein menschliche Probleme stoßen: jeder lädt die Begriffe Intelligenz und lernen mit dem auf, was er sich gerade darunter vorstellt.
Und dadurch diskutiert jeder in seiner eigenen Welt. Ihr habt ja beide nachvollziehbare Punkte, wenn man sie nur aus eurer Perspektive heraus betrachtet.
1/2
Max von Webel
Als Antwort auf Ralf Stockmann • • •@rstockm Aber ich habe dir doch eben einen Screenshot geschickt wie das aktuelle ChatGPT genau darauf reinfällt.
Für mich ist es exakt andersrum wie du beschreibst. Seit Jahren:
10 du und andere AI believer: “ja, noch vor ein paar Wochen war das Modell noch strunzdumm, aber heute können sie exakt dieses eine Beispiel lösen, darum sind sie perfekt”
20 jemand findet ein neues Beispiel wie ein "Flagship-Model" haarstäubend dumme weise auf die Fresse fällt… (1/2)
Max von Webel
Als Antwort auf Max von Webel • • •30 die AI Firmen bringen neue Modelle raus die auf exakt diesen Fall nicht mehr reinfallen
40 goto 10
le sigh
Wir haben exakt die selbe Diskussion schon diverse Male geführt. Was bringt dich auf die Idee das ChatGPT 5.2.4 Code Red Edition dieses mal aber wirklich all die Versprechen einlöst, die all die anderen Versionen nicht einlösen konnten? (2/2)
Ralf Stockmann
Als Antwort auf Max von Webel • • •Ralf Stockmann
Als Antwort auf Ralf Stockmann • • •Und darum geht es mir: mir gehen wirklich die Szenarien aus, wo LLMs mit etwas Tuning, RAG Modellen etc. _nicht_ zu "ready to ship" zu bringen sind. Da ist mir dann AGI ziemlich egal.
Gemini 3 Pro kann meine Handschrift lesen, und zwar perfekt. das schaffen 99% der Menschen um mich herum nicht - was für eine Basis für Automatisierung!
Max von Webel
Als Antwort auf Ralf Stockmann • • •Ralf Stockmann
Als Antwort auf Max von Webel • • •Ralf Stockmann
Als Antwort auf Ralf Stockmann • • •Max von Webel
Als Antwort auf Ralf Stockmann • • •Ralf Stockmann
Als Antwort auf Max von Webel • • •Max von Webel
Als Antwort auf Ralf Stockmann • • •Max von Webel
Als Antwort auf Max von Webel • • •Ralf Stockmann
Als Antwort auf Max von Webel • • •1)
Ralf: zentral ist, dass ein Problem verlässlich mit LLM gelöst werden kann. Egal wie der Weg ist.
Max: zentral ist: dass auch der komplette Weg vom LLM perfekt gegangen wird ohne Begleitung
2)
Ralf: nutzt ausschließlich die besten für Geld verfügbaren Modelle, ignoriert den Rest
Max: nutzt was gerade da ist, auch die freien Versionen
OmniJan
Als Antwort auf Ralf Stockmann • • •@rstockm
„ verlässlich“ ist ein gefährlicher Begriff. Verlässlich ist bei der Technologie nämlich sehr wenig.
Häufig kommt etwas raus, dass dement spricht, was man sich erhoffen würde, aber eben nicht immer und nicht vorhersehbar. Und genau das ist das Problem, weil das falsche genauso korrekt aussieht, wie das richtige.
Das macht diese Technologie so schwer einsetzbar
Ralf Stockmann
Als Antwort auf OmniJan • • •OmniJan
Als Antwort auf Ralf Stockmann • • •@rstockm es funktioniert aber ausschließlich in Kontexten, die man selber absolut beherrscht und bei denen man erkennt, wo das System bricht.
Ich benutze es selbst regelmäßig in meinem Arbeitsumfeld. Und aus gutem Grund nutze ich es ausschließlich dann, wenn ich es selber schon weiß und nur etwas Zeit sparen möchte.
Es wird dann gefährlich, wenn irgendjemand, der den Kontext nicht ohnehin schon zu 100 % beherrscht denkt, dass es schon richtig sein wird
Ralf Stockmann
Als Antwort auf Ralf Stockmann • • •Max von Webel
Als Antwort auf Ralf Stockmann • • •Ralf Stockmann
Als Antwort auf Max von Webel • • •Max von Webel
Als Antwort auf Ralf Stockmann • • •Ralf Stockmann
Als Antwort auf Max von Webel • • •Ein normales iPhone-Bild davon überführt die LLM in eine Markdown-Datei und clustert dann noch sinnvoll. Ich hätte das bis vor 1 Monat für technisch völlig unmöglich gehalten, Gemini 3 Pro macht das tiefenentspannt. Das ist ein totaler Game-Changer für unsere Strategiearbeit.
Rückwärts geht auch: Whiteboard aus 5-Seiten PDF
Ralf Stockmann
Als Antwort auf Ralf Stockmann • • •Max von Webel
Als Antwort auf Ralf Stockmann • • •Ralf Stockmann
Als Antwort auf Max von Webel • • •dasdom
Als Antwort auf Ralf Stockmann • • •Max von Webel
Als Antwort auf Max von Webel • • •@rstockm Und: was soll ich mit diesem Bild? Ich weiß nicht was auf den Post Its stand. Ich weiß nicht, welche Themen ihr da wirklich aufgeschrieben habt. Ich kann nicht prüfen, welche Themen die AI vergessen hat. Ich kann nicht prüfen, was sie dazu erfunden hat. Ich sehe eine Tafel im typischen AI generierten 0815 Look mit für mich sehr generischen Inhalten.
Was mir auffällt: Befähigung schreibt man mit “ä" und nicht mit einem a mit Häkchen drüber.
Ralf Stockmann
Als Antwort auf Max von Webel • • •LB
Als Antwort auf Ralf Stockmann • • •@rstockm "current models have almost 100% success rate on tasks taking humans less than 4 minutes, but succeed <10% of the time on tasks taking more than around 4 hours"
Einen 3h-Task würde ich eher keinem LLM geben.
metr.org/blog/2025-03-19-measu…
Measuring AI Ability to Complete Long Tasks
METR (metr.org)hub
Als Antwort auf Ralf Stockmann • • •Max von Webel
Als Antwort auf Ralf Stockmann • • •Ralf Stockmann
Als Antwort auf Max von Webel • • •Max, es sind 2 verschiedene use-Cases die ich beschrieben habe.
1) Nachbereitung eines typischen Strategie-Workshops - Entwicklung eines Strategiepapers aus einem Brainstorming-Termin. Machen wir täglich.
2) Visualisierung einer Strategie, die bisher nur als Text vorliegt.
Beides für uns von extremen Wert, und es ist ok wenn so was in _deiner_ Welt keine Rolle spielt aber: für weite Teile des mittleren Managements weltweit ist das ein Gamechanger.
Max von Webel
Als Antwort auf Ralf Stockmann • • •LB
Als Antwort auf Ralf Stockmann • • •Ralf Stockmann
Als Antwort auf LB • • •Das ist hier auch gerade eher so ein - Ritual.
Max von Webel
Als Antwort auf Ralf Stockmann • • •Max von Webel
Als Antwort auf LB • • •Max von Webel
Als Antwort auf Max von Webel • • •Ralf Stockmann
Als Antwort auf Max von Webel • • •Ich bin doch der, der durch die Gehend läuft und sagt „wie kostenlosen Modelle sind Mist und nicht geeignet, die Grenzen von LLMs zu diskutieren“.
Für eigene Experimente empfehle ich immer openrouter.ai da braucht es keine 200 sondern vielleicht 5€ im Monat und man weiß was Phase ist.
OpenRouter
OpenRouterron
Als Antwort auf Ralf Stockmann • • •Oder nutzt du hauptsächlich ChatGPT, der bringt das ja von Haus aus mit?
Ralf Stockmann
Als Antwort auf ron • • •Für alles andere habe ich Cursor (Vibe-Coding), Standard ChatGPT (Standardkram) und eine lokale Mistral 14b Instanz mit ML Studio davor.
Also recht diversifiziert.
LB
Als Antwort auf Max von Webel • • •Das Schöne ist ja, dass es Forschung gibt und die ist bisher ziemlich eindeutig. Man fühlt sich als Softwareentwickler mit LLM-"Unterstützung " deutlich produktiver als man tatsächlich ist.
metr.org/
METR
METRRalf Stockmann
Als Antwort auf LB • • •LB
Als Antwort auf Ralf Stockmann • • •Ralf Stockmann
Als Antwort auf LB • • •LB
Als Antwort auf Ralf Stockmann • • •Ralf Stockmann
Als Antwort auf LB • • •LB
Als Antwort auf Ralf Stockmann • • •@rstockm Bisher hat mich noch kein LLM für die Softwareentwicklung überzeugt. Ja, die kotzen schnell einen Prototypen raus, aber sobald die echte Welt damit in Verbindung kommt, explodiert alles.
Für kleine Nischenprobleme kann es vielleicht was taugen, aber da sind spezielle Lösungen sicher besser als LLMs.
Ralf Stockmann
Als Antwort auf LB • • •LB
Als Antwort auf Ralf Stockmann • • •Ralf Stockmann
Als Antwort auf LB • • •@lbenedix Alles hier aus den letzten 2 Jahren dazu zwei nicht öffentliche die noch komplexer sind:
github.com/rstockm?tab=reposit…
Es kommt halt auch darauf an ob man die LLMs beim Coden als Gegner sieht den man aufs Kreuz legen möchte oder als endlos geduldig motivierten Junior DEV den man ins eigene Projekt einarbeitet.
rstockm - Repositories
GitHubLB
Als Antwort auf Ralf Stockmann • • •@rstockm ich sehe das LLM als Junior-Dev, der leider sehr überzeugt davon ist, dass er die Weisheit mit Löffeln gefressen hat.
Würde bei mir nicht durch die Probezeit kommen.
Max von Webel
Als Antwort auf Ralf Stockmann • • •LB
Als Antwort auf Max von Webel • • •@rstockm Bei der Beurteilung, ob ein LLM gute Arbeit macht, spielen viele psychologische Verzerrungen mit. Es fängt schon damit an, dass man selbst etwas tut, also einen Prompt formuliert und dann passiert etwas. Das ist natürlich toll.
Aber ja, es gibt glaub ich kein erfolgreiches Open Source Projekt, bei dem der überwiegende Anteil der Contributions von LLMs kommt. Oder?
Ralf Stockmann
Als Antwort auf LB • • •1) ich habe keine Zeile davon selbst geschrieben
2) keines der Projekte hätte ich angefangen ohne LLMs (ich kann kein JavaScript)
3) die Oneshot Quote ist mit den Monaten kontinuierlich gestiegen, bei Testabend fast alles bis auf mobil CSS
4) Einigen der Tools würde ich doch gesellschaftlichen Nutzen zuschreiben wie Mastowall, Mastotags oder Fedipol.
Max von Webel
Als Antwort auf Ralf Stockmann • • •Uckermark MacGyver
Als Antwort auf Max von Webel • • •Ralf Stockmann
Als Antwort auf Uckermark MacGyver • • •@maxheadroom @lbenedix Ich habe mal etwas gekramt in der Historie des „Testabend" Projektes, das hier wäre ein Beispiel:
„Ok ich möchte einen neuen Featurebereich starten, und zwar einen integrierten LLM Chatbot. Erstelle dazu zunächst im Header einen neuen Eintrag "Testteam" und eine Seite, auf der eine gängige Chat-GUI zu sehen ist. Im nächsten Schritt binden wir meine OpenRouter Instanz an.“
1/2
Ralf Stockmann
Als Antwort auf Ralf Stockmann • • •1 Tag Arbeit in 40 Sekunden, Oneshot.
So geht das dann Feature um Feature.
2/2
Ralf Stockmann
Als Antwort auf Ralf Stockmann • • •@maxheadroom @lbenedix Das ist der Code:
github.com/rstockm/testabend/b…
Da habe ich dann später das RAG Modell des Projektes angebunden sowie einen umfangreichen Meta-Prompt, destilliert aus der KI-Analyse eines 1h Audio Interviews mit einem Prof.
testabend/public/js/chat.js at main · rstockm/testabend
GitHubMax von Webel
Als Antwort auf Uckermark MacGyver • • •@maxheadroom @rstockm @lbenedix Ja, so nutze ich coding Assistants. So wie ich diese Tools nutze haue ich einen Prompt rein, schaue mir ein paar Sekunden oder Minuten später das Ergebnis an, werfe es weg, fixe es oder akzeptiere es.
Aber in diesem Strang ging es ja genau darum wie Ralf verlässlich Probleme von einer AI lösen lässt, also sie Code schreibt, Tests schreibt, Bugs fixt etc ohne das man ihr dabei ständig die Hand halten und neue Anweisungen geben muss.
Uckermark MacGyver
Als Antwort auf Max von Webel • • •@rstockm @lbenedix Ich denke das würde gehen, wenn Du Spezifikationen im vornherein genau weißt und dem LLM sehr präzise Anweisungen gibst und es dann machen lässt. Ggf. braucht es Agenten die sich gegenseitig überwachen.
Aber genau das gleiche Problem hast du ja mit menschlichen Entwicklern auch. Am Anfang steht erstmal eine Produktidee und die musst entwickeln. Die wirfst du ja dem Entwickler auch nicht einfach hin und nach ein paar Stunden oder Tagen kommt es genau so raus wie du es dir vorgestellt hast.
Max von Webel
Als Antwort auf Uckermark MacGyver • • •@maxheadroom @rstockm @lbenedix Nach meiner Erfahrung geht das nicht wirklich, weil die LLM sich dann meistens irgendwann auf die Fresse packt oder der Kontext vollläuft und sie anfängt Amok zu laufen.
Außerdem klingt das für mich extrem nach Wasserfall.
Mit den menschlichen Entwicklern könnte man schnell iterieren, vielleicht sogar den eigenen Stolz überwinden und selbst ein wenig programmieren lernen auch wenn das natürlich eigentlich unter dem Niveau eines Managers ist.
Uckermark MacGyver
Als Antwort auf Max von Webel • • •@rstockm @lbenedix ja, das ist "Wasserfall". Aber egal wie du es nennst, die Dinger sind dabei einfach zig mal schneller beim Schreiben von Code, beim lesen langer Fehlermeldungen, beim recherchieren in Dokumentation etc. Und das ist ein sehr großer Vorteil.
Es entsteht einfach viel Software die es so nicht geben würde weil jemand mit zu wenig skills oder Geduld/Zeit sich nicht an seine Idee rangetraut hat. Mit einem Coding Assistant kann so jemand solche Ideen komplett umsetzen.
Was glaube ich auch nicht zu verachten ist, ist die "Attitude" des LLM. Das ist immer nett und will dir helfen. Egal wie dumm du dich anstellst. Stellst Du menschlichen Enticklern eine Frage die dich als Anfänger outed bekommst du mit hoher Wahrscheinlichkeit eine anfällige oder sehr oberlehrerhafte Antwort. Das motiviert nicht immer dran zu bleiben.
Max von Webel
Als Antwort auf Uckermark MacGyver • • •Max von Webel
Als Antwort auf Max von Webel • • •Max von Webel
Als Antwort auf Max von Webel • • •Max von Webel
Als Antwort auf Max von Webel • • •Max von Webel
Als Antwort auf Max von Webel • • •Und ich sehe nicht, dass mich LLMs massiv produktiver machen. Sehe ich nicht. Wenn dann vielleicht 10%. Wenn man noch mal in Betracht zieht wie wenig seiner Zeit Entwickler mit programmieren verbringen, dann ist das kaum mehr als ein Rundungsfehler. Im besten Fall.
Aber hey, wir können jetzt endlich simpelste Greenfield Tools von einer LLM bauen lassen und können weiterhin überall rumerzählen, dass wir dafür nicht mal die Sprache lernen mussten wie so ein Loser.
Ralf Stockmann
Als Antwort auf Max von Webel • • •1/2
Ralf Stockmann
Als Antwort auf Ralf Stockmann • • •Checkt mal eure Privilegien.
Max von Webel
Als Antwort auf Ralf Stockmann • • •Thomas Bartz
Als Antwort auf Ralf Stockmann • • •Hab die Diskussion genau deswegen so interessiert verfolgt, weil ich Ralf einerseits zustimme, dass Prototyping mit LLM enorm vereinfacht wird, ich beruflich aber ganz andere Probleme zu lösen habe, die - wie Max imho korrekt anmerkt 1/2
Max von Webel
Als Antwort auf Ralf Stockmann • • •@lbenedix Drucker werden immer eine Nische sein, und selbst die die einen haben werden ihn zum allergrößten Teil nur nutzen um irgendwelche fertigen Dokumente auszudrucken. 3D Drucker werden immer eine Nische sein. Heimwerken wird immer eine Nische sein. Softwareentwicklung wird immer eine Nische sein, weil sie schon sehr lange alles hat was es braucht um die Masse zu erreichen so wie so ziemlich jede andere kreative Kulturtechnik auch.
LB
Als Antwort auf Max von Webel • • •@maxheadroom @rstockm
Ein weiterer Blick zeigt, was mir bei AI generierten Code immer wieder auffällt: die Abhängigkeiten sind extrem veraltet.
In dem Fall der Mastowall wird eine 6 Jahre alte Version eines CSS Framework verwendet.
Bei den anderen Abhängigkeiten sieht es nicht viel besser aus...
github.com/twbs/bootstrap/rele…
Release v4.3.1 · twbs/bootstrap
GitHubRalf Stockmann
Als Antwort auf LB • • •@lbenedix @maxheadroom die alte Bootstrap Version war damals eine Vorgabe von mir. Das war noch copy&paste Vibecoding lange bevor es den Begriff gab, siehe:
pad.wolkenbar.de/mastowall
Ich habe das dann nicht mehr aktualisiert (finde es bei bootstrap aber auch unkritisch). Was der Chat-Auszug von dir aber gut Zeigt: CSS ist (noch) eine große Scxhwäche von LLMs, ich habe das mal in diesen Chart gegossen:
1/2
Erfahrungsbericht: Softwareentwicklung mit ChatGPT4 - die Mastowall - HedgeDoc
pad.wolkenbar.deRalf Stockmann
Als Antwort auf Ralf Stockmann • • •2/2
Uckermark MacGyver
Als Antwort auf LB • • •@lbenedix @rstockm Ja, das stimmt alles. Und die Dinger machen auf doofe Fehler. Aber berichtigen sie dann auch einigermaßen. Sicher ist die Code Qualität nicht optimal. Aber es funktioniert. Und für die überwiegende Mehrheit der Projekte duerfte das ausreichen. Man überlege nur mit welcher Qualität sich Millionen Unternehmen bzgl. Microsoft Software "zufrieden " geben.
Ich vergleiche diese Coding LLMs gerne mit elektrischen Werkzeugen eines Handwerkers. Es erlaubt einem Profi die Arbeit viel viel schneller zu erledigen. Und auch ein Anfänger bekommt damit bestimmte Sachen hin, die er ohne gar nicht schaffen würde.
Max von Webel
Als Antwort auf Uckermark MacGyver • • •Max von Webel
Als Antwort auf Max von Webel • • •Max von Webel
Als Antwort auf Max von Webel • • •LB
Als Antwort auf Max von Webel • • •Max von Webel
Als Antwort auf LB • • •LB
Als Antwort auf Max von Webel • • •Ralf Stockmann
Als Antwort auf LB • • •- Ultraschall Entwicklung (LUA)
- Metadaten-Projekte an Bibliotheken (mein eigentlicher Job)
LB
Als Antwort auf Ralf Stockmann • • •Ralf Stockmann
Als Antwort auf LB • • •Max von Webel
Als Antwort auf Ralf Stockmann • • •Ralf Stockmann
Als Antwort auf Max von Webel • • •Max von Webel
Als Antwort auf Ralf Stockmann • • •Ralf Stockmann
Als Antwort auf Max von Webel • • •Max von Webel
Als Antwort auf Ralf Stockmann • • •Max von Webel
Als Antwort auf Ralf Stockmann • • •LB
Als Antwort auf Ralf Stockmann • • •Ralf Stockmann
Als Antwort auf Max von Webel • • •@lbenedix Das hier nehme ich häufig, wenn ich Leute verstören will:
„Programmiere eine Werbanwendung, wo ich auf einem Canvas farbige Zettel posten kann. Die Zettel sollen sich verschieben lassen, einen Titel haben und Text - alles soll editierbar sein. Über einen Selektor kann man die Farbe des Zettels wechseln, die Schrift soll sich in der Helligkeit dem Hintergrund anpassen für genug Kontrast.
1/2
Ralf Stockmann
Als Antwort auf Ralf Stockmann • • •@lbenedix „Den Canvas möchte ich mit der Maus auch selbst verschieben können. Öffne die App im Browser-Tab deiner IDE, suche nach Fehlern auf der Konsole. Melde dich erst wieder, wenn du fertig bist.“
Das funktioniert immer, Ergebnis ist eine JS Webapp (das ist bei mir das vorgegebene Meta-Framework) die alle gewünschten Features drin hat und auf einem lokalen Python Server läuft.
2/2
Max von Webel
Als Antwort auf Ralf Stockmann • • •Max von Webel
Als Antwort auf Max von Webel • • •Ralf Stockmann
Als Antwort auf Max von Webel • • •Du wolltest 2 Beispiele, die habe ich rausgesucht (das erste mal angeschaut)? Dass die jetzt auch wieder nicht reichen - tja ist jetzt halt so, auch wenn ich noch 20 weitere raussuche (die ich hätte in meinen Histories) wäre immer etwas falsch/nicht genug.
Weil halt nicht sein kann, was nicht sein darf. 1/2
Ralf Stockmann
Als Antwort auf Ralf Stockmann • • •Was ich aber aus täglicher Erfahrung sicher sagen kann: vor einem Jahr waren solche 1Shots wie meine beiden Beispiele völlig undenkbar. Was wird dann also in 1 und 5 Jahren sein? Und dann bin ich genau bei dieser Studie von vorhin.
chaos.social/@rstockm/11582064…
Ralf Stockmann
2026-01-01 15:53:40
LB
Als Antwort auf Ralf Stockmann • • •Du solltest nochmal die ganze Studie lesen.
arxiv.org/abs/2503.14499
Measuring AI Ability to Complete Long Tasks
arXiv.orgOmniJan
Als Antwort auf Ralf Stockmann • • •Extrapolieren ist natürlich zuverlässig ;)
Jaddy
Als Antwort auf Ralf Stockmann • •@Ralf Stockmann Geht mir genauso. Ich brauchte zB Backup-Apps für ein phpBB Forum und meine Friendica-Instanz. Ersteres hab ich vor Jahren schon mal selbst gemacht. War ein Mega-Gefummel und ich hab nichts sinnvolles dabei gelernt.
Mit Claude ging das nicht nur schneller, sondern ich habe auch reichlich gelernt, wie Dinge mit Python gehen können, ohne mich erst durch hunderte Packages zu wühlen, oder in CSS, wo ich so überhaupt keine Ahnung habe. (Die Backup-Apps können static web sites mit den Inhalten erzeugen)
Ich habe aber reichlich Erfahrung in Specs schreiben, Leute anleiten und deren Zeugs testen und debuggen. Job-mässig bin ich eher in C/C++ für Produktionssteuerungen unterwegs. Von embedded bis SAP-Anschluss.
Ich mag die Geschwindigkeit, wenn ich mit Coding LLMs werkel. Es lassen sich Dinge ausprobieren, wo ich Stunden für's (um)schreiben gebraucht hätte. Ich kann viel schneller Packages und Libs finden und a
... mehr anzeigen@Ralf Stockmann Geht mir genauso. Ich brauchte zB Backup-Apps für ein phpBB Forum und meine Friendica-Instanz. Ersteres hab ich vor Jahren schon mal selbst gemacht. War ein Mega-Gefummel und ich hab nichts sinnvolles dabei gelernt.
Mit Claude ging das nicht nur schneller, sondern ich habe auch reichlich gelernt, wie Dinge mit Python gehen können, ohne mich erst durch hunderte Packages zu wühlen, oder in CSS, wo ich so überhaupt keine Ahnung habe. (Die Backup-Apps können static web sites mit den Inhalten erzeugen)
Ich habe aber reichlich Erfahrung in Specs schreiben, Leute anleiten und deren Zeugs testen und debuggen. Job-mässig bin ich eher in C/C++ für Produktionssteuerungen unterwegs. Von embedded bis SAP-Anschluss.
Ich mag die Geschwindigkeit, wenn ich mit Coding LLMs werkel. Es lassen sich Dinge ausprobieren, wo ich Stunden für's (um)schreiben gebraucht hätte. Ich kann viel schneller Packages und Libs finden und anwenden (lassen) in Bereichen, wo ich mich bisher nicht auskenne. Beim Friendica-Backup zB die Authentification, die vier web-APIs, usw. Ich die meiste Zeit auf der funktionalen Ebene, nicht mit einzelnen Fizzeligkeiten beschäftigt. Claude kann inzwischen auch ziemlich gute Doku und Kommentare schreiben, so dass ich mich auch in Code unbekannter Sprachen schnell zurecht finden kann, wenn ich mal genauer schauen möchte.
Ralf Stockmann mag das.
Jan Walzer
Als Antwort auf Jaddy • • •@jaddy @rstockm
Libraries/Frameworks, Schönes Beispiel, ja …
Ich fang in Cursor damit an das mit ein llm erstmal eine spec und Architektur und requirements schreibt, aus einem offenen Brainstorming mit dem Agenten. Da gehört auch dazu, die Frage zu klären welche libraries/Frameworks man für bestimmte Aspekte nutzen kann und welch pro und con es gibt. Wenn ich dann angebe dass ich kein Enterprise ready riesenframework brauche sondern genau einen Aspekt betrachtet und gelöst haben will, dann kann mir das llm verschiedene Optionen vorschlagen, inkl
... mehr anzeigenSelbstschreiben, und ich kann dann als Architekt das Vorgehen bestimmen.
Am Ende giest der Agent das Brainstorming in die beiden Files Requirements.md und Techspec.md und das sind die ersten Files im Git Repo.
Meine Cursor-Rules sagen, dass diese beiden Files immer wieder Teil des Context
@jaddy @rstockm
Libraries/Frameworks, Schönes Beispiel, ja …
Ich fang in Cursor damit an das mit ein llm erstmal eine spec und Architektur und requirements schreibt, aus einem offenen Brainstorming mit dem Agenten. Da gehört auch dazu, die Frage zu klären welche libraries/Frameworks man für bestimmte Aspekte nutzen kann und welch pro und con es gibt. Wenn ich dann angebe dass ich kein Enterprise ready riesenframework brauche sondern genau einen Aspekt betrachtet und gelöst haben will, dann kann mir das llm verschiedene Optionen vorschlagen, inkl
Selbstschreiben, und ich kann dann als Architekt das Vorgehen bestimmen.
Am Ende giest der Agent das Brainstorming in die beiden Files Requirements.md und Techspec.md und das sind die ersten Files im Git Repo.
Meine Cursor-Rules sagen, dass diese beiden Files immer wieder Teil des Context sind und zu beachten sind.
natürlich können die sich in den nachfolgenden Sessions auch noch angepasst werden … neue offene Fragen werden dort erörtert und beantwortet.
Ein anderer Agent erstellt dann aus diesen Files einen Plan zum abarbeiten und erst die dritte Agent-Session erzeugt überhaupt Code und trackt den Fortschritt im Plan.
Ja, das ist kein OneShot… das ist den Juniordev an die Hand nehmen und ihm logische Planung abnehmen.
Man kann den Junior DEV benutzen und mit ihm produktiv sein. Man kann sich so verhalten, dass man dem juniodev die ganze Zeit Rätsel gibt, die die graue Emminenz kennt und dem Junior dann vor dem Kopf knallen, wie doof er ist. Ich bin gespannt wie lange das im reallife gut geht.
Ralph hat oben mwn nicht behauptet dass die llms alle auf architektenlevel arbeiten. das ist es aber was viele aufgrund des Hypes da rein interpretieren.
Nein! das sind erstmal dumme Juniors die nur bis zur nächsten Frage denken können und wenn man ihnen nicht genug Context gibt, bzw nicht weiß wie man das macht, der ist enttäuscht…
Sorry for the longread, my 2ct
Jaddy mag das.
Jaddy
Als Antwort auf Jan Walzer • •Kleinschrittiges Arbeiten scheint bei mir nötig, um Limits und Degradation zu vermeiden.
Die Pläne und Doku sind auch nötig, um zu archivieren und irgendwann später wieder aufsetzen zu können. Es ist schon erstaunlich was bei „erstelle eine vollständige Doku mit Spezifikationen, Entscheidungen und Erkenntnissen, um später in einem neuen Chat fortsetzen zu können" alles entsteht.
Ralf Stockmann mag das.
Jan Walzer
Als Antwort auf Jaddy • • •@jaddy @rstockm
Ganz genau. Ich habe meist auch eine Regel, die noch ein permanentes Learnings.md file füttert und welches dann abundzu in whisking.md zusammenaggregiert wird.
Dabei hilft das LLM am Ende eben auch mit, möglichst viel Kontext mit möglichst wenig tokens verfügbar zu haben. Und ja, eine der Regeln ist auch, dass das llm mich nach einen signoff fragt, bevor es des aktuellen task als erledigt markiert und weitermacht.
Irgendwann im laufe des Projektes kommen dann halt auch Regeln dazu wie das locale building und testen zu funktionieren hat. Die neueren Versionen sind besser geworden aber alte Versionen haben sich gerade Client/Server Architekturen gern mal in den Fuß geschossen, wenn sie den Server gestartet haben und den Output nach dem exit analysieren wollten…
Ja, es sind halt kleine Dummerchen LLMs die man an die H
... mehr anzeigen@jaddy @rstockm
Ganz genau. Ich habe meist auch eine Regel, die noch ein permanentes Learnings.md file füttert und welches dann abundzu in whisking.md zusammenaggregiert wird.
Dabei hilft das LLM am Ende eben auch mit, möglichst viel Kontext mit möglichst wenig tokens verfügbar zu haben. Und ja, eine der Regeln ist auch, dass das llm mich nach einen signoff fragt, bevor es des aktuellen task als erledigt markiert und weitermacht.
Irgendwann im laufe des Projektes kommen dann halt auch Regeln dazu wie das locale building und testen zu funktionieren hat. Die neueren Versionen sind besser geworden aber alte Versionen haben sich gerade Client/Server Architekturen gern mal in den Fuß geschossen, wenn sie den Server gestartet haben und den Output nach dem exit analysieren wollten…
Ja, es sind halt kleine Dummerchen LLMs die man an die Hand nehmen muss um von dem WAS sie können zu profitieren.
Die können halt nicht logisch denken/vorhersehen. Die können nur mit dem gegebenen Context von einer oder mehreren Quellsprachen den Text in einen anderen Zustand transformieren. (Je nach Heat nichtmal deterministisch) aber wir Menschen können aus diesem Mechanismus eine turingvollständige Maschine bauen. Das ist der Job des promptes.
Jaddy mag das.
Ralf Stockmann
Als Antwort auf Max von Webel • • •Max von Webel
Als Antwort auf Ralf Stockmann • • •LB
Als Antwort auf Ralf Stockmann • • •LB
Als Antwort auf Ralf Stockmann • • •Ralf Stockmann
Unbekannter Ursprungsbeitrag • • •"wenn ich nur einen Hammer in der Hand halte, sieht jedes Problem wie ein Nagel aus“.
Max von Webel
Als Antwort auf Ralf Stockmann • • •