Als Antwort auf Max von Webel

@rstockm Abgesehen davon, dass ich so eine „aber dieses 0.0.1 Update ändert alles“ Argumentstion sehr dünn finde. ChatGPT 5.2 ist kaum mehr als ein marketing Update über 5.0, es ändert nichts daran wie diese Modelle funktionieren und ändern somit auch nichts an der fundamentalen Kritik selbst wenn die neue Version bei dem konkreten Beispiel vielleicht marginal besser abschneidet.
Als Antwort auf Max von Webel

Na ja, es ist aber halt andersrum: dieses „Beispiel" funktioniert bei exakt KEINEM der aktuellen Flagship-Modelle. Getestet: Mistral (lokal!), Gemini 3 Pro, ChatGPT 5.2, Claude Sonnet 4.5.
Keines fällt darauf rein, die Antwort von Gemini mal als hübsches Beispiel.
Und so läuft das seit 2 Jahren:

10 „haha, schaut was die GPTs alles nicht können"
20 ich setze mich 1 Minute dran und exakt das funktioniert in allen neuen Modellen
30 goto 10

🤷🏻‍♂️

Als Antwort auf Ralf Stockmann

Und es gibt gute Gründe, viel auf Altman einzuprügeln, aber sein Argument finde ich so unschlüsig nicht, ich spitze mal zu:
"hätten wir vor 5 Jahren einer Definition von AGI zugestimmt: der Computer darf nicht _mehr_ Fehler machen bei Wissen, Kommunikation und Strategie als ein(e) durschnittliche Erdenbürger:in mit IQ von genau 100“.
Ich zumindest hätte da wohlwollend genickt. Das Problem ist, dass AGI ständig mit ASI verwechselt wird. AGI muss perfekt sein, Menschen aber nicht?
Als Antwort auf Max von Webel

Ich würde sagen das ist falsch aus drei Gründen:
a) LLMs lernen derzeit stündlich, nur aufgrund der einzusetzenden Ressourcen zentralisiert (neue Versionen). Ich halte es für realistisch, dass wir in 5 bis max. 10 Jahren lokal eigene LLMs trainieren (anlernen) können.
b) LORAs sind schon jetzt de fakto „Anlernenungen“ von LLM (innerhalb bestimmter Grenzen, ja)
c) wenn das Kontext-Fenster nur groß genug ist/wird (siehe Ressourcen) kann ein „Lernchat" problemlos mitlaufen
Als Antwort auf Max von Webel

c) aber das Kontext-Fenster ist halt nach wie vor winzig wie jeder der schon mal eine Claude Code Session zu lange hat laufen lassen leicht bestätigen kann und da es meines Wissens nichts fundamental neues zu Context Window Größen gibt bezweifle ich auch, dass sich daran was nennenswert ändern wird. Abgesehen davon, dass mehr Informationen im “Kurzzeitgedächtnis” halten nicht lernen ist. (2/2)
Als Antwort auf Ralf Stockmann

@rstockm ich fürchte, dass wir da sowohl an semantische als auch ein menschliche Probleme stoßen: jeder lädt die Begriffe Intelligenz und lernen mit dem auf, was er sich gerade darunter vorstellt.

Und dadurch diskutiert jeder in seiner eigenen Welt. Ihr habt ja beide nachvollziehbare Punkte, wenn man sie nur aus eurer Perspektive heraus betrachtet.
1/2

Als Antwort auf Ralf Stockmann

@rstockm Aber ich habe dir doch eben einen Screenshot geschickt wie das aktuelle ChatGPT genau darauf reinfällt.

Für mich ist es exakt andersrum wie du beschreibst. Seit Jahren:

10 du und andere AI believer: “ja, noch vor ein paar Wochen war das Modell noch strunzdumm, aber heute können sie exakt dieses eine Beispiel lösen, darum sind sie perfekt”
20 jemand findet ein neues Beispiel wie ein "Flagship-Model" haarstäubend dumme weise auf die Fresse fällt… (1/2)

Als Antwort auf Max von Webel

Ich rede nicht von ChatGPT sondern generell von den rechts unten Modellen, auch der anderen Hersteller. Bei deinen Screenshot kann ich nicht sehen, welches das ist. Das mit Abstand beste Besispiel das du bisher hattest war das Zahlenraten-Spiel, weil es so hübsch die Schwäche von LLM (will alles könne) mit den Limitierungen (unfähig, eigene Grenzen zu erkennen) exploited hat. 1/2
Als Antwort auf Ralf Stockmann

Aber auch dort habe ich in 20 Minuten einen Weg gefunden (dank KI) um dieses Spiel auf beliebigen LLMs zu 100% perfect „ready to ship“ laufen zu lassen.
Und darum geht es mir: mir gehen wirklich die Szenarien aus, wo LLMs mit etwas Tuning, RAG Modellen etc. _nicht_ zu "ready to ship" zu bringen sind. Da ist mir dann AGI ziemlich egal.
Gemini 3 Pro kann meine Handschrift lesen, und zwar perfekt. das schaffen 99% der Menschen um mich herum nicht - was für eine Basis für Automatisierung!
Als Antwort auf Ralf Stockmann

@rstockm Exakt. Du lässt die AI ein anderes Problem lösen als das was ich ihr gegeben hatte. Was ist damit bewiesen außer das es andere Probleme möglicherweise lösen kann. (Ich bezweifle übrigens nach wie vor, dass dein Beispiel besser funktioniert als meins, du hast es einfach nur viel komplexer gemacht, was es mühseliger macht die Schwächen zu finden. Abgesehen davon, dass es ein komplett anderer Prompt ist)
Als Antwort auf Max von Webel

Ich glaube in der Sache sind wir gar nicht weit auseinander, wir haben nur sehr unterschiedliche Perspektiven auf die Grundfrage. These:
1)
Ralf: zentral ist, dass ein Problem verlässlich mit LLM gelöst werden kann. Egal wie der Weg ist.
Max: zentral ist: dass auch der komplette Weg vom LLM perfekt gegangen wird ohne Begleitung
2)
Ralf: nutzt ausschließlich die besten für Geld verfügbaren Modelle, ignoriert den Rest
Max: nutzt was gerade da ist, auch die freien Versionen
Als Antwort auf Ralf Stockmann

@rstockm
„ verlässlich“ ist ein gefährlicher Begriff. Verlässlich ist bei der Technologie nämlich sehr wenig.

Häufig kommt etwas raus, dass dement spricht, was man sich erhoffen würde, aber eben nicht immer und nicht vorhersehbar. Und genau das ist das Problem, weil das falsche genauso korrekt aussieht, wie das richtige.

Das macht diese Technologie so schwer einsetzbar

Als Antwort auf Ralf Stockmann

@rstockm es funktioniert aber ausschließlich in Kontexten, die man selber absolut beherrscht und bei denen man erkennt, wo das System bricht.

Ich benutze es selbst regelmäßig in meinem Arbeitsumfeld. Und aus gutem Grund nutze ich es ausschließlich dann, wenn ich es selber schon weiß und nur etwas Zeit sparen möchte.

Es wird dann gefährlich, wenn irgendjemand, der den Kontext nicht ohnehin schon zu 100 % beherrscht denkt, dass es schon richtig sein wird

Als Antwort auf Max von Webel

Frisch auf der Arbeit getestet: die Überführung eines 3 x 2 Meter Whiteboards, gefüllt mit etwa 100 Post-IT Zetteln geschrieben von 8 verschiedenen Personen.
Ein normales iPhone-Bild davon überführt die LLM in eine Markdown-Datei und clustert dann noch sinnvoll. Ich hätte das bis vor 1 Monat für technisch völlig unmöglich gehalten, Gemini 3 Pro macht das tiefenentspannt. Das ist ein totaler Game-Changer für unsere Strategiearbeit.
Rückwärts geht auch: Whiteboard aus 5-Seiten PDF
Als Antwort auf Ralf Stockmann

@rstockm Wer hat wann gesagt das AI keine Schrifterkennung kann? Nach meinem Wissen ist die Erkennnung von Handschrift eines der ersten Probleme überhaupt das sehr erfolgreich mit AI gelöst wurde. Ich habe mal so 2017 ein AI Tutorial gemacht, das ging um die Erkenunng von ZIP Code und eine AI auf einem Laptop auf eine 99,99% Treffsicherheit bei der Erkennung von ZIP Codes zu trainieren war schon damals ein simples Anfängerproblem.
Als Antwort auf Max von Webel

@rstockm Und: was soll ich mit diesem Bild? Ich weiß nicht was auf den Post Its stand. Ich weiß nicht, welche Themen ihr da wirklich aufgeschrieben habt. Ich kann nicht prüfen, welche Themen die AI vergessen hat. Ich kann nicht prüfen, was sie dazu erfunden hat. Ich sehe eine Tafel im typischen AI generierten 0815 Look mit für mich sehr generischen Inhalten.

Was mir auffällt: Befähigung schreibt man mit “ä" und nicht mit einem a mit Häkchen drüber.

Als Antwort auf Max von Webel

Max, es sind 2 verschiedene use-Cases die ich beschrieben habe.

1) Nachbereitung eines typischen Strategie-Workshops - Entwicklung eines Strategiepapers aus einem Brainstorming-Termin. Machen wir täglich.
2) Visualisierung einer Strategie, die bisher nur als Text vorliegt.

Beides für uns von extremen Wert, und es ist ok wenn so was in _deiner_ Welt keine Rolle spielt aber: für weite Teile des mittleren Managements weltweit ist das ein Gamechanger.

Als Antwort auf Max von Webel

Du musst ja auch gar nicht „glauben“ sondern ich sage halt „wirf mal rüber, dann sehen wir was Stand der Technik ist“.
Ich bin doch der, der durch die Gehend läuft und sagt „wie kostenlosen Modelle sind Mist und nicht geeignet, die Grenzen von LLMs zu diskutieren“.
Für eigene Experimente empfehle ich immer openrouter.ai da braucht es keine 200 sondern vielleicht 5€ im Monat und man weiß was Phase ist.
Als Antwort auf LB

@lbenedix Alles hier aus den letzten 2 Jahren dazu zwei nicht öffentliche die noch komplexer sind:

github.com/rstockm?tab=reposit…

Es kommt halt auch darauf an ob man die LLMs beim Coden als Gegner sieht den man aufs Kreuz legen möchte oder als endlos geduldig motivierten Junior DEV den man ins eigene Projekt einarbeitet.

@LB
Als Antwort auf Max von Webel

@rstockm Bei der Beurteilung, ob ein LLM gute Arbeit macht, spielen viele psychologische Verzerrungen mit. Es fängt schon damit an, dass man selbst etwas tut, also einen Prompt formuliert und dann passiert etwas. Das ist natürlich toll.

Aber ja, es gibt glaub ich kein erfolgreiches Open Source Projekt, bei dem der überwiegende Anteil der Contributions von LLMs kommt. Oder?

Als Antwort auf LB

@lbenedix Schön, dass ihr euch einig seid, dass meine Apps alle unterkomplex sind. Was ich sagen kann:
1) ich habe keine Zeile davon selbst geschrieben
2) keines der Projekte hätte ich angefangen ohne LLMs (ich kann kein JavaScript)
3) die Oneshot Quote ist mit den Monaten kontinuierlich gestiegen, bei Testabend fast alles bis auf mobil CSS
4) Einigen der Tools würde ich doch gesellschaftlichen Nutzen zuschreiben wie Mastowall, Mastotags oder Fedipol.
@LB
Als Antwort auf Max von Webel

@rstockm @lbenedix Aber bei komplexen Projekten arbeitet man doch nicht mit dem EINEN prompt. Man führt eine Unterhaltung mit dem LLM, beschreibt seine Ideen, das LLM fragt nach, schreibt die Specs auf , macht Designvorschlaege etc. und am Ende schreibt es auch noch den Code. Das ist durchaus ein iterativer Prozess. Das funktioniert nach meiner Erfahrung ziemlich gut. In diesem Prozess muss das LLM aber nichts Neues lernen. Nur vorhandenes "Wissen" über Software richtig anwenden. Und das können die Dinger ziemlich gut.
Als Antwort auf Uckermark MacGyver

@maxheadroom @lbenedix Ich habe mal etwas gekramt in der Historie des „Testabend" Projektes, das hier wäre ein Beispiel:

„Ok ich möchte einen neuen Featurebereich starten, und zwar einen integrierten LLM Chatbot. Erstelle dazu zunächst im Header einen neuen Eintrag "Testteam" und eine Seite, auf der eine gängige Chat-GUI zu sehen ist. Im nächsten Schritt binden wir meine OpenRouter Instanz an.“
1/2

Als Antwort auf Ralf Stockmann

@maxheadroom @lbenedix Das ist der Code:

github.com/rstockm/testabend/b…

Da habe ich dann später das RAG Modell des Projektes angebunden sowie einen umfangreichen Meta-Prompt, destilliert aus der KI-Analyse eines 1h Audio Interviews mit einem Prof.

Als Antwort auf Uckermark MacGyver

@maxheadroom @rstockm @lbenedix Ja, so nutze ich coding Assistants. So wie ich diese Tools nutze haue ich einen Prompt rein, schaue mir ein paar Sekunden oder Minuten später das Ergebnis an, werfe es weg, fixe es oder akzeptiere es.

Aber in diesem Strang ging es ja genau darum wie Ralf verlässlich Probleme von einer AI lösen lässt, also sie Code schreibt, Tests schreibt, Bugs fixt etc ohne das man ihr dabei ständig die Hand halten und neue Anweisungen geben muss.

Als Antwort auf Max von Webel

@rstockm @lbenedix Ich denke das würde gehen, wenn Du Spezifikationen im vornherein genau weißt und dem LLM sehr präzise Anweisungen gibst und es dann machen lässt. Ggf. braucht es Agenten die sich gegenseitig überwachen.

Aber genau das gleiche Problem hast du ja mit menschlichen Entwicklern auch. Am Anfang steht erstmal eine Produktidee und die musst entwickeln. Die wirfst du ja dem Entwickler auch nicht einfach hin und nach ein paar Stunden oder Tagen kommt es genau so raus wie du es dir vorgestellt hast.

Als Antwort auf Uckermark MacGyver

@maxheadroom @rstockm @lbenedix Nach meiner Erfahrung geht das nicht wirklich, weil die LLM sich dann meistens irgendwann auf die Fresse packt oder der Kontext vollläuft und sie anfängt Amok zu laufen.

Außerdem klingt das für mich extrem nach Wasserfall.

Mit den menschlichen Entwicklern könnte man schnell iterieren, vielleicht sogar den eigenen Stolz überwinden und selbst ein wenig programmieren lernen auch wenn das natürlich eigentlich unter dem Niveau eines Managers ist.

Als Antwort auf Max von Webel

@rstockm @lbenedix ja, das ist "Wasserfall". Aber egal wie du es nennst, die Dinger sind dabei einfach zig mal schneller beim Schreiben von Code, beim lesen langer Fehlermeldungen, beim recherchieren in Dokumentation etc. Und das ist ein sehr großer Vorteil.

Es entsteht einfach viel Software die es so nicht geben würde weil jemand mit zu wenig skills oder Geduld/Zeit sich nicht an seine Idee rangetraut hat. Mit einem Coding Assistant kann so jemand solche Ideen komplett umsetzen.

Was glaube ich auch nicht zu verachten ist, ist die "Attitude" des LLM. Das ist immer nett und will dir helfen. Egal wie dumm du dich anstellst. Stellst Du menschlichen Enticklern eine Frage die dich als Anfänger outed bekommst du mit hoher Wahrscheinlichkeit eine anfällige oder sehr oberlehrerhafte Antwort. Das motiviert nicht immer dran zu bleiben.

Als Antwort auf Uckermark MacGyver

@maxheadroom @rstockm @lbenedix Ich habe nicht bestritten das LLMs ihren Wert haben können. Wir reden hier aber von Autonom, Zuverlässig Qualitativ hochwertige Software auf dem Niveau eines junior Devs. Davon sind LLMs meiner Meinung nach weit entfernt. Ralf ist sehr Stolz darauf keine Ahnung von JS zu haben und ich finde das sieht man den Projekten auch an. Schon die Readme’s sind ausufernder AI Slop mit offensichtlichen Fehlern und Text nur um Text zu haben. (1/4)
Als Antwort auf Max von Webel

Der Code ist nicht wartbar, dain jemals einen Bug zu finden dürfte erstmal massives Refactoring voraussetzen. Was ist der Wert von solchem Code über den reinen Gebrauchswert hinaus? Wie soll sowas weiterentwickelt werden, wie soll das gewartet werden? Und wäre es jetzt so ein massiver sozialer Abstieg ein ganz klein wenig Coden zu lernen um das wenigstens wartbar zu machen? (2/4)
Als Antwort auf Max von Webel

Was ist der Wert all dieser zusätzlichen Software? Ich habe mit LLMs eine Katzenfutter Tracking App gebaut. Das hätte man auch in Excel oder AirTable zusammenklicken können, ganz ohne sich böse Codingskills aneignen zu müssen. Software an sich hat ja keinen Wert, im Gegenteil sie verursacht in erster Linie Kosten, darum probieren wir ja alle wie so wenig davon zu produzieren wie es geht. Das ist doch so als würde man ImageGen damit vertreidigen, dass es mehr Bilder produziert. (3/4)
Als Antwort auf Max von Webel

Wir brauchen aber nicht mehr Bilder. Wir brauchen auch nicht mehr Software. Wir brauchen bessere Software die Menschen ermöglicht produktiver zu sein, die einfach wartbar ist, keine hohen Folgekosten hat, zuverlässig ist. Sich von einer LLM irgendeine App zusammenschrauben lassen ist da doch nicht nur keine Verbesserung sondern sogar eine Verschlechterung. (4/4)
Als Antwort auf Max von Webel

Und ich sehe nicht, dass mich LLMs massiv produktiver machen. Sehe ich nicht. Wenn dann vielleicht 10%. Wenn man noch mal in Betracht zieht wie wenig seiner Zeit Entwickler mit programmieren verbringen, dann ist das kaum mehr als ein Rundungsfehler. Im besten Fall.

Aber hey, wir können jetzt endlich simpelste Greenfield Tools von einer LLM bauen lassen und können weiterhin überall rumerzählen, dass wir dafür nicht mal die Sprache lernen mussten wie so ein Loser.

Als Antwort auf Max von Webel

Puh, ich weiß gar nicht wo ich hier anfangen soll, und es dreht sich im Kreis. Mal ein anschließender Gedanke von meiner Seite: „wir brauchen nicht mehr Software". Das sagten die Mönche im Mittelalter auch, als der Buchdruck erfunden wurde: „Die Menschen brauchen nicht mehr Bücher, die Bibel reicht. Schon gar keine selbst gesetzten, da geht jede Handwerkskunst verloren wenn wir die Bücher nicht monatelang selber zeichnen. Sollen die Leute halt Latein lernen.“
1/2
Als Antwort auf Ralf Stockmann

Coding LLMs werden die Druckpressen für Software werden, oder genauer der Laserdrucker der zu Hause steht und manigfaltige Probleme löst. App Entwicklung wird allgemeingut wie das Drucken einer Seite. Und ihr könnt euch beschweren dass Comic Sans eine uncoole Schrift ist, und all die Rechtschreibfehler, und das Design - aber die Entwicklung ist nicht aufzuhalten. Und es ist nicht an euch zu sagen „dein A4 Ausdruck ist doch Quatsch, braucht niemand“.
Checkt mal eure Privilegien.
Als Antwort auf Ralf Stockmann

@rstockm Der Unterschied ist: Ein Buch von vor 500 Jahren kann heute noch gelesen werden und hat Mehrwert, Software von heute wird ohne Wartung schon in 10 Jahren unbrauchbar sein. Deswegen ist mehr Software auch ein Mehr an Aufwand. Technical Debt usw.
Hab die Diskussion genau deswegen so interessiert verfolgt, weil ich Ralf einerseits zustimme, dass Prototyping mit LLM enorm vereinfacht wird, ich beruflich aber ganz andere Probleme zu lösen habe, die - wie Max imho korrekt anmerkt 1/2
Als Antwort auf Ralf Stockmann

@rstockm
@lbenedix Drucker werden immer eine Nische sein, und selbst die die einen haben werden ihn zum allergrößten Teil nur nutzen um irgendwelche fertigen Dokumente auszudrucken. 3D Drucker werden immer eine Nische sein. Heimwerken wird immer eine Nische sein. Softwareentwicklung wird immer eine Nische sein, weil sie schon sehr lange alles hat was es braucht um die Masse zu erreichen so wie so ziemlich jede andere kreative Kulturtechnik auch.
Als Antwort auf Max von Webel

@maxheadroom @rstockm

Ein weiterer Blick zeigt, was mir bei AI generierten Code immer wieder auffällt: die Abhängigkeiten sind extrem veraltet.

In dem Fall der Mastowall wird eine 6 Jahre alte Version eines CSS Framework verwendet.
Bei den anderen Abhängigkeiten sieht es nicht viel besser aus...

github.com/twbs/bootstrap/rele…

Als Antwort auf LB

@lbenedix @maxheadroom die alte Bootstrap Version war damals eine Vorgabe von mir. Das war noch copy&paste Vibecoding lange bevor es den Begriff gab, siehe:

pad.wolkenbar.de/mastowall

Ich habe das dann nicht mehr aktualisiert (finde es bei bootstrap aber auch unkritisch). Was der Chat-Auszug von dir aber gut Zeigt: CSS ist (noch) eine große Scxhwäche von LLMs, ich habe das mal in diesen Chart gegossen:
1/2

Als Antwort auf Ralf Stockmann

die App „Testabend" war in den Grundfunktionen nach 2,5h fertig, das war spektakulär in Bezug auf was da alles verbaut ist. Dann kamen aber 2 Wochen (!) tuning, um sie auch vernünftig auf iOS und Android Smartphones mit kleinem Screen bedienbar zu bekommen. Das Ergebnis ist cool, aber der Weg mar maximal steinig. Es musste aber zu einem Termin im Dezember fertig werden, und ich wollte keine 10k € drauf werfen (das wäre so der geschätzte Gegenwert)
2/2
Dieser Beitrag wurde bearbeitet. (1 Woche her)
Als Antwort auf LB

@lbenedix @rstockm Ja, das stimmt alles. Und die Dinger machen auf doofe Fehler. Aber berichtigen sie dann auch einigermaßen. Sicher ist die Code Qualität nicht optimal. Aber es funktioniert. Und für die überwiegende Mehrheit der Projekte duerfte das ausreichen. Man überlege nur mit welcher Qualität sich Millionen Unternehmen bzgl. Microsoft Software "zufrieden " geben.

Ich vergleiche diese Coding LLMs gerne mit elektrischen Werkzeugen eines Handwerkers. Es erlaubt einem Profi die Arbeit viel viel schneller zu erledigen. Und auch ein Anfänger bekommt damit bestimmte Sachen hin, die er ohne gar nicht schaffen würde.

Als Antwort auf Uckermark MacGyver

@maxheadroom @lbenedix @rstockm Da gehe ich überhaupt nicht mit. Microsofts Softwarequalität hängt null damit zusammen ob sie gute Entwickler finden können. Das liegt an Prioritäten, Firmentielen, Organisationsproblemen, also Bereichen die weit oberhalb der Entwicklung sind und in denen niemand auch nur drüber nachdenkt LLMs einzusetzen. (1/3)
Dieser Beitrag wurde bearbeitet. (1 Woche her)
Als Antwort auf Max von Webel

Wenn man mit LLMs Software baut, dann muss man die ganzen schweren Teile ja immer noch machen: Anforderungen, Architektur, Implementierung, Sicherheit, Deployment, Wartung… Da zu sagen, dass das am eigentlichen Coding scheitert ist wie zu sagen, dass man das man ein Hochhaus geplant, berechnet und genehmigt bekommen hat aber es nicht bauen kann, weil man leider keinen Hammer halten kann. (2/3)
Als Antwort auf LB

@lbenedix Wenn ich so drüber nachdenke: es ist schon irre wie lang jetzt schon die Idee nicht aussterben will das wenn man einfach nur den Entwicklern feste genug auf die Füße tritt Softwareentwicklung sich ja von alleine löst. Schon vor 15 Jahren habe ich von Firmen gehört, die für ihr egalo-Startup nur die besten 0,5% der Entwickler einstellen, weil die unteren 99,5% einfach nicht gut genug sind um zum 20. mal die Farbe für den Submit Button anzupassen. (1/2)
@LB
Als Antwort auf Ralf Stockmann

@rstockm @lbenedix Ein sehr simples Problem, relativ einfach zu erklären, vermutlich einfach zu implementieren. Und dennoch bereits seit langer Zeit ein Beispiel für eine Sache von der die LLM selbstbewusst behauptet sie zu können und es dann nicht kann. So wie Zehntausende andere Dinge auch. Und wenn die LLMs das können, dann werde ich mir eben ein neues Beispiel suchen das vermutlich nicht viel komplexer wird.
Als Antwort auf Max von Webel

@lbenedix Das hier nehme ich häufig, wenn ich Leute verstören will:

„Programmiere eine Werbanwendung, wo ich auf einem Canvas farbige Zettel posten kann. Die Zettel sollen sich verschieben lassen, einen Titel haben und Text - alles soll editierbar sein. Über einen Selektor kann man die Farbe des Zettels wechseln, die Schrift soll sich in der Helligkeit dem Hintergrund anpassen für genug Kontrast.
1/2

@LB
Als Antwort auf Ralf Stockmann

@lbenedix „Den Canvas möchte ich mit der Maus auch selbst verschieben können. Öffne die App im Browser-Tab deiner IDE, suche nach Fehlern auf der Konsole. Melde dich erst wieder, wenn du fertig bist.“

Das funktioniert immer, Ergebnis ist eine JS Webapp (das ist bei mir das vorgegebene Meta-Framework) die alle gewünschten Features drin hat und auf einem lokalen Python Server läuft.
2/2

@LB
Als Antwort auf Ralf Stockmann

@rstockm @lbenedix Ich habe das jetzt in Cursor ausgegeben, weil ich mal vermute, dass das die IDE ist die du meinst. Es startet einen Server der dann Seite ausliefert in der man Notizen hin und her ziehen kann. Die Schriftfarbe wird nur angepasst wenn man die Farbe ändert, nicht wenn man eine neue Notiz anlegt, das Canvas hat einen unsichtbaren Rahmen über den man Notizen nicht hinausziehen kann, der Code ist eher abenteuerlich. (1/2)
Als Antwort auf Max von Webel

weclhes Modell hast du in Cursor genommen? Composer 1 (von Cursor selbst) ist darauf trainiert die Tools der IDE selbst zu nutzen, da klappt das mit internem Browser/Console etc. gut.
Du wolltest 2 Beispiele, die habe ich rausgesucht (das erste mal angeschaut)? Dass die jetzt auch wieder nicht reichen - tja ist jetzt halt so, auch wenn ich noch 20 weitere raussuche (die ich hätte in meinen Histories) wäre immer etwas falsch/nicht genug.
Weil halt nicht sein kann, was nicht sein darf. 1/2
Als Antwort auf Ralf Stockmann

Was ich aber aus täglicher Erfahrung sicher sagen kann: vor einem Jahr waren solche 1Shots wie meine beiden Beispiele völlig undenkbar. Was wird dann also in 1 und 5 Jahren sein? Und dann bin ich genau bei dieser Studie von vorhin.

chaos.social/@rstockm/11582064…


@lbenedix Sehr schöne Seite, danke dafür. Direkt eine Studie darüber aber so:
Als Antwort auf Ralf Stockmann

Du solltest nochmal die ganze Studie lesen.

arxiv.org/abs/2503.14499

Dieser Beitrag wurde bearbeitet. (1 Woche her)
Als Antwort auf Ralf Stockmann

Als Antwort auf Jaddy

Als Antwort auf Jan Walzer

@Jan Walzer @Ralf Stockmann Genau so arbeite ich auch. Bei größeren Projekten auch mit Projektplan und Meilensteinen, die ich den Agent erstellen und pflegen lasse, die ich aber prüfe und abändere, bevor ich das Go gebe.
Kleinschrittiges Arbeiten scheint bei mir nötig, um Limits und Degradation zu vermeiden.
Die Pläne und Doku sind auch nötig, um zu archivieren und irgendwann später wieder aufsetzen zu können. Es ist schon erstaunlich was bei „erstelle eine vollständige Doku mit Spezifikationen, Entscheidungen und Erkenntnissen, um später in einem neuen Chat fortsetzen zu können" alles entsteht.
Als Antwort auf Jaddy

Als Antwort auf Ralf Stockmann

@rstockm @crash_override @lbenedix Aber du hast doch vorhin geschrieben, das LLMs zuverlässig sind. Wenn sie zuverlässig sind, warum muss man dann überhaupt solche Umwege gehen? Zuverlässig heißt doch, dass ich mich darauf verlassen kann, dass das Tool schon das richtige tut. Wenn diese LLMs wie du sagst schon auf junior Dev Niveau sind, dann muss sie doch wissen, dass Daten 1:1 zu übertragen nicht ihre Stärke ist und das man dafür besser ein Tool schreiben sollte. (1/2)