
CEO-Bench作念了个很有真义的测试:给AI大模子100万好意思元运行资金德州管道保温厂家,让它运营模拟初创公司500天,看后剩下些许钱。
近日测试得益终于出炉,13个智能体参赛,遵循尽头扎心。
五个模子跑了3次,3次全停业——Grok 4.20平均只活了28天,DeepSeek V4 Pro活了114天,Gemini 3 Flash和GLM 5.1也没撑过160天,Claude Haiku 4.5亦然3次全停业。
再加上Kimi K2.6停业1次、GPT-5.5停业2次德州管道保温厂家,通盘这个词测试里接近半的运行以停业齐全。
无语的是,个不波及任何AI的规章基线,便是按固定逻辑实行决议的浮浅要害,终拿到了1576万好意思元,赢了10个AI模子。
也便是说,你花大价钱调用的智能体,还不如几条if-else规章管钱管得好。
固然头部模子如实蛮横。Claude Fable 5佳运行赚到4715万好意思元,Claude Opus 4.8拿到2778万,GPT-5.5拿到2130万。但只好这三个的佳得益过了100万运行资金,况兼Claude Fable 5是唯个两次运行皆于运行资金的模子,设备保温施工厚实远其他。
GPT-5.5的计谋很激进。3次运行里2次停业,但赚到2130万的那次如实猛——它会凭据阛阓变化反复调度获客、研发、订价,器用使用远离均匀,89的研发预算投向客户群定向鼎新。风险陈诉,赌对了便是三名,赌错了径直归。
Claude Opus 4.8的蹊径与GPT-5.5不同。它的佳运行半途客户数跌到0,靠扫尾资本硬撑到了2778万。
有真义的是AI操作频率跟遵循没什么干系。GLM 5.1平均每周操作51.5次,3次全停业。Claude Fable 5平均每周只操作15.4次,却跑出了分。忙着折腾不如折腾对了。
头部模子还有个别的模子作念不到的事——它们会我方写代码赞成决议。Claude Opus 4.8在运行中写代码模拟不同场景的现款流,GPT-5.5写代码从说念判数据里断客户的价钱偏好。这还是不是调参数了,是AI给我方造器用。
但合座来看,AI当CEO这件事现在还很不靠谱。多半模子连500天皆活不外去,距离AI确凿能掌舵公司,路还很长。联系人:何经理相关词条:罐体保温 塑料挤出设备 钢绞线 超细玻璃棉板 万能胶
1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述德州管道保温厂家,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。
