fedi.matsuu.org

fedi.matsuu.org

matsuu . @matsuu,

SREのタスクを一番うまく処理できるLLMは2026年3月現在Gemini-3.1-proらしい。GitHubに具体的なタスクがあがってたが、Terraformを使った環境構築をプロンプトで指示して、想定通りに構築できるかを見てる模様。
---
SRE-skills-bench: Can Language Models Resolve SRE Tasks?
https://sreskillsbench.com/
#bookmarks

Open thread