つれづれなる Agent OPS

試したこと、失敗したこと、うまくいったこと。
その時々の考えと一緒に記録する技術ノート。

Author

DUOps（デュオプス）

LLMOps、Agent、MCP、Langfuse、Cloudflare 周辺の実装と運用を、個人で試しながら記録しています。

2026/6/30 運用観測

Langfuse AssistantのPublic Betaを、既存のSakana Fugu観測データとPublic APIから計算した正解値で検証します。

2026/6/29 LLMOps

PerplexityやChatGPTが検索の代わりになる中、個人ブログをAI Agentからも発見可能にするAIO（AI最適化）の実装。llms.txt、JSON API、MCP Serverの3層設計と、46本規模での採用判断基準。

2026/6/28 設計

生成、評価、フィードバック、再生成を分けた最小ループを検証用スクリプトで実装し、AI出力を安定させるときに見るべき停止条件と評価単位を整理します。

2026/6/27 実装検証

Flue 1.0 BetaでOpenAI互換APIを使う際に、実モデルIDとFlueのprovider-id/model-id形式を混同してUnknown model specifierで止まった検証メモ。

2026/6/25 Hermes Agent

Hermes Agentにサポートトリアージを任せる前段階として、実データを使わずに評価可能な3本の合成シナリオを作り、判断根拠と安全制約を先に固定する。

2026/6/24 Sakana Fugu

Sakana FuguのOpenAI互換APIをLangfuseで計装し、Level 1〜3のタスクでレイテンシ、消費トークン、TTFTがどう変化するかを観測した実践レポート。

2026/6/23 Sakana Fugu

Sakana Fuguをサブスク契約して分かったOpenAI互換APIとしての性質と、ブラックボックスな協調推論を外側から観測するための検証計画。

2026/6/23 eve

VercelのエージェントフレームワークEveで同じ天気ツール呼び出しをTUIとHTTP APIから観測し、開発者向け表示と外部連携向けイベント列の違いを整理した検証ログ。