读完Anthropic内部关于AI智能体评测的实践(Demystifying evals for AI agents)的几点想法 - 网闻录