黑板报

OpenAI开源Evals,其自动评估AI模型性能的框架,允许用户报告缺点并帮助指导改进(Kyle Wiggers/TechCrunch)

除了GPT-4之外,OpenAI还提供了一个开放式框架来评估公司AI模型的性能。