Sådan overvåger vi interne kodende agenter for fejlligning

OpenAI bruger chain-of-thought-overvågning af interne kodende agenter for at opdage fejlligning. Ved at indsamle og analysere agenternes tænke-trin fra reelle udrulninger kan de identificere uhensigtsmæssige mål, fejlhandlinger eller sikkerhedsrisici. Resultaterne bruges til at forstå årsager til afvigelser, teste afbødende mekanismer og styrke sikkerhedsforanstaltninger inden bredere udrulning. Metoden kombinerer overvågning af beslutningsprocesser med empirisk risikovurdering for at forbedre pålidelighed og mindske potentielle skader.