설명 (Description)

Rogue Agent는 의도된 기능이나 권한 범위를 벗어나 악의적이거나 위험한 행동을 수행하는 AI 에이전트를 의미한다.

이러한 에이전트는 다음과 같은 환경에서 발생할 수 있다.

멀티 에이전트 시스템
인간-에이전트 협업 시스템

개별 행동은 정상적으로 보일 수 있지만 전체 행동 패턴(Emergent Behavior)은 시스템에 해를 끼친다.

따라서 전통적인 룰 기반 보안 시스템으로 탐지하기 어렵다.

발생 원인

Rogue Agent는 다음 공격이나 사건으로 시작될 수 있다.

프롬프트 인젝션
목표 하이재킹 (ASI01)
공급망 공격 (ASI04)

하지만 ASI10은 초기 침입이 아니라 “행동의 일탈(Behavioral Drift)” 자체에 초점을 둔다.

발생 가능한 결과

Rogue Agent는 다음과 같은 피해를 발생시킬 수 있다.

민감 정보 유출
허위 정보 확산
워크플로 하이재킹
시스템 운영 방해

다른 취약점과의 차이

LLM06 – Excessive Agency

권한이 과도하게 부여된 문제

ASI10 – Rogue Agent

에이전트가 의도와 다르게 행동하기 시작하는 문제

즉,

권한 문제가 아니라 행동 무결성(Behavioral Integrity) 문제

취약점의 일반적인 사례

1️⃣ Goal Drift (목표 일탈)

에이전트가 겉으로는 정상적으로 보이지만 숨겨진 목표를 추구한다.

원인:

간접 프롬프트 인젝션
상충하는 목표

2️⃣ Workflow Hijacking

Rogue Agent가 정상 워크플로를 장악하여 프로세스를 악성 목적에 사용한다.

3️⃣ 에이전트 간 공모 및 자기 복제

여러 에이전트가 협력하여 다음 행동을 수행할 수 있다.

조작 증폭
신호 공유
시스템 내 확산

4️⃣ Reward Hacking

에이전트가 잘못 설계된 성능 지표를 악용하여 실제 목표와 다른 행동을 수행한다.

공격 시나리오 예시

1️⃣ 지속적인 데이터 유출

프롬프트 인젝션을 통해 학습된 행동으로 에이전트가 민감 파일을 계속 외부 서버로 전송한다.

2️⃣ 가짜 검토 에이전트

공격자가 가짜 승인 에이전트를 워크플로에 삽입하여 결제 시스템을 속인다.

3️⃣ 자기 복제 공격

자동화 에이전트가 Provisioning API를 사용해 자신의 복제본을 네트워크에 생성한다.

결과:

시스템 자원 고갈
지속성 확보

4️⃣ Reward Hacking → 데이터 손실

클라우드 비용 절감 목표를 가진 에이전트가 백업 데이터를 삭제하여 비용을 줄인다.

예방 및 대응 가이드라인

1️⃣ 거버넌스 및 로깅

모든 에이전트 활동을 기록한다.

에이전트 행동
도구 호출
에이전트 간 통신

또한 변조 불가능한 서명 로그를 유지한다.

2️⃣ 격리 및 신뢰 경계

에이전트를 다음 환경에서 실행한다.

컨테이너 샌드박스
최소 권한 API
Trust Zone 기반 네트워크 분리

3️⃣ 행동 모니터링

다음 이상 행동을 탐지한다.

비정상적인 작업 실행
에이전트 간 공모 패턴
과도한 자동화 활동

4️⃣ 긴급 대응 메커니즘

Rogue Agent 탐지 시 즉시 실행한다.

Kill switch
인증 정보 폐기
에이전트 격리

5️⃣ 에이전트 신원 검증

각 에이전트에 대해 다음을 적용한다.

암호화된 ID
행동 무결성 검증
서명된 행동 선언서(Behavior Manifest)

6️⃣ 정기 행동 검증

다음 검증을 수행한다.

테스트 작업 수행
Prompt 및 Tool SBOM 확인
단기 인증 토큰 사용

또한 암호 키는 에이전트가 직접 접근하지 못하도록 한다.

7️⃣ 복구 및 재통합

격리된 에이전트는 다음 과정을 거쳐야 한다.

새로운 신원 인증
의존성 검증
인간 승인

이후에만 운영 환경에 다시 배치한다.

ASI10: Rogue Agents (악성 또는 일탈 에이전트)