메이플스토리 인벤 자유게시판

전체보기

모바일 상단 메뉴

본문 페이지

[수다] 논문 내용 메모용 관심 x

아이콘 바보문어
댓글: 1 개
조회: 378
2025-09-29 05:27:37

대형 생성형 AI의 활용이 급격히 확산되면서, 서비스 전반에서 사용자 입력이 직접 모델 거동을 좌우하는 프롬프트 상호작용이 핵심 인터페이스로 자리 잡았다 [1]. 이에 따라 기업·공공 서비스는 콘텐츠 안전, 법규 준수, 보안 위험 관리 측면에서 악성·우회 프롬프트(jailbreak, prompt injection )에 대한 방어가 필수 과제로 부상하고 있다. 최근에는 출력 이후에 유해 여부를 판정하는 사후 모더레이션 방식과 모델 내부 가드레일을 강화하는 접근이 병행되어 왔으며, 공개 모더레이션 API나 규칙 기반 필터, 소형 분류기를 결합한 하이브리드 기법이 보고되었다 [2]. 그러나 이러한 방식은 우회 가능성, 높은 추론 비용과 지연, 도메인 이전성의 제약, 과잉 차단에 따른 사용자 경험 저하 등 운영상 한계를 드러내고 있다 [3]. 특히 코드·웹 생성과 같은 실사용 맥락에서는 XSS/피싱 유도, 자격정보 접근 시도, 브랜드 사칭 등 행위 특화 위협이 다층적으로 발생해 단일 분류기나 키워드 필터로는 대응이 어렵다.

본 연구는 이러한 공백을 해소하기 위해, 대형 모델 호출 이전 단계에서 입력을 선별하는 사전 추론 프롬프트 방화벽(Pre-Inference Prompt Firewall)을 제안한다. 제안 프레임워크는 경량의 전역 프롬프트 분류기와 위협 유형별로 증설 가능한 소형 LLM(micro-LLM) 모듈을 결합하고, 안전 라우팅 정책으로 동작하여 악성·우회 프롬프트를 사전에 탐지·차단·정제한다. 우리는 콘텐츠 안전(혐오·폭력·민감정보), 코드/웹 보안(XSS·피싱·토큰·쿠키 접근), 가드레일 우회(jailbreak·prompt injection)를 포괄하는 위협 모델을 정의하고, 익명화 로그·레드팀 프롬프트·템플릿 합성 데이터를 기반으로 한 평가 프로토콜을 설계한다 [4]. 이를 통해 차단 실패율(BTR)과 오차단율(FBR)을 동시에 낮추면서, 지연·비용 부담을 최소화하고 새 위협 카테고리 및 다국어·도메인으로의 모듈식 확장이 가능함을 보이는 것을 목표로 한다.

모바일 게시판 하단버튼

댓글

새로고침
새로고침

모바일 게시판 하단버튼

지금 뜨는 인벤

더보기+

모바일 게시판 리스트

모바일 게시판 하단버튼

글쓰기

모바일 게시판 페이징

최근 HOT한 콘텐츠

  • 메이플
  • 게임
  • IT
  • 유머
  • 연예
AD