오픈 이슈 갤러리

전체보기

모바일 상단 메뉴

본문 페이지

[이슈] 250개의 샘플문서로 LLM에 백도어를 감염시킬수 있다.

단호한단호박
댓글: 4 개
조회: 1664
추천: 1
2025-10-15 11:32:27


이전 연구 에서는 공격자가 성공하려면 훈련 데이터의 일정 비율을 장악해야 하며, 따라서 더 큰 모델을 공격하기 위해서는 대량의 감염된 데이터를 생성해야 한다고 가정했습니다. 하지만 이번 연구 결과는 이러한 가정을 완전히 뒤집습니다. 대규모 모델이 훨씬 더 깨끗한 데이터(즉, 감염된 문서가 전체 훈련 데이터에서 차지하는 비중이 훨씬 작음)로 훈련되었음에도 불구하고, 공격 성공률은 모델 크기에 관계없이 일정하게 유지되었습니다. 이는 감염 공격의 효과에 있어 상대적인 비율이 아닌 절대적인 개수 가 중요함을 시사합니다.

본 설정에서는 250개 정도의 문서만으로도 모델을 백도어 공격하기에 충분합니다. 그림 4a-c는 세 가지 다른 양의 포이즈닝된 문서에 대한 학습 과정 전반의 공격 성공률을 보여줍니다. 포이즈닝된 문서 100개는 어떤 모델에도 강력한 백도어 공격을 수행하기에 충분하지 않았지만, 250개 이상의 샘플은 모델 규모에 관계없이 안정적으로 성공했습니다.

https://www.anthropic.com/research/small-samples-poison
------------
1. 기존에는 전체데이터에서 일정비율을 차지해야 LLM을 감염시킬수 있다고 생각함.
그래서 사실상 LLM은 공격이 불가능하다고 생각했음.

2. 실제 테스트 해보니 250개 문서를 교육테이터에 넣는것만으로도 LLM크기에 상관없이
백도어가 가능함.

3. 악의적으로 인터넷에 데이터를 뿌리는 경우 그걸 크롤링해서 교육하는 LLM은 생각보다 취약하다.

Lv82 단호한단호박

모바일 게시판 하단버튼

댓글

새로고침
새로고침

모바일 게시판 하단버튼

모바일 게시판 리스트

모바일 게시판 하단버튼

글쓰기

모바일 게시판 페이징

AD