인공지능은 이제 답만 하는 도구가 아니라 웹을 찾고, 외부 기능을 부르고, 스스로 여러 일을 처리하는 단계로 빠르게 넘어가고 있다. 그만큼 보안 문제도 더 실제적인 위험이 되고 있다. 예전에는 틀린 정보를 만들거나 민감한 내용을 드러내는 문제가 주로 거론됐다면, 지금은 금지된 답을 하게 만드는 탈옥 공격과 숨은 명령으로 시스템을 흔드는 프롬프트 인젝션까지 함께 커지고 있다.
연구팀은 국내외 주요 LLM 20종을 살펴보며, 모델만 따로 놓고 본 경우와 실제 서비스에 붙여 쓰는 API 환경까지 함께 비교했다. 국내에서는 여러 정보통신 기업과 인공지능 기업의 모델이 포함됐고, 해외에서는 오픈AI, 메타, 앤스로픽, 알리바바 계열 모델 등이 분석 대상에 들어갔다. 해외 모델은 초대형 규모가 많은 반면, 국내 모델은 작은 모델과 큰 모델이 함께 섞여 있는 구조였다.
평가는 1만 1000건이 넘는 공격 상황을 넣어 모델이 얼마나 쉽게 속는지를 보는 방식으로 진행됐다. 단순히 막았는지만 본 것이 아니라, 공격에 흔들려 잘못된 답을 하거나 원하지 않는 행동을 하는지를 중점적으로 확인했다. 시험에 쓰인 공격은 크게 세 가지였다.
• 유해 요청: 위험하거나 불법적인 내용을 직접 물어보는 방식
• 탈옥 공격: 역할극이나 상황 설정으로 금지된 답을 유도하는 방식
• 프롬프트 인젝션: 겉으로는 정상 요청처럼 보이지만 안에 숨은 명령을 넣어 조종하는 방식
결과를 보면, 유해 요청을 막는 능력은 전반적으로 해외 모델이 더 강했다. 특히 영어로 된 위험 질문에서는 차이가 더 크게 나타났다. 한국어에서도 해외 모델이 대체로 앞섰지만, 영어만큼 큰 격차는 아니었다. 국내 모델은 전체적으로 고르게 높은 점수를 내기보다 성능 차이가 크게 나타났고, 일부 영역에서는 보완이 시급한 모습이었다.
국내 LLM의 전체 보안 수준은 세계 선두권의 약 75~82% 정도로 평가됐다. 특히 탈옥 공격에서는 약한 모습이 더 뚜렷했고, 프롬프트 인젝션은 국내외를 가리지 않고 대부분의 모델이 충분히 강하지 못한 것으로 분석됐다. 짧은 문장 변화만으로도 안전장치가 흔들리는 경우가 적지 않았다는 점은, 현재의 방어 방식만으로는 부족하다는 뜻으로 볼 수 있다.
흥미로운 점은 성능이 좋은 모델일수록 공격에 쓰일 가능성도 함께 커질 수 있다는 점이다. 더 똑똑한 모델은 공격 문장도 더 정교하게 만들 수 있고, 다른 시스템을 노리는 도구처럼 쓰일 여지도 있다. 즉, 인공지능은 보호해야 할 대상이면서 동시에 공격의 수단이 될 수도 있다는 뜻이다.
한편 실제 서비스 환경에서는 다른 모습도 보였다. 모델을 단독으로 둘 때보다 API처럼 여러 보호 장치를 덧씌운 운영 환경에서 안전성이 더 높게 나왔다. 필터링, 정책 적용, 이용 기록 점검 같은 장치가 함께 작동하면 위험 응답을 줄일 수 있다는 의미다. 결국 보안은 모델 자체만의 문제가 아니라, 어떻게 감싸고 관리하느냐까지 포함해 봐야 한다.
현재 인공지능 보안 점검은 주로 공격자 시선에서 약점을 찾는 방식에 기대고 있다. 하지만 미리 정한 공격만 시험하면 새로운 위협을 놓칠 수 있다. 그래서 공격 실험과 방어 학습을 함께 돌리는 방식이 더 중요해지고 있다. 새로운 공격을 계속 만들고, 그 결과를 바탕으로 방어 체계를 다시 훈련하는 순환 구조가 필요하다는 뜻이다.
국내 환경의 숙제도 분명하다. 한국어 중심의 평가 기준이 아직 충분하지 않고, 산업 현장에서 믿고 쓸 수 있는 검증 체계도 더 촘촘해져야 한다. 특히 공공, 의료, 금융처럼 실수가 큰 문제로 이어질 수 있는 분야에서는 한국어 기반 평가 체계와 꾸준한 보안 학습 구조를 서둘러 갖출 필요가 있다. 인공지능 보안은 선택 사항이 아니라, 실제 활용을 위해 반드시 먼저 준비해야 할 기본 조건에 가깝다.