재미있는 보안 이야기

[김진형 교수님의 AI 이야기] AI가 생각하는 과정을 이해하기 위한 노력


최근 인공지능(AI)이 가져온 변화는 우리 삶의 거의 모든 영역을 혁신하고 있다. 대형 언어모델은 다양한 영역에서 전문가 수준의 지식을 갖고 있는 듯 대화를 이끈다. 스스로 계획을 세워서 과학적 발견을 하기도 하며, 창의적 예술 작품을 만들어 내기도 한다. 인간이 기계와 상호작용을 하는 방식이 근본적으로 바뀌고 있다.

하지만 우리는 AI가 왜 어떤 결정을 내렸고, 어떻게 그 과정이 이루어졌는지를 완전히 이해하지 못하고 있다. 더구나 AI 시스템이 편향되거나, 거짓 정보를 제공하는 사례를 종종 접한다. 우리가 접하는 AI 시스템이 유해하거나, 위험한 반응을 보이지 않을 것이라고 어떻게 확신할 수 있을까? 이러한 설명 불가능성은 의료, 국방과 같은 민감한 분야에 AI를 적용할 때 위험 요소로 작용한다. 따라서 AI는 거대한 잠재력에도 불구하고 그 활용에 있어 윤리적 문제와 안전성에 대한 우려와 같은 많은 제한이 있다. 

50년 전의 AI 방법론인 지식기반 시스템은 설명 가능성을 강조하기 위하여 IF-THEN의 규칙으로 시스템을 구성했다. 이 방법론은 결론을 도출하기 위하여 사용된 규칙을 차례차례 보여 줌으로써 의사결정 과정을 설명했다. 그러나 지식기반 시스템은 활용 범위가 매우 좁고, 복잡한 문제를 해결하는 데 제한이 있었다. 그 후에 나타난 데이터 기반의 신경망 모델은 성능은 우수하나 그 작동 과정을 인간의 언어로 설명할 수 없는 블랙박스가 대부분이다.



신경망 기법은 데이터 학습을 통해서 AI 모델이 사용할 가중치를 얻어낸다. 이 가중치들이 AI가 결정을 내리는 데 사용되는 매개변수들이라는 것은 우리는 안다. 그러나 그 과정에서 어떻게 데이터를 처리하고 패턴을 찾는가는 그 세부 사항이 너무 복잡해서 제대로 파악할 수가 없다. 요즘 많이 쓰이는 대규모 AI 모델은 수천억 개에서 일조 개의 파라미터를 사용한다.

신경망의 내부 작업 메커니즘을 완전히 이해하려면 AI 모델을 구성하는 각 뉴런과 계층을 분석하고, 그것들이 어떤 특징과 개념을 나타내는지를 구체적으로 설명해야 한다. 특정 토큰이 언어모델에 입력되면(예: 파랗다) 관련 특징(예: 색상 및 하늘)을 나타내는 뉴런 그룹이 활성화되어야 한다. 간단한 특징은 개별 뉴런으로 표현할 수도 있을 것이고, 반대로 복잡한 개념은 여러 뉴런의 중첩으로 나타내야 할 것이다. 이러한 개념들이 중첩되어 더욱 복잡한 특성과 개념을 만든다. 수천억 개의 많은 뉴런들이 다양한 중첩으로 만들어 내는 복잡한 특성과 개념을 어찌 다 추적하여 이해할 수 있을까? 

신경망 기반의 대형 AI모델의 의사결정 과정을 이해하는 것은 AI 시스템을 안전하게 사용할 수 있게 하기 위한 매우 시급하고 중요한 연구 과제이다. 여러 곳에서 설명할 수 있는 AI, 즉 대규모 언어 모델의 해석에 대한 연구가 한창이다. AI 모델의 내부 논리를 이해하여, AI의 성별 편향이나 잘못된 데이터 해석과 같은 오류를 줄이며 더 안전하게 작동하도록 만드는 것이 목표다. 예를 들어, 특정 직업을 특정 성별과 연관 짓는 모델의 편향을 발견하고, 이를 수정함으로써 AI의 공정성을 높일 수 있다.


클로드의 연구 - 금문교 개념의 발견



AI 스타트업인 클로드에서는 AI 모델의 내부 작동을 분석하여 신경망이 텍스트를 읽거나 이미지를 볼 때 활성화되는 수백만 개의 개념이 무엇인가를 연구했다. 발견한 개념의 활성화 강도를 위아래로 조절하며 AI모델의 행동에서 어떤 변화가 나타나는가를 검토했다. 클로드의 한 AI 모델에서 샌프란시스코의 랜드마크에 대한 언급, 또는 사진을 접했을 때 활성화되는 특정 뉴런 조합이 있는데. 그것이 금문교의 개념이라는 것을 알아냈다. 금문교 개념의 활성화 강도를 높이면, AI 모델은 금문교와 관련된 정보를 더 강하게 연관 짓게 되며, 응답에서도 금문교를 더 빈번하게 언급하게 된다. 대부분의 질의에 대하여 직접적으로 관련이 없는데도 금문교를 언급하기 시작한다. 예를 들자면 10달러를 어떻게 써야 할지 묻는다면, 금문교를 운전해서 통행료를 내는 데 사용하라고 추천한다. 사랑 이야기를 부탁하면, 안개 낀 날 연인들이 금문교를 건너는 이야기를 들려준다.

AI 모델 내에서 형성된 개념의 영역을 찾아서 활성화 강도를 변경할 수 있다는 것은 이러한 기술이 AI 모델의 내부 작동 원리를 이해하고 제어하는 데 기여하기 시작했다는 것을 의미한다. 이러한 기술로 위험한 컴퓨터 코드, 범죄 활동과 같은 안전 관련 기능의 강도를 변경할 수 있을 것이다. 다시 말하자면 AI 모델을 더 안전하게 만들 수 있다.


구글 딥마인드의 내부 현미경



구글의 딥마인드에서도 유사한 연구를 하고 있다. 갬마 스코프(Gemma Scope)라는 도구는 AI가 출력을 생성할 때 내부에서 출력 생성 과정에서 어떤 뉴런들이 활성화되는지를 연구자들이 이해할 수 있도록 돕는다. AI 모델의 특정 층을 확대해 들여다보는 현미경과 같은 역할을 한다. 예를 들어, 치와와에 해 묻는다면 '개'라는 특징이 활성화되어 AI모델이 '개'에 대해 알고 있는 것들을 보여준다. 즉 AI가 특정 개념을 어떻게 분해하고 재구성하는지를 이해할 수 있다.

AI 모델의 출력 과정을 더 잘 이해하게 되면, 결과적으로 AI의 출력을 더욱 효과적으로 제어하고, 성능이 향상되고 안전성이 강화된 AI 시스템을 만들 수 있을 것이다. 물론, 이 과정이 쉽지만은 않다. 가장 큰 어려움은 얼마나 세밀하게 들여다볼지 결정하는 것이다. 너무 세밀하게 들여다보면 인간이 이해하기 어렵고, 반대로 너무 멀리서 보면 중요한 정보를 놓칠 수 있기 때문이다.


이러한 연구의 잠재력

대규모 언어 모델의 해석 가능성에 대한 연구는 아직 초기 단계에 있지만, 최근 몇몇 연구 성과는 그 잠재력을 보여주고 있다. 예를 들어, 특정 개념을 뉴런의 활성화 패턴으로 파악하고 이를 제어하는 기술은 AI 모델의 편향을 수정하거나 안전성을 높이는 데 유용할 수 있다. AI가 자신의 의사결정 과정을 사람들이 이해할 수 있도록 설명해 준다면 AI가 우리 사회에 더욱 안전하고 긍정적인 영향을 미치도록 하는 데 중요한 역할을 할 것이다. AI가 단순히 효율적인 도구를 넘어서, 우리가 믿고 신뢰할 수 있는 동반자로 자리 잡게 될 것이다.


참고 : https://www.technologyreview.kr/  - Google DeepMind has a new way to look inside an AI’s “mind”    

https://www.anthropic.com/news/golden-gate-claude




카이스트 명예교수 김진형 교수 프로필사진

김진형 교수
마크애니 김진형 고문은 카이스트 명예교수로, 1세대 소프트웨어 개발자로서 1973년부터 KIST에서 개발자로 일했다.
UCLA에서 컴퓨터과학 박사학위를 받은 후 미국 휴즈연구소에서 인공지능을 연구했다. 1985년부터 KAIST 전산학과 인공지능연구실을 이끌며
약 100명의 석·박사 전문 인력을 양성했다. KAIST에서 학과장, 인공지능연구센터 소장, 소프트웨어 대학원장을 역임했다.
‘AI 최강의 수업’, ‘인공지능 메타버스 시대 미래전략(공저)’ 등의 저서를 썼다.


AI와 정보보안을 결합한 솔루션에 관심이 있으신가요? 마크애니의 AI 기반 보안 솔루션으로 더 안전한 시스템을 구축할 수 있습니다.
아래 알아보기를 눌러 마크애니 보안 솔루션에 대해서 더 자세히 알아보세요.

Social Media Links

솔루션 소개

둘러보기

마크애니

고객지원


(주)마크애니  서울시 중구 퇴계로 286 쌍림빌딩 13층  

(+82) 02-2262-5222ㅣ contact@markany.com  

업자 등록번호 : 101-81-47345

Copyright © 2024. MarkAny. All Rights Reserved.

솔루션 소개

둘러보기

고객지원

Copyright © 2024. MarkAny. All Rights Reserved.