재미있는 보안 이야기

[김진형 교수님의 AI 이야기] Chat GPT로 다시보는 인공지능의 도약 - 대형 언어모델(LLM)


생성형 AI에서 대규모 기반 모델의 중요성

대규모 데이터를 학습시킨, 대규모 AI 모델을 기반모델이라고 한다. 

이를 기반으로 여러 가지 서비스를 만들어 낼 수 있기 때문에 붙여진 이름이다. 

GPT는 언어를 이해하고 번역하고 이야기를 만들어 내는 등 언어 관련 서비스를 만들기 위해 구축한 기반모델이다. 

이미지 기반 모델도 있다. 인터넷에서 구할 수 있는 많은 이미지와, 이 이미지를 설명하는 문장의 쌍을 학습해 구축한다. 

이미지 기반 모델을 이용해 언어로 지시한 그림을 AI가 그리도록 할 수 있다. 

거대한 기반 모델은 그 자체로 우수한 성능을 보이기도 하지만, 미세한 조정으로 수천 개의 다양한 하위 작업을 가능하게 할 수 있다. 

챗GPT는 기본적 자연어 대화 능력에 더해 자주 쓰이는 특수 업무를 수행하도록 미세 조정했다.  

즉 문장 요약, 텍스트 형식의 분류, 번역, 문장의 느낌 분석 등의 업무를 하도록 조정됐다. 컴퓨터 코딩도 특수 업무의 하나다. 

기반모델은 구축하는 데 많은 노력이 들어가지만 기반모델을 확보하면 독자적인 생태계를 형성해 영향력을 행사할 수 있다. 

따라서 강력한 기반 모델을 구축하기 위한 글로벌 경쟁이 심하다. 한국도 여러 기업이 대규모 기반 모델 구축에 힘쓰고 있다. 

기반모델의 확보 경쟁에서 미국, 중국에 이어서 한국이 세 번째 강국이다.

 

챗GPT의 본질은 무엇인가?


AI가 어려운 글쓰기를 한다. 컴퓨터 프로그램이 인간이 수행하기도 벅차고, 

더하여 고도의 지적 능력이 필요한 글쓰기 업무를 수행하고 있다. 더구나 그 글의 수준이 매우 높다는 데에 놀라지 않을 수 없다. 

생성형 AI가 이런 고도의 글쓰기 능력을 갖고 있다는 것이 한동안 믿어지지 않았다. 

AI의 이런 글쓰기 능력은 어떻게 만들어진 것일까?  AI의 글쓰는 기술의 본질을 알아보자. 

기술의 본질을 알아야 그 기술의 능력과 한계를 이해할 수 있다. 따라서 근거없는 기대도 하지 않을 것이며, 

약점이 있더라도 약점을 잘 회피하여 활용할 수 있는 지혜를 얻게 될 것이다.

챗GPT는 방대한 양의 문서, 즉 텍스트의 학습에 의하여 만들었다, 언어를 학습했고, 대화하는 방법, 그리고 사회적 가치를 학습했다.

언어 능력이란 주어진 문장의 다음에 나올 단어을 선택하는 능력이다. 나올 가능성이 있는 단어는 매우 많을 것이다. 

이중에서 가장 가능성이 높은 단어를 선택하면 가장 그럴듯한 문장이 만들어진다고 믿는 것이다. 

언어에서 한 문장 다음에 어떠한 단어가 나오는가의 확률 정보를 모은 것을 언어 모델(Language Model)이라고 한다. 

자주 나타나는 단어는 확률이 클 것이고, 나올 수 없는 단어는 확률이 영이 될 것이다. 

언어모델은 방대한 훈련용 문서에서의 학습으로 구축할 수 있다. 


대형언어모델 LLM(Large Language Model)

대형언어모델(Large Language Model)


크다는 것을 강조하여 대형언어모델(Large Language Model), 즉 LLM이라고 부른다. 

챗GPT의 경우, 그 학습에 사용된 문서는 백만권 이상의 책에 해당하는, 즉 거의 모든 인터넷 문서가 사용되었다는 소문이 있을 정도로 방대하다. 

챗GPT는 특정 회사의 상품 명칭이다. 따라서 기술의 일반 명사로서 사용할 때에는 챗GPT 대신 LLM이라고 하겠다.

문장을 보고 다음 단어를 선택할 때, 앞에 나오는 여러 단어를 보고 선택할수록 그럴듯한 단어가 선택된다. 

즉 넓은 문맥을 이해하여 문장을 만들 수 있다.  “철수는”이라는 문장 다음에 나올 단어가 “공부한다”와 “싸운다”의 두개라고 가정하자.  

“공부한다”와 “싸운다’ 중에 어느 것이 더 문맥에 맞는지 알 수가 없다.

그러나 “철수는” 앞에 있는 “말썽꾸러기”까지 보고 선택하라고 하면  “공부한다”보다는 “싸운다”가 더 그럴듯하다. 

즉 앞에 있는 여러 단어를 보고 결정할 때 더 문맥에 맞는 단어를 선택할 수 있다. 

높은 성능을 보이는 최근 버전의 챗GPT에서는 앞에 나오는 33000개의 단어를 보고 다음의 한 단어를 선택한다고 한다.

 이는 10포인트 글자로 가득 찬 A4용지 11페이지를 보고 다음 한 단어를 고르는 것과 같다.

 이런 단어 선택 과정을 반복하면 문맥에 맞는 긴 문장이 만들어진다. 

그 문장을 연결하면 문단이 만들어지고, 그 문단들이 연결하면 단락과 이야기가 만들어 진다. 

이런 방법으로 주어진 이야기를 이어서 AI가 다음 사건과 이야기를 생성하는 것이다.

모든 문장 구조의 표현하는 대형 언어 모델의 구축과 이를 이용하여 다음 단어의 확률 계산에는 많은 저장 공간과 계산력이 필요하다. 

특히 긴 문맥을 보고 결정하려면 엄청난 양의 계산이 필요하다. 

이에 ‘트랜스포머’라는 대용량 신경망이 사용되어 학습과 추론으로 문장 생성의 업무를 수행한다. 

사족을 덧붙이자면 챗GPT는 1750억개의 연결을 갖는 대형 신경망이고 이를 4 tera byte의 문장으로 훈련 시켰다고 한다.  

챗GPT를 만든 OpenAI 회사는 2022년에 7000억원의 손실을 기록했는데 대부분이 트랜스포머를 운영하기 위한 전기 값이었다고 한다. 

세계는 경쟁적으로 큰 ‘트랜스포머’를 운영하고 있다. 



(다음 편에 계속)






김진형 교수
마크애니 김진형 고문은 카이스트 명예교수로, 1세대 소프트웨어 개발자로서 1973년부터 KIST에서 개발자로 일했다. UCLA에서 컴퓨터과학 박사학위를 받은 후 미국 휴즈연구소에서 인공지능을 연구했다. 1985년부터 KAIST 전산학과 인공지능연구실을 이끌며
약 100명의 석·박사 전문 인력을 양성했다. KAIST에서 학과장, 인공지능연구센터 소장, 소프트웨어 대학원장을 역임했다.
‘AI 최강의 수업’, ‘인공지능 메타버스 시대 미래전략(공저)’ 등의 저서를 썼다.





Social Media Links

솔루션 소개

둘러보기

마크애니

고객지원


(주)마크애니  서울시 중구 퇴계로 286 쌍림빌딩 13층  

(+82) 02-2262-5222ㅣ contact@markany.com  

업자 등록번호 : 101-81-47345

Copyright © 2024. MarkAny. All Rights Reserved.

솔루션 소개

둘러보기

고객지원

Copyright © 2024. MarkAny. All Rights Reserved.