Category: Ai

It has AI contents.

GenAI and LLM

AI 를 배울려면 어려운것이 용어다. 알수 없는 용어들. 기존 IT는 그래도 여기저기 주워들은(?) 게 있어서 한번 들으면 그런대로 잘 이해가 되는데, AI 분야는 한번 들었다고 해서 그게 바로 머리속에 자리잡는건 아닌듯 했다. 그래서 용어를 정리해야할 필요가 있다.

GenAI

Generate AI 를 줄여서 쓰는 말이다. 흔히 AI 라고하면 GenAI 를 말하는 것으로 착각하지만 불과 몇년전만 하더라도 AI 는 Specialized AI 였다.

GenAI는 텍스트(Text), 이미지(Images), 오디오(Audio), 비디오(Video)와 같은 새로운 콘텐츠를 생성할 수 있는 시스템을 의미한다. Specialized AI 는 특정 태스크에 특화된 AI를 말하는데, 이미지를 조정하거나 음성인식등인데 사람이 생성한 컨텐츠와 구별되는 특정한 태스크를 위해 디자인 된 것을 말한다. 반면에 GenAI 는 사람이 생성한건지, AI 가 생성한건지 구별하기가 매우 어렵다.

GenAI 는 어마어마한 데이터를 학습한 neural networks (NHs) 와 같은 machine learning(ML) 를 사용한다. 학습하는 방법은 훈련 데이터(Training Data) 를 가지고 패턴(Pattern)과 구조(Structures) 를 학습하고 이를 기반으로 데이터의 확률 분포를 모델링하고 이를 기초로해서 새로운 패턴과 구조를 다시 만들어낸다.

여기서 중요한것이 Training Data 를 가지고 패턴(Pattern)과 구조(Structures) 를 파악하는게 아니라 학습한다는데 있다. 이 학습을 위해서 방대한 데이터가 필요하고 이 방대한 데이터를 정제해서 훈련 데이터(Training Data) 를 다시 만들어야 한다.

따라서 데이터를 정제시키는 방법이 필요한데, Python Pandas 가 시작점이 될 수 있다. Pandas 를 데이터를 DataFrame 으로 전환시켜서 각종 연산을 통해서 훈련 데이터를 생성해준다.

LLM

Large Language Model. 한국어로는 대형 언어 모델이라고 한다. 여기서 용어에 의미를 명확히 해야 한다. 대형(Large) 와 모델(Model) 이라는 말이 함께 쓰이기 때문에 모델 자체에 어떤 대형이 있을 거라 생각하겠지만 여기서 대형(Large)는 훈련 데이터(Training Data) 가 아주 크다는 것을 말한다.

AI 는 모델을 만들기 위해서는 훈련 데이터, 그전에 정제되지 않은 Raw Data 가 필요한다. LLM 은 이 쌩짜(Raw Data) 와 훈련 데이터가 어마어마하게 크다는 것을 의미 한다.

GenAI 에서 가장 발전이 많하는 분야이고 자주 접하는 분야가 LLM 인데, 최종적으로 LLM 을 통해서 자연어 생성(NLG, Natural language generation)이 목적이다. LLM 은 GenAI 에서 인간의 언어를 이해고 인간의 언어를 생성하도록 특화된 신경망(neural networks) ML 이라고 볼 수 있다. GenAI 는 그야말로 다양한 능력을 가지는 AI 인데, LLM 은 그중에서 인간의 언어에 초점이 맞춰진 것이라고 할 수 있다.

인간의 언어를 이해한다….. 어찌보면 인간이 어렸을적에 언어를 배우는 방법과 비슷한데, 수많은 단어를 학습하고 언어 구조를 파악하고 종합해 뜻을 이해하고 단어와 구조를 이용해 다시 말을 하게 된다.

따라서 LLM 도 어마어마한 인간의 단어를 학습해야 한다. 그리고 그 언어의 구조도 학습해야 한다. 인간의 언어를 학습한 모델은 그 자체도 어마어마하게 클 것으로 예상되는데, 그런면에서 대형(Large) 라는 말은 훈련 데이터의 크기뿐만 아니라 그것을 학습한 AI 모델도 매우 큰 규모라는 것을 뜻하기도 한다. 또, 당연히 LLM 은 학습 데이터가 많아지면 많아질 수록 더 좋은 성능을 나타낼 것은 당연하다.

여기서 LLM 의 성능이라고 하면, 좀 더 인간에 가까운 텍스트 컨텐츠라고 할 것이다. 이를 위해서 더 많은 단어와 구조를 학습해야 한다. 더 많이 학습하면 할수록 인간과 유사한 자연스러운 텍스트 컨텐츠를 생성하게 된다. 결국에는 인간과 구별되지 않는 창조적인 대규모 자연어 콘텐츠를 자동으로 생성하는게 최종 목표라 할만 하다.

Deep Learning

딥러닝(Deep Learning)은 머신러닝(Machine Learning)의 한 분야로, 인간의 뇌 구조를 모방한 인공 신경망(Neural Networks)을 이용하여 복잡한 패턴을 학습하는 방식. 머신러닝은 다양한 알고리즘을 통해 데이터를 분석하고 예측 모델을 만드는 것을 의미하며, 딥러닝은 이러한 머신러닝 알고리즘 중에서도 특히 인공 신경망을 활용한 심층 학습을 강조한다.

딥러닝은 한걸음 더 나가서 스스로 학습한다는 것이다. 인공 신경망이기 때문에 가능 이야기다.

Transformer

어렵다… 이건 어려운 주제다. 쉽게 이해가 가지 않는 것이, 논문수준의 이론적 이해를 필요하기 때문이다. 기존의 이론에서 Attention Machanism 만 가지고 언어 추론을 한다고 하는데…

뭔 소리여?

일단 넘어가고 나중에 이해해 보자. 지금은 몰라도 된다.