본문 바로가기
Dev/Devlog

[spring boot/python/llama2/docker] spring boot 프로젝트에 LLM (llama2) 사용해보기 - 0

by 석맨.class 2024. 3. 13.
반응형

서론

AI 산업이 커지고 있음을 느낀다. 나도 한번 AI 를 사용해보고 싶어졌다.
chat GPT API 말고 로컬에서 돌아가는 언어 모델로 직접 서비스를 만들어 보고 싶다.

찾아보니 Llama2 라는 오픈소스 LLM 이 있다.
-> meta의 llama2

대형 언어 모델인 만큼 학습시킬때 NVIDIA A100 GPU 를 사용한다고 한다. ( 2천만원대... )

그래도 걱정말자 노트북에서도 실행할 수 있는 방법이 많이 있는 것 같다.

바로 삽질을 시작해 보자.

구성

나는 회사에서 서비스를 spring boot 로 개발하고 싶어하기 때문에 spring boot로 WAS를 구성해볼 생각이다.
그리고 모델에게 질문/응답을 vector 형식으로 해보라고 요청을 받았다.
( 아직 vector 형식이 무엇인지 자세히는 모른다. 아마 문장의 중요한 키워드를 추출한 값을 말하는 것 같다. )

흐름은 다음과 같겠지?

질문(텍스트) -> WAS(spring boot) vector 로 변환 -> LLM(llama2) -> WAS -> 응답(vector)

llama2 로컬에서 실행방법

내가 찾아본 로컬에서 실행하는 두가지다.

  • 언어모델(.gguf 파일)을 python 으로 실행하기
  • ollama 로 docker 에서 실행하기

나는 M1 맥북을 사용하기에 맥북이 아니거나 나는 docker 로 모델을 실행하고 싶다면 ollama 로 실행하기만 보자.