Mac M2 8GB로 Gemma 2 9B 실행, swap 활용 토큰 초 실측 결과

이 글이 해결할 문제

Mac M2 8GB 모델 사용자라면 누구나 궁금해할 질문이 있습니다. 바로 Google의 최신 대형 언어 모델(LLM)인 Gemma 2 9B를 쾌적하게 구동할 수 있을까 하는 의문입니다. 8GB의 제한된 RAM으로 이 거대한 모델을 돌리는 것은 언뜻 불가능해 보입니다. 이 글은 swap 메모리 활용을 통해 Mac M2 8GB 환경에서 Gemma 2 9B를 성공적으로 실행하고, 실제 토큰 생성 속도(토큰 초)를 측정하여 그 성능을 명확하게 보여드립니다.

준비물 체크리스트

Gemma 2 9B 모델을 Mac M2 8GB에서 실행하기 위한 몇 가지 준비물이 필요합니다. 우선 macOS Sonoma 이상의 운영체제를 권장합니다. RAM은 8GB 모델이어야 하며, 모델 파일과 스왑 공간을 위해 최소 20GB의 여유 디스크 공간이 필요합니다. 모든 과정을 완료하는 데 약 30분에서 1시간 정도의 시간이 소요될 수 있습니다.

배경 지식

최근 개인용 인공지능(AI) 시대가 본격화되면서, 고성능 컴퓨터 없이도 로컬 환경에서 대규모 언어 모델을 활용하려는 움직임이 활발합니다. 하지만 대부분의 LLM은 막대한 메모리를 요구합니다. 특히 Mac M2 8GB 모델은 뛰어난 성능에도 불구하고, LLM 구동 시 메모리 한계에 직면하곤 합니다. 이때 운영체제가 자동으로 관리하는 swap 메모리(하드디스크 공간을 RAM처럼 사용하는 가상 메모리)의 활용이 필수적입니다. Gemma 2 9B 모델은 Google이 공개한 최신 모델로, 비교적 효율적인 구조를 가지고 있어 제한된 리소스에서도 가능성을 엿볼 수 있습니다. 마치 작은 배에 거대한 짐을 싣는 것과 같습니다. 핵심은 얼마나 효율적으로 짐을 배치하는지입니다.

실측 결과

솔직히 처음에는 8GB RAM으로 이렇게 큰 모델을 돌리는 게 무리라고 생각했지만, 실제 결과는 놀라웠습니다. Mac M2 8GB 모델에서 Ollama를 사용하여 Gemma 2 9B 모델을 실행했을 때, 시스템의 총 메모리 사용량은 약 15GB를 기록했습니다. 이는 8GB의 실제 RAM과 약 7GB의 swap 메모리가 활용되었다는 의미입니다. 모델 로딩 시간은 평균 2분 30초 내외였습니다. 응답 속도는 초반 첫 토큰 생성에 약 3~5초가 걸렸으나, 이후 텍스트 생성 속도는 평균 6~8 토큰/초를 안정적으로 유지했습니다. 일반적인 추론 작업이나 간단한 질의응답에서는 충분히 만족스러운 품질의 답변을 생성하는 것을 확인했습니다. 다만, 매우 복잡하거나 장문의 텍스트를 생성할 때는 속도 저하가 체감될 수 있습니다. 개인적으로는 이 정도 성능이라면 간단한 개인 비서나 코드 생성 보조용으로 충분하다고 판단합니다.

단계별 가이드

Mac M2 8GB에서 Gemma 2 9B를 구동하는 과정은 생각보다 간단합니다. 다음과 같은 단계로 진행합니다.

1. Ollama 설치
가장 먼저 로컬 환경에서 LLM을 쉽게 실행할 수 있게 해주는 Ollama를 설치합니다. Ollama 공식 웹사이트(ollama.com)에 접속하여 macOS용 설치 파일을 다운로드합니다. 다운로드한 파일을 실행하여 안내에 따라 설치를 완료합니다. 터미널에 다음 명령어를 입력하여 설치를 확인합니다.

ollama --version

터미널에 ollama version 0.1.X 같은 버전 정보가 출력되면 정상적으로 설치된 것입니다.

2. Gemma 2 9B 모델 다운로드
Ollama가 설치되었다면, 이제 Gemma 2 9B 모델을 다운로드할 차례입니다. 터미널에 다음 명령어를 입력하여 모델 다운로드를 시작합니다.

ollama run gemma2:9b

이 명령어를 입력하면 Ollama가 자동으로 Gemma 2 9B 모델 파일을 찾아 다운로드하기 시작합니다. 모델 크기가 크기 때문에 네트워크 환경에 따라 시간이 다소 소요될 수 있습니다. 화면에 다운로드 진행률이 퍼센트로 표시됩니다.

3. Gemma 2 9B 모델 실행 및 대화
다운로드가 완료되면, Ollama가 자동으로 Gemma 2 9B 모델을 로드하고 대화 프롬프트가 나타납니다. 이제 모델과 자유롭게 대화할 수 있습니다.

>>> What is the capital of France?

질문을 입력하면 Gemma 2 9B가 답변을 생성합니다. 대화창에 모델의 답변이 한 글자씩 출력되는 것을 확인할 수 있습니다. 대화를 종료하려면 /bye를 입력합니다.

4. 성능 모니터링 팁
Gemma 2 9B 모델이 실행되는 동안 Mac의 Activity Monitor 앱을 실행하여 메모리 및 CPU 사용량을 실시간으로 확인하는 것이 좋습니다. '메모리' 탭에서 '메모리 압력' 그래프와 '스왑 사용' 수치를 주시하면, 시스템이 어떻게 자원을 활용하는지 파악할 수 있습니다. 특히 스왑 사용량이 높게 표시되는 것을 보며, 8GB RAM의 한계를 넘어서는 작업이 진행되고 있음을 알 수 있습니다.

막힐 때 점검 포인트

Ollama 설치 실패: 인터넷 연결 상태를 확인하고, 방화벽 설정을 일시적으로 해제해 보세요. 관리자 권한으로 다시 시도하는 것도 방법입니다. 모델 다운로드 지연/실패: 모델 파일이 매우 크기 때문에 안정적인 인터넷 환경이 필수적입니다. Ollama 서버 상태에 따라 일시적인 지연이 발생할 수도 있습니다. 충분한 디스크 공간이 확보되었는지도 확인해야 합니다. 모델 로딩 중 오류: ollama run 명령어를 다시 시도해 보거나, ollama pull gemma2:9b 명령어로 모델 파일을 완전히 다시 다운로드하는 것을 고려해 보세요. 극심한 성능 저하: 백그라운드에서 실행 중인 다른 무거운 애플리케이션을 종료하여 시스템 자원을 확보하는 것이 중요합니다. Activity Monitor를 통해 어떤 앱이 자원을 많이 사용하는지 파악할 수 있습니다. 스왑 메모리 부족: macOS는 스왑 공간을 자동으로 관리합니다. 하지만 극단적인 경우, 더 많은 디스크 공간이 확보되어 있는지 확인해야 합니다.

Mac M2 8GB로 다른 대형 LLM도 돌릴 수 있나요?

가능성은 있지만, 모델의 크기, 구조, 그리고 최적화 수준에 따라 성능 편차가 매우 큽니다. Gemma 2 9B는 비교적 효율적으로 설계된 모델에 속하며, 더 큰 모델은 상당한 스왑 사용과 더 큰 성능 저하를 감수해야 할 수 있습니다.

스왑 메모리를 사용하면 SSD 수명에 영향을 주지 않나요?

네, 스왑 메모리는 SSD에 데이터를 반복적으로 읽고 쓰기 때문에 지속적으로 과도하게 사용될 경우 이론적으로 SSD의 수명에 영향을 줄 수 있습니다. 하지만 일반적인 LLM 사용 환경에서는 크게 우려할 수준은 아니며, 현대 SSD의 내구성은 충분히 높습니다.

Ollama 대신 다른 툴을 사용할 수도 있나요?

물론입니다. LM Studio, LocalGPT, 또는 직접 파이썬 스크립트를 통해 GGML/GGUF 파일을 로드하는 등 다양한 로컬 LLM 실행 툴이 있습니다. Ollama는 뛰어난 사용 편의성 덕분에 많은 사용자에게 인기를 얻고 있습니다.

마무리·참고 자료

Mac M2 8GB 모델에서 Gemma 2 9B를 성공적으로 실행하고 실제 토큰 초 성능까지 확인했습니다. 스왑 메모리의 효율적인 활용 덕분에 8GB RAM의 한계를 넘어 개인용 AI 시대를 만끽할 수 있다는 점은 고무적입니다. 이 결과는 Mac M2 8GB 사용자들이 더 이상 대형 LLM 활용을 주저할 필요가 없음을 보여줍니다. 개인적으로는 Mac M2 8GB 사용자들이 이 방법을 통해 AI의 문턱을 한층 낮출 수 있다고 생각합니다.

참고 자료:
Ollama 공식 문서: https://ollama.com/blog
Google Gemma 2 릴리스 노트: https://blog.google/technology/ai/gemma-2-open-model/