Small Language Models (SLM)

수십억 개 이하의 파라미터로 효율적인 성능을 제공하는 경량 언어 모델. 엣지 디바이스, 온프레미스 환경에서 실행 가능하며, 프라이버시 보호와 비용 절감을 위한 2025년 엔터프라이즈 AI의 핵심 트렌드입니다.

목차 (Table of Contents)

1. Executive Summary

2. SLM의 정의와 특징

3. SLM vs LLM 비교

4. 주요 SLM 모델 분석

5. 핵심 기술

6. 엔터프라이즈 활용 사례

7. 엣지 AI 배포

8. AWS 기반 구현

9. 도전과제와 Best Practices

10. 미래 전망

11. 실무 도입 가이드

12. 참고 자료

1. Executive Summary

Small Language Models (SLM)은 수백만에서 수십억 개의 파라미터를 가진 경량화된 언어 모델입니다. GPT-4(1.7T 파라미터)나 Claude(수천억 파라미터) 같은 대형 모델과 달리, SLM은 단일 GPU나 심지어 스마트폰에서도 실행 가능합니다. 2024년 Microsoft Phi-3.5(3.8B)가 MMLU에서 60%+ 달성하며, 이전에 540B 모델이 필요했던 성능을 소형 모델로 구현할 수 있음을 증명했습니다.

온디바이스

스마트폰/엣지 실행

프라이버시

데이터 외부 전송 불필요

비용 절감

API 비용 90%+ 절감

저지연

실시간 응답

3.8B

Phi-3.5 Mini 파라미터

(MMLU 60%+ 달성)

90%

LLM 대비 비용 절감

(온프레미스 배포 시)

10ms

엣지 추론 지연 시간

(클라우드 100ms+ 대비)

2. SLM의 정의와 특징

Small Language Model이란?

Small Language Model(SLM)은 일반적으로 100M ~ 14B 파라미터 범위의 언어 모델을 지칭합니다. 대형 언어 모델(LLM)과 동일한 Transformer 아키텍처를 사용하지만, 지식 증류(Knowledge Distillation), 가지치기(Pruning), 양자화(Quantization) 등의 기법으로 크기를 줄이면서도 높은 성능을 유지합니다.

Micro LLM

< 1B 파라미터

• SmolLM2-135M/360M
• TinyLlama-1.1B
• Llama-Prompt-Guard-22M

Small LLM

1B ~ 7B 파라미터

• Phi-3.5-Mini (3.8B)
• Gemma 2 (2B)
• Llama 3.2 (1B, 3B)
• Qwen2.5 (1.5B, 7B)

Medium LLM

7B ~ 14B 파라미터

• Mistral 7B
• Llama 3.1 8B
• Gemma 2 9B
• Phi-4 14B

SLM의 핵심 장점

엣지/온디바이스 배포

스마트폰, IoT, 임베디드 시스템에서 직접 실행

데이터 프라이버시

민감 데이터가 디바이스를 떠나지 않음

비용 효율성

API 호출 비용 없이 자체 인프라에서 운영

저지연 응답

네트워크 왕복 없이 밀리초 단위 응답

오프라인 동작

인터넷 연결 없이도 AI 기능 제공

특화 성능

특정 도메인에 파인튜닝하여 LLM 수준 성능

3. SLM vs LLM 비교

특성	SLM (1-14B)	LLM (70B+)
파라미터 수	100M ~ 14B	70B ~ 1.7T
메모리 요구량	2GB ~ 28GB	140GB ~ 3TB+
배포 환경	스마트폰, 엣지, 단일 GPU	데이터센터, 멀티 GPU
추론 비용	$0.0001/1K 토큰	$0.01-0.06/1K 토큰
지연 시간	10-50ms	100-500ms
지식 범위	제한적 (특화 가능)	광범위
추론 능력	기본 ~ 중급	고급
적합 용도	특정 태스크, 엣지 AI	범용, 복잡한 추론

4. 주요 SLM 모델 분석

Microsoft Phi 시리즈

고품질 데이터로 학습한 효율적 모델

Phi-4 (14B)

최신 모델, GPT-4 수준 추론

Phi-3.5-Mini (3.8B)

MMLU 60%+, 128K 컨텍스트

Phi-3.5-MoE (42B, 6.6B active)

Mixture of Experts 아키텍처

✅ 합성 데이터로 고품질 학습
✅ 코딩, 수학 특화
✅ MIT 라이선스

Google Gemma 시리즈

Gemini 기술 기반 오픈 모델

Gemma 3 (1B, 4B, 12B, 27B)

최신, 멀티모달 지원

Gemma 2 (2B, 9B, 27B)

안정적 성능, 널리 사용

Gemma 3n (E2B, E4B)

엣지 최적화, 온디바이스

✅ Google AI Edge 지원
✅ Android/iOS/Web 배포
✅ 상업적 사용 가능

Meta Llama 시리즈

오픈소스 LLM의 표준

Llama 3.2 (1B, 3B)

엣지 최적화, 멀티모달

Llama 3.1 8B

범용 성능, 128K 컨텍스트

✅ 가장 큰 커뮤니티
✅ 풍부한 파인튜닝 모델
✅ Llama 라이선스

기타 주요 모델

Mistral, Qwen, SmolLM

Mistral 7B / NeMo 12B

유럽 기반, 고성능

Qwen2.5 (0.5B ~ 72B)

Alibaba, 다국어 강점

SmolLM2 (135M ~ 1.7B)

Hugging Face, 초경량

5. 핵심 기술

모델 경량화 기법

Knowledge Distillation

대형 모델(Teacher)의 지식을 소형 모델(Student)로 전이

Quantization

FP32 → INT8/INT4로 정밀도 낮춰 크기 75% 감소

Pruning

중요도 낮은 가중치 제거하여 모델 압축

LoRA/QLoRA

저랭크 어댑터로 효율적 파인튜닝

추론 최적화

GGUF/GGML

CPU 추론 최적화 포맷, llama.cpp 호환

vLLM

PagedAttention으로 메모리 효율 극대화

TensorRT-LLM

NVIDIA GPU 최적화 추론 엔진

ONNX Runtime

크로스 플랫폼 추론, NPU 지원

6. 엔터프라이즈 활용 사례

📱 온디바이스 AI 어시스턴트

스마트폰에서 오프라인으로 동작하는 개인 비서

• 이메일/메시지 요약
• 일정 관리 및 알림
• 음성 명령 처리
• 개인 데이터 분석

🏭 산업용 IoT

공장 엣지 디바이스에서 실시간 분석

• 설비 이상 탐지
• 품질 검사 자동화
• 작업 지시 해석
• 로그 분석

🔒 프라이버시 중심 애플리케이션

민감 데이터를 외부로 전송하지 않는 AI

• 의료 기록 분석
• 법률 문서 검토
• 금융 데이터 처리
• 기업 내부 검색

💻 개발자 도구

로컬에서 실행되는 코딩 어시스턴트

• 코드 자동 완성
• 버그 탐지
• 문서 생성
• 코드 리뷰

7. AWS 기반 구현

AWS에서 SLM 배포

Amazon SageMaker

• JumpStart에서 SLM 원클릭 배포
• Llama, Mistral, Falcon 지원
• 자동 스케일링
• 실시간/배치 추론

Amazon Bedrock

• Llama 3.1 8B 서버리스
• Mistral 7B 지원
• 파인튜닝 기능
• 사용량 기반 과금

SageMaker에서 Llama 3.1 8B 배포

import sagemaker
from sagemaker.jumpstart.model import JumpStartModel

# Llama 3.1 8B Instruct 모델 배포
model = JumpStartModel(
    model_id="meta-textgeneration-llama-3-1-8b-instruct",
    instance_type="ml.g5.2xlarge"  # 단일 GPU로 충분
)

predictor = model.deploy()

# 추론
response = predictor.predict({
    "inputs": "한국의 수도는?",
    "parameters": {
        "max_new_tokens": 100,
        "temperature": 0.7
    }
})
print(response)

엣지 배포: AWS IoT Greengrass

AWS IoT Greengrass를 사용하여 SLM을 엣지 디바이스에 배포할 수 있습니다.

지원 하드웨어

NVIDIA Jetson, Raspberry Pi, x86

모델 포맷

ONNX, TensorRT, GGUF

관리

OTA 업데이트, 모니터링

8. 도전과제와 Best Practices

주요 도전과제

제한된 지식
LLM 대비 좁은 지식 범위
복잡한 추론 한계
다단계 추론 능력 부족
할루시네이션
작은 모델일수록 발생 빈도 높음
다국어 성능
영어 외 언어 성능 저하

Best Practices

RAG 결합
외부 지식으로 한계 보완
도메인 파인튜닝
특정 분야에 특화하여 성능 향상
적절한 양자화
INT8이 성능/크기 균형 최적
Agentic 오케스트레이션
복잡한 작업은 LLM에 위임

9. 미래 전망

2025-2026 전망

• NPU 탑재 디바이스 보편화
• 1B 모델로 현재 7B 성능 달성
• 멀티모달 SLM 확산
• 온디바이스 RAG 표준화

Gartner 전망

• 2026년까지 엣지 AI 3배 성장
• SLM이 엔터프라이즈 AI 50% 차지
• 프라이버시 규제로 온프레미스 수요 증가

10. 참고 자료

공식 문서

• Microsoft Phi Technical Report
• Google Gemma Documentation
• Meta Llama Model Card
• Hugging Face Transformers

도구 및 프레임워크

• llama.cpp (CPU 추론)
• Ollama (로컬 LLM 관리)
• vLLM (고성능 서빙)
• LM Studio (GUI 도구)

핵심 요약

Small Language Model이란?

100M~14B 파라미터의 경량 언어 모델로, 엣지 디바이스나 단일 GPU에서 실행 가능합니다.

주요 모델

• Phi-3.5/4: Microsoft, 고품질 데이터
• Gemma 2/3: Google, 엣지 최적화
• Llama 3.1/3.2: Meta, 오픈소스 표준

핵심 장점

• 온디바이스/엣지 배포
• 데이터 프라이버시 보호
• 90%+ 비용 절감
• 10ms 저지연 응답

AWS 솔루션

• SageMaker JumpStart
• Bedrock (Llama, Mistral)
• IoT Greengrass (엣지)

Glossary 목록