Hermes 로컬 모델 안내
로컬 모델은 내 Mac이나 별도 서버에서 모델을 직접 띄우고 Hermes가 그 서버에 접속하게 만드는 고급 설정입니다. 처음 설치하는 분은 Claude CLI 또는 Codex OAuth 흐름을 먼저 성공시킨 뒤에 시도하세요.
잘 모르겠으면 아직 건너뛰세요
로컬 모델은 “AI Provider를 직접 운영하는 방식”에 가깝습니다. Hermes 설치와 첫 대화가 아직 불안정하다면 이 페이지는 나중에 봐도 됩니다.
이 페이지에서 다루는 것
1. Ollama를 쓰는 경우
Ollama는 로컬 모델을 비교적 간단하게 띄우는 도구입니다. 먼저 Ollama를 설치하고 모델을 실행한 뒤, Hermes에서 Custom 또는 Ollama Provider를 선택합니다.
아래 명령어는 예시입니다. 모델 이름은 내 Mac에서 실제로 내려받은 모델 이름으로 바꿔야 합니다.
ollama pull qwen2.5:7b
ollama serve
그다음 아래 명령어를 터미널에 입력하고, 로컬 모델 또는 Custom Endpoint 쪽을 선택합니다.
hermes model
Ollama 주의점
모델이 작으면 빠르지만 추론 능력이 부족할 수 있고, 모델이 크면 Mac 메모리를 많이 씁니다. 처음에는 작은 모델로 연결만 확인하세요.
2. LM Studio를 쓰는 경우
LM Studio는 화면으로 모델을 고르고 로컬 서버를 켤 수 있는 앱입니다. 공식 문서는 Developer 탭에서 서버를 켜거나 CLI로 서버를 시작한 뒤 Hermes에서 LM Studio를 선택하는 흐름을 안내합니다.
lms server start
lms load qwen2.5-coder --context-length 32768
hermes model
컨텍스트 길이
공식 문서는 LM Studio에서 Context Length를 충분히 크게 잡는 흐름을 안내합니다. Mac 메모리가 부족하면 64K가 어려울 수 있으니, 먼저 32K 정도로 연결 확인을 해도 됩니다.
3. Custom Endpoint로 연결하기
로컬 서버가 OpenAI-compatible API를 제공한다면 Hermes에서 Custom Endpoint로 연결할 수 있습니다. 필요한 값은 보통 base URL, API Key, model name입니다.
아래 명령어를 터미널에 입력하고, Custom 또는 로컬 Provider 선택지를 따라가세요.
hermes model
연결 확인 질문
설정 후 Hermes에서 짧은 질문을 해보세요. tool call이 필요한 복잡한 작업보다 일반 대화로 먼저 연결만 확인하는 것이 안전합니다.
hermes -q "한 문장으로 자기소개해줘"