Local Models

Hermes 로컬 모델 안내

로컬 모델은 내 Mac이나 별도 서버에서 모델을 직접 띄우고 Hermes가 그 서버에 접속하게 만드는 고급 설정입니다. 처음 설치하는 분은 Claude CLI 또는 Codex OAuth 흐름을 먼저 성공시킨 뒤에 시도하세요.

로컬 모델은 무료처럼 보일 수 있지만, 시간과 설정 난이도가 듭니다. 모델 서버, 메모리, 컨텍스트 길이, tool call 지원이 맞아야 Hermes에서 안정적으로 쓸 수 있습니다.

잘 모르겠으면 아직 건너뛰세요

로컬 모델은 “AI Provider를 직접 운영하는 방식”에 가깝습니다. Hermes 설치와 첫 대화가 아직 불안정하다면 이 페이지는 나중에 봐도 됩니다.

초보자 추천Claude CLI 또는 Codex OAuth로 먼저 성공

고급 사용자Ollama, LM Studio, vLLM 등 로컬 서버 연결

확인할 것모델 이름, base URL, 컨텍스트 길이, tool call

Ollama로 로컬 모델을 띄우는 흐름 LM Studio 서버를 Hermes에 연결하는 흐름 hermes model에서 Custom Endpoint 고르는 흐름

Ollama는 로컬 모델을 비교적 간단하게 띄우는 도구입니다. 먼저 Ollama를 설치하고 모델을 실행한 뒤, Hermes에서 Custom 또는 Ollama Provider를 선택합니다.

아래 명령어는 예시입니다. 모델 이름은 내 Mac에서 실제로 내려받은 모델 이름으로 바꿔야 합니다.

Ollama example

ollama pull qwen2.5:7b
ollama serve

그다음 아래 명령어를 터미널에 입력하고, 로컬 모델 또는 Custom Endpoint 쪽을 선택합니다.

Hermes model setup

hermes model

모델이 작으면 빠르지만 추론 능력이 부족할 수 있고, 모델이 크면 Mac 메모리를 많이 씁니다. 처음에는 작은 모델로 연결만 확인하세요.

LM Studio는 화면으로 모델을 고르고 로컬 서버를 켤 수 있는 앱입니다. 공식 문서는 Developer 탭에서 서버를 켜거나 CLI로 서버를 시작한 뒤 Hermes에서 LM Studio를 선택하는 흐름을 안내합니다.

LM Studio CLI example

lms server start
lms load qwen2.5-coder --context-length 32768
hermes model

LM Studio 서버의 기본 주소는 보통 `http://localhost:1234/v1`입니다. Hermes 설정 화면에서 LM Studio를 선택하면 이 주소를 기본값으로 사용할 수 있습니다.

공식 문서는 LM Studio에서 Context Length를 충분히 크게 잡는 흐름을 안내합니다. Mac 메모리가 부족하면 64K가 어려울 수 있으니, 먼저 32K 정도로 연결 확인을 해도 됩니다.

로컬 서버가 OpenAI-compatible API를 제공한다면 Hermes에서 Custom Endpoint로 연결할 수 있습니다. 필요한 값은 보통 base URL, API Key, model name입니다.

base URL예: http://localhost:11434/v1 또는 http://localhost:1234/v1

API Key로컬 서버가 요구하지 않으면 빈 값 또는 임의 값이 쓰일 수 있습니다.

model name서버에 실제로 올라와 있는 모델 이름입니다.

아래 명령어를 터미널에 입력하고, Custom 또는 로컬 Provider 선택지를 따라가세요.

Provider menu

hermes model

설정 후 Hermes에서 짧은 질문을 해보세요. tool call이 필요한 복잡한 작업보다 일반 대화로 먼저 연결만 확인하는 것이 안전합니다.

Smoke test

hermes -q "한 문장으로 자기소개해줘"

서버가 켜져 있나요?Ollama, LM Studio, vLLM 서버가 실행 중인지 확인합니다.

주소가 맞나요?localhost 포트와 `/v1` 경로가 Provider 설정과 맞는지 확인합니다.

모델 이름이 맞나요?Hermes에 입력한 모델명이 서버의 모델명과 같아야 합니다.

tool call이 되나요?일부 모델은 도구 호출을 텍스트처럼 출력할 수 있어 agent 작업에 맞지 않을 수 있습니다.