Open WebUI - 채팅 제어(파라메터)

Open WebUI 설정에서 특정 파라미터를 어떻게 조정하면 더 좋은 결과를 얻을 수 있는지 살펴 보겠습니다.

각 파라미터 설정 설명

파라미터	설명	예제 값	영향	추천 설정
스트리밍 응답	응답을 실시간으로 점진적으로 표시	`True`, `False`	실시간 응답 제공 (`True`) / 전체 응답 후 표시 (`False`)	`True` (대화형 응답의 빠른 표시)
함수 호출	API 호출 또는 기능 실행 가능	`{"name": "fetch_data"}`	외부 데이터 또는 기능을 호출하여 정보 제공	필요 시 사용 (`None` 설정이 기본)
시드 값	동일한 입력에 동일한 출력을 재현	`42`, `1000`, `12345`	일관된 결과 제공 (디버깅, 평가 시 유용)	디버깅 목적일 때만 사용, 보통은 사용하지 않음
중지 시퀀스	모델의 응답을 중단할 기준 설정	`["###", "\n\n", "END"]`	지정된 시퀀스를 만나면 응답 중단	`["END"]` (종료 문자열 설정)
온도 (Temperature)	응답의 무작위성 조정 (0.0~1.0)	`0.2`, `0.7`, `1.0`	낮을수록 일관성 증가, 높을수록 창의성 증가	`0.2` (정확한 응답), `0.7` (대화형 응답), `1.0` (창의적 응답)
추론 노력	논리적 분석의 깊이를 설정	`0.4`, `0.8`	깊이 있는 분석을 시도할수록 응답 시간이 늘어남	`0.6` (일반 대화), `0.8` (심층적 분석 필요 시)
로짓 바이어스	특정 단어의 출현 확률 조정	`{"yes": 1.5, "no": -1.0}`	특정 응답의 확률을 높이거나 낮춤	필요할 때만 사용 (긍정 응답 유도 등)
Mirostat	일관성과 품질을 유지하는 동적 샘플링 방법	`Eta: 0.1, Tau: 10.0`	Tau 값 증가 시 깊은 응답, Eta 값 증가 시 응답 변화 빠름	`Eta: 0.3, Tau: 7.0` (일반 대화 설정)
Top K	후보 단어의 수 제한	`40`, `100`	낮을수록 예측 가능성 증가, 높을수록 다양성 증가	`40` (일반 응답), `100` (다양성 필요 시)
Top P	누적 확률 기반의 후보 선택	`0.9`, `0.95`	낮을수록 보수적, 높을수록 다양한 표현 생성	`0.9` (일반 대화), `0.95` (창의적 응답 필요 시)
빈도 페널티	단어 반복을 억제하는 설정	`0.5`, `1.0`	같은 단어 반복을 억제하여 다양성 증가	`0.5` (일반 사용), `0.8` (중복 방지 필요 시)
존재 페널티	동일 단어의 재사용 방지	`0.2`, `0.5`	값이 높을수록 새로운 표현 사용 증가	`0.2` (일반 대화), `0.5` (다양한 표현 유도)
반복 페널티	반복된 표현 억제 설정	`1.2`, `1.5`	값이 높을수록 반복 표현 억제	`1.2` (일반 사용), `1.5` (반복 억제 필요 시)
마지막 N 반복	반복 페널티 적용 시 고려할 토큰 수	`64`, `128`	긴 대화일수록 값이 커야 반복 억제가 효과적임	`64` (일반 설정), `128` (긴 대화 사용 시)
num_predict	생성할 응답의 최대 길이	`256`, `512`, `1024`	값이 클수록 긴 응답을 생성, 처리 시간 증가	`512` (일반 대화), `1024` (긴 응답 필요 시)
num_batch	모델의 동시 요청 처리 수	`1`, `4`, `8`	병렬 처리 성능 향상, 메모리 사용량 증가	`1` (단일 요청), `4` (병렬 처리 필요 시)
num_thread	사용되는 CPU 쓰레드 수	`4`, `8`, `16`	쓰레드 수 증가 시 성능 향상, CPU 사용량 증가	`4` (일반 설정), `8` (고성능 필요 시)
num_gpu	사용되는 GPU 개수	`0`, `1`, `2`	GPU 사용 시 성능 크게 향상	`1` (GPU 사용 시), `0` (CPU 사용 시)
use_mmap	모델 파일을 메모리에 매핑	`True`, `False`	메모리 효율 증가 (`True`), 성능 향상 가능	`True` (일반적으로 활성화)
use_mlock	모델 파일을 메모리에 고정	`True`, `False`	성능 개선 효과 있으나 메모리 사용량 증가	`False` (메모리가 부족할 때), `True` (성능 필요 시)

설정 예시

1. 대화형 응답 (일반적 사용)

  "Temperature": 0.7,
  "Top P": 0.9,
  "Top K": 40,
  "Repeat Penalty": 1.2

2. 정보 기반 응답 (정확성 강조)

  "Temperature": 0.2,
  "Top P": 0.8,
  "Top K": 20,
  "Repeat Penalty": 1.0

3. 창의적 응답 (스토리 생성 등)

  "Temperature": 1.0,
  "Top P": 0.95,
  "Top K": 100,
  "Repeat Penalty": 1.5

'AI' 카테고리의 다른 글

딥 리서치 서비스들( Deep Rearch ) (1)	2025.03.23
Genspark Plus 멤버쉽 한 달 동안 무료로 사용하세요. (0)	2025.03.21
LiteLLM - 다양한 LLM API 통합 관리 (0)	2025.03.18
SillyTavern (0)	2025.03.18
Gartner 보고자료로 살펴보는 2025년 트렌드 변화 (0)	2025.03.18

둘러가기

Open WebUI - 채팅 제어(파라메터)

'AI' 카테고리의 다른 글

댓글

티스토리툴바

Open WebUI - 채팅 제어(파라메터)

'AI' 카테고리의 다른 글

관련글

댓글

티스토리툴바