총 93건 · 필터: AI KIT
AWQ(활성화 인식 가중치 양자화)는 LLM의 모든 가중치가 동일하게 중요한 것은 아니라는 핵심 인사이트를 기반으로 합니다. 알고리즘:
3배의 속도 향상과 최소한의 정확도 손실로 4비트 LLM 압축을 위한 활성화 인식 가중치 양자화. 제한된 GPU 메모리에 대형 모델(7B-70B)을 배포할 때, GPTQ보다 더 빠른 추론이 필요할 때, 또는 명령어 조정 및 다중 모드 모델에 사용하세요. MLSys
LLM을 8비트 또는 4비트로 양자화하여 정확도 손실을 최소화하면서 메모리를 50-75% 줄입니다. GPU 메모리가 제한되어 있거나, 더 큰 모델에 맞춰야 하거나, 더 빠른 추론을 원할 때 사용하세요. INT8, NF4, FP4 형식, QLoRA 학습 및 8비트 옵티마이저를 지원합니다. 허깅페이스 트랜스포머와 함께 작동합니다.
트랜스포머, PEFT, vLLM 및 기타 프레임워크와의 통합.
정확도 손실을 최소화하면서 LLM을 위한 4비트 양자화 훈련 후. 대형 모델(70B, 405B)을 소비자 GPU에 배포할 때, 2% 미만의 난잡도 저하로 4배 메모리 감소가 필요할 때, 또는 FP16 대비 더 빠른 추론(3-4배 속도 향상)을 위해 사용하세요. 트랜스포머 및 PEFT와 통합하여 QLoRA 미세 조정
보정 데이터가 없는 LLM의 반이차 양자화. 보정 데이터셋 없이 모델을 4/3/2비트 정밀도로 양자화할 때, 빠른 양자화 워크플로우를 위해, 또는 vLLM이나 허깅페이스 트랜스포머를 사용하여 배포할 때 사용하세요.
LiteLLM과 OpenRouter를 통해 Perplexity 모델을 사용하여 실시간 정보로 AI 기반 웹 검색을 수행하세요. 이 기술은 현재 정보를 검색하거나, 최신 과학 문헌을 찾거나, 출처 인용을 통해 근거 있는 답변을 얻거나, 정보에 접근할 때 사용해야 합니다
Ray+vLLM 가속을 갖춘 고성능 RLHF 프레임워크. 대형 모델(7B-70B+)의 PPO, GRPO, RLOO, DPO 훈련에 사용하세요. Ray, vLLM, ZeRO-3를 기반으로 구축되었습니다. 분산 아키텍처와 GPU 리소스 공유를 통해 DeepSpeedChat보다 2배 빠릅니다.
LLM 정렬을 위한 간단한 선호 최적화. 더 나은 성능(알파카에발 2.0에서 +6.4점)으로 DPO에 대한 참조 없는 대안. 참조 모델이 필요 없으며 DPO보다 더 효율적입니다. DPO/PPO보다 더 간단하고 빠른 훈련을 원할 때 선호도 정렬에 사용하세요.
슬라임, 메가트론을 사용하여 RL로 LLM 후 훈련에 대한 지침 제공+SGLang 프레임워크. GLM 모델을 훈련시키거나, 맞춤형 데이터 생성 워크플로우를 구현하거나, RL 확장을 위해 메가트론-LM 통합이 필요할 때 사용하세요.
강화 학습을 사용하여 LLM을 미세 조정하려면 TRL - SFT를 사용하고, 선호도 정렬을 위한 DPO를 사용하며, 보상 최적화를 위한 PPO/GRPO를 사용하며, 보상 모델 훈련을 수행합니다. 필요할 때 RLHF를 사용하거나, 모델을 선호도에 맞추거나, 사람의 피드백을 받아 훈련하세요. 허깅페이스 트랜스포머와 함께 작동합니다.
Verl(Volcano Engine RL)을 사용한 강화 학습을 통해 LLM을 훈련시키기 위한 지침을 제공합니다. 유연한 인프라 백엔드를 갖춘 대규모 LLM 사후 학습을 위해 RLHF, GRPO, PPO 또는 기타 RL 알고리즘을 구현할 때 사용하세요.
LLM 프롬프트를 위한 캐싱 전략: Anthropic 프롬프트 캐싱, 응답 캐싱, CAG (Cache Augmented Generation) 사용 시: 프롬프트 캐싱, 캐시 프롬프트, 응답 캐시, cag, 캐시 증강.
LLM 기반 애플리케이션을 위한 효과적인 프롬프트 설계 전문가. 마스터 프롬프트 구조, 컨텍스트 관리, 출력 형식 지정 및 신속한 평가. 사용 시기: 신속한 엔지니어링, 신속한 시스템, 소수의 시도, 사고의 연쇄, 신속한 설계.
다양한 LLM 백엔드를 사용하여 Guidance를 구성하는 전체 가이드.
정규 표현과 문법을 사용하여 LLM 출력을 제어하고, 유효한 JSON/XML/코드 생성을 보장하며, 구조화된 형식을 적용하고, Microsoft Research의 제한된 생성 프레임워크인 Guidance를 통해 다단계 워크플로우를 구축합니다
다양한 LLM 제공업체와 함께 강사 사용 가이드.
Pydantic 검증을 통해 LLM 응답에서 구조화된 데이터를 추출하고, 실패한 추출을 자동으로 재시도하며, 복잡한 JSON을 타입 안전성으로 구문 분석하고, 전투 테스트를 거친 구조화된 출력 라이브러리를 사용하여 부분 결과를 스트리밍하세요
생성 중 유효한 JSON/XML/코드 구조 보장, 타입 안전 출력을 위해 Pydantic 모델 사용, 로컬 모델(Transformers, vLLM) 지원, 아웃라인을 통한 추론 속도 극대화 - dottxt.ai 의 구조화된 생성 라이브러리
검색 증강 생성 시스템 구축 전문가. LLM 애플리케이션을 위한 마스터 임베딩 모델, 벡터 데이터베이스, 청킹 전략 및 검색 최적화. 사용 시기: RAG 구축, 벡터 검색, 임베딩, 의미 검색, 문서 검색.