총 134건
냉동 이미지 인코더와 LLM을 연결하는 비전 언어 사전 학습 프레임워크. 이미지 캡셔닝, 시각적 질문 응답, 이미지 텍스트 검색 또는 최첨단 제로샷 성능을 갖춘 멀티모달 채팅이 필요할 때 사용하세요.
R1 스타일의 LLM에서 효율적인 추론을 위해 NOWAIT 기법을 구현합니다. 추론 모델(QwQ, DeepSeek-R1, Phi4-Reasoning, Qwen3, Kimi-VL, QvQ)의 추론을 최적화할 때 사용하여 정확성을 유지하면서 체인 오브 씽크 토큰 사용량을 27-51% 줄입니다. "추론 최적화", "th 감소" 트리거
추적, 평가 및 모니터링을 위한 LLM 관측 플랫폼. LLM 애플리케이션 디버깅, 데이터셋 대비 모델 출력 평가, 프로덕션 시스템 모니터링, AI 애플리케이션을 위한 체계적인 테스트 파이프라인 구축 시 사용하세요.
LLM 추적, 평가 및 모니터링을 위한 오픈 소스 AI 관측 플랫폼. LLM 애플리케이션을 상세한 추적으로 디버깅하거나, 데이터셋에서 평가를 실행하거나, 실시간 인사이트로 프로덕션 AI 시스템을 모니터링할 때 사용하세요.
AWQ(활성화 인식 가중치 양자화)는 LLM의 모든 가중치가 동일하게 중요한 것은 아니라는 핵심 인사이트를 기반으로 합니다. 알고리즘:
3배의 속도 향상과 최소한의 정확도 손실로 4비트 LLM 압축을 위한 활성화 인식 가중치 양자화. 제한된 GPU 메모리에 대형 모델(7B-70B)을 배포할 때, GPTQ보다 더 빠른 추론이 필요할 때, 또는 명령어 조정 및 다중 모드 모델에 사용하세요. MLSys
LLM을 8비트 또는 4비트로 양자화하여 정확도 손실을 최소화하면서 메모리를 50-75% 줄입니다. GPU 메모리가 제한되어 있거나, 더 큰 모델에 맞춰야 하거나, 더 빠른 추론을 원할 때 사용하세요. INT8, NF4, FP4 형식, QLoRA 학습 및 8비트 옵티마이저를 지원합니다. 허깅페이스 트랜스포머와 함께 작동합니다.
트랜스포머, PEFT, vLLM 및 기타 프레임워크와의 통합.
정확도 손실을 최소화하면서 LLM을 위한 4비트 양자화 훈련 후. 대형 모델(70B, 405B)을 소비자 GPU에 배포할 때, 2% 미만의 난잡도 저하로 4배 메모리 감소가 필요할 때, 또는 FP16 대비 더 빠른 추론(3-4배 속도 향상)을 위해 사용하세요. 트랜스포머 및 PEFT와 통합하여 QLoRA 미세 조정
보정 데이터가 없는 LLM의 반이차 양자화. 보정 데이터셋 없이 모델을 4/3/2비트 정밀도로 양자화할 때, 빠른 양자화 워크플로우를 위해, 또는 vLLM이나 허깅페이스 트랜스포머를 사용하여 배포할 때 사용하세요.
LiteLLM과 OpenRouter를 통해 Perplexity 모델을 사용하여 실시간 정보로 AI 기반 웹 검색을 수행하세요. 이 기술은 현재 정보를 검색하거나, 최신 과학 문헌을 찾거나, 출처 인용을 통해 근거 있는 답변을 얻거나, 정보에 접근할 때 사용해야 합니다
Ray+vLLM 가속을 갖춘 고성능 RLHF 프레임워크. 대형 모델(7B-70B+)의 PPO, GRPO, RLOO, DPO 훈련에 사용하세요. Ray, vLLM, ZeRO-3를 기반으로 구축되었습니다. 분산 아키텍처와 GPU 리소스 공유를 통해 DeepSpeedChat보다 2배 빠릅니다.
LLM 정렬을 위한 간단한 선호 최적화. 더 나은 성능(알파카에발 2.0에서 +6.4점)으로 DPO에 대한 참조 없는 대안. 참조 모델이 필요 없으며 DPO보다 더 효율적입니다. DPO/PPO보다 더 간단하고 빠른 훈련을 원할 때 선호도 정렬에 사용하세요.
슬라임, 메가트론을 사용하여 RL로 LLM 후 훈련에 대한 지침 제공+SGLang 프레임워크. GLM 모델을 훈련시키거나, 맞춤형 데이터 생성 워크플로우를 구현하거나, RL 확장을 위해 메가트론-LM 통합이 필요할 때 사용하세요.
강화 학습을 사용하여 LLM을 미세 조정하려면 TRL - SFT를 사용하고, 선호도 정렬을 위한 DPO를 사용하며, 보상 최적화를 위한 PPO/GRPO를 사용하며, 보상 모델 훈련을 수행합니다. 필요할 때 RLHF를 사용하거나, 모델을 선호도에 맞추거나, 사람의 피드백을 받아 훈련하세요. 허깅페이스 트랜스포머와 함께 작동합니다.
Verl(Volcano Engine RL)을 사용한 강화 학습을 통해 LLM을 훈련시키기 위한 지침을 제공합니다. 유연한 인프라 백엔드를 갖춘 대규모 LLM 사후 학습을 위해 RLHF, GRPO, PPO 또는 기타 RL 알고리즘을 구현할 때 사용하세요.
LLM 프롬프트를 위한 캐싱 전략: Anthropic 프롬프트 캐싱, 응답 캐싱, CAG (Cache Augmented Generation) 사용 시: 프롬프트 캐싱, 캐시 프롬프트, 응답 캐시, cag, 캐시 증강.
LLM 기반 애플리케이션을 위한 효과적인 프롬프트 설계 전문가. 마스터 프롬프트 구조, 컨텍스트 관리, 출력 형식 지정 및 신속한 평가. 사용 시기: 신속한 엔지니어링, 신속한 시스템, 소수의 시도, 사고의 연쇄, 신속한 설계.
다양한 LLM 백엔드를 사용하여 Guidance를 구성하는 전체 가이드.
정규 표현과 문법을 사용하여 LLM 출력을 제어하고, 유효한 JSON/XML/코드 생성을 보장하며, 구조화된 형식을 적용하고, Microsoft Research의 제한된 생성 프레임워크인 Guidance를 통해 다단계 워크플로우를 구축합니다