"AI 생태계" 검색 결과

총 500건 · 필터: AI KIT

스킬무료
Post Training Openrlhf References Custom Rewards
OpenRLHF에서 맞춤형 보상 기능 및 에이전트 RLHF 구현에 대한 완전한 가이드.
#ai
스킬무료
Post Training Openrlhf References Hybrid Engine
RLHF 훈련 중 활용도를 극대화하기 위한 OpenRLHF의 GPU 리소스 공유 시스템에 대한 전체 가이드.
#ai
스킬무료
Post Training Openrlhf References Multi Node Training
여러 기계에 걸쳐 OpenRLHF를 사용한 분산 레이 클러스터 훈련에 대한 완전한 가이드.
#node#ai
스킬무료
openrlhf-training
Ray+vLLM 가속을 갖춘 고성능 RLHF 프레임워크. 대형 모델(7B-70B+)의 PPO, GRPO, RLOO, DPO 훈련에 사용하세요. Ray, vLLM, ZeRO-3를 기반으로 구축되었습니다. 분산 아키텍처와 GPU 리소스 공유를 통해 DeepSpeedChat보다 2배 빠릅니다.
#ai#llm
스킬무료
Post Training Simpo References Datasets
SimPO 교육을 위한 선호도 데이터셋에 대한 완전한 가이드.
#ai
스킬무료
Post Training Simpo References Hyperparameters
심에 대한 완전한 가이드PO 하이퍼파라미터 선택 및 조정.
#ai
스킬무료
Post Training Simpo References Loss Functions
SimPO 손실 함수 및 수학적 공식에 대한 완전한 가이드.
#ai
스킬무료
simpo-training
LLM 정렬을 위한 간단한 선호 최적화. 더 나은 성능(알파카에발 2.0에서 +6.4점)으로 DPO에 대한 참조 없는 대안. 참조 모델이 필요 없으며 DPO보다 더 효율적입니다. DPO/PPO보다 더 간단하고 빠른 훈련을 원할 때 선호도 정렬에 사용하세요.
#ci#ai#llm
스킬무료
Post Training Slime References Api Reference
슬라임은 레이가 조율한 세 개의 모듈 아키텍처로 작동합니다:
#api#ai
스킬무료
Post Training Slime References Troubleshooting
**증상**: 추론 엔진이 훈련 중에 작동 중단, 연결 오류 발생
#ai
스킬무료
slime-rl-training
슬라임, 메가트론을 사용하여 RL로 LLM 후 훈련에 대한 지침 제공+SGLang 프레임워크. GLM 모델을 훈련시키거나, 맞춤형 데이터 생성 워크플로우를 구현하거나, RL 확장을 위해 메가트론-LM 통합이 필요할 때 사용하세요.
#ai#llm
스킬무료
Post Training Torchforge References Api Reference
토치포지는 완전히 비동기화된 RL 시스템을 기반으로 합니다:
#api#ai
스킬무료
Post Training Torchforge References Troubleshooting
**증상**: "GPU 리소스 부족" 오류
#ci#ai
스킬무료
torchforge-rl-training
인프라와 알고리즘을 분리하는 메타의 라이브러리인 토치포지를 사용하여 PyTorch 네이티브 에이전트 RL에 대한 지침을 제공합니다. 깨끗한 RL 추상화, 쉬운 알고리즘 실험, 또는 Monarch와 TorchTitan을 사용한 확장 가능한 훈련을 원할 때 사용하세요.
#go#ai
스킬무료
Post Training Trl Fine Tuning References Dpo Variants
TRL에서 직접 선호 최적화 손실 변형에 대한 완전한 가이드.
#ai
스킬무료
Post Training Trl Fine Tuning References Online Rl
PPO, GRPO, RLOO, OnlineDPO를 통한 온라인 강화 학습 가이드.
#ai
스킬무료
Post Training Trl Fine Tuning References Reward Modeling
RLHF 파이프라인을 위한 TRL을 사용한 보상 모델 교육 가이드.
#ai
스킬무료
Post Training Trl Fine Tuning References Sft Training
지침 조정 및 작업별 미세 조정을 위한 TRL을 사용한 지도 학습 미세 조정(SFT)에 대한 완전한 가이드.
#ci#ai
스킬무료
Post Training Verl References Api Reference
훈련 루프의 중앙 컨트롤러. 자원 할당을 관리하고 작업자 그룹을 조정합니다.
#api#ai
스킬무료
Post Training Verl References Troubleshooting
**증상**: 생성 단계 중 CUDA 메모리 부족
#ai

Post Training Openrlhf References Custom Rewards

Post Training Openrlhf References Hybrid Engine

Post Training Openrlhf References Multi Node Training

openrlhf-training

Post Training Simpo References Datasets

Post Training Simpo References Hyperparameters

Post Training Simpo References Loss Functions

simpo-training

Post Training Slime References Api Reference

Post Training Slime References Troubleshooting

slime-rl-training

Post Training Torchforge References Api Reference

Post Training Torchforge References Troubleshooting

torchforge-rl-training

Post Training Trl Fine Tuning References Dpo Variants

Post Training Trl Fine Tuning References Online Rl

Post Training Trl Fine Tuning References Reward Modeling

Post Training Trl Fine Tuning References Sft Training

Post Training Verl References Api Reference

Post Training Verl References Troubleshooting

Post Training Openrlhf References Custom Rewards

Post Training Openrlhf References Hybrid Engine

Post Training Openrlhf References Multi Node Training

openrlhf-training

Post Training Simpo References Datasets

Post Training Simpo References Hyperparameters

Post Training Simpo References Loss Functions

simpo-training

Post Training Slime References Api Reference

Post Training Slime References Troubleshooting

slime-rl-training

Post Training Torchforge References Api Reference

Post Training Torchforge References Troubleshooting

torchforge-rl-training

Post Training Trl Fine Tuning References Dpo Variants

Post Training Trl Fine Tuning References Online Rl

Post Training Trl Fine Tuning References Reward Modeling

Post Training Trl Fine Tuning References Sft Training

Post Training Verl References Api Reference

Post Training Verl References Troubleshooting