총 500건
LoRA, QLoRA를 위한 완전한 하이퍼파라미터 구성과 다양한 모델 크기에 걸친 완전한 미세 조정.
맘바의 핵심 혁신은 상태 공간 모델 매개변수를 입력 의존적으로 만드는 **선택적 SSM(S6)** 계층입니다.
'''bash'''
RWKV는 **타임 믹싱**(시퀀스 처리) 블록과 **채널 믹싱**(피처 처리) 블록을 번갈아 가며 사용합니다.
4D 병렬 처리(FSDP2, TP, PP, CP)가 가능한 토치티탄을 사용하여 PyTorch 네이티브 분산 LLM 사전 학습을 제공합니다. Lama 3.1, DeepSeek V3 또는 Float8, torch.compile, 분산 체크포인트 기능을 갖춘 8개에서 512개 이상의 GPU 규모의 커스텀 모델을 사전 학습할 때 사용하세요.
이 문서는 몰페이트로 제공되는 모든 피처라이저를 카테고리별로 정리한 포괄적인 카탈로그를 제공합니다.
레일팩은 철도의 기본 제작자입니다. 대부분의 프로젝트에 대해 제로 구성.
사용자가 Google 광고, 메타(페이스북/인스타그램), LinkedIn, 트위터/X 또는 기타 광고 플랫폼에서 유료 광고 캠페인에 대한 도움을 원할 때. 사용자가 'PPC', '유료 미디어', '광고 카피', '광고 크리에이티브', 'ROAS', 'CPA', '광고 캠페인', '재타겟팅' 또는 '오디언스 타겟팅'을 언급할 때도 사용하세요 이 스키
추론 및 작업별 모델 훈련을 위한 TRL을 통한 GRPO/RL 미세 조정 전문가 지침
마일즈는 슬라임을 기반으로 구축된 엔터프라이즈급 RL 프레임워크로, 대규모 MoE 훈련을 위한 고급 기능을 추가합니다:
**증상**: 손실 폭발, NaN 값, 보상 붕괴
생산 준비가 완료된 슬라임 포크인 마일을 사용하여 엔터프라이즈급 RL 훈련을 위한 지침을 제공합니다. FP8/INT4를 사용하여 대형 MoE 모델을 훈련하거나, 훈련-추론 정렬이 필요하거나, 최대 처리량을 위해 사변적 RL이 필요할 때 사용하세요.
Ray+vLLM 가속을 갖춘 고성능 RLHF 프레임워크. 대형 모델(7B-70B+)의 PPO, GRPO, RLOO, DPO 훈련에 사용하세요. Ray, vLLM, ZeRO-3를 기반으로 구축되었습니다. 분산 아키텍처와 GPU 리소스 공유를 통해 DeepSpeedChat보다 2배 빠릅니다.
LLM 정렬을 위한 간단한 선호 최적화. 더 나은 성능(알파카에발 2.0에서 +6.4점)으로 DPO에 대한 참조 없는 대안. 참조 모델이 필요 없으며 DPO보다 더 효율적입니다. DPO/PPO보다 더 간단하고 빠른 훈련을 원할 때 선호도 정렬에 사용하세요.
슬라임은 레이가 조율한 세 개의 모듈 아키텍처로 작동합니다:
**증상**: 추론 엔진이 훈련 중에 작동 중단, 연결 오류 발생
슬라임, 메가트론을 사용하여 RL로 LLM 후 훈련에 대한 지침 제공+SGLang 프레임워크. GLM 모델을 훈련시키거나, 맞춤형 데이터 생성 워크플로우를 구현하거나, RL 확장을 위해 메가트론-LM 통합이 필요할 때 사용하세요.
토치포지는 완전히 비동기화된 RL 시스템을 기반으로 합니다:
**증상**: "GPU 리소스 부족" 오류
인프라와 알고리즘을 분리하는 메타의 라이브러리인 토치포지를 사용하여 PyTorch 네이티브 에이전트 RL에 대한 지침을 제공합니다. 깨끗한 RL 추상화, 쉬운 알고리즘 실험, 또는 Monarch와 TorchTitan을 사용한 확장 가능한 훈련을 원할 때 사용하세요.