총 93건 · 필터: AI KIT
LLM 훈련을 위한 GPU 가속 데이터 큐레이션. 텍스트/이미지/비디오/오디오를 지원합니다. 퍼지 중복 제거(16배 더 빠름), 품질 필터링(30개 이상의 휴리스틱), 시맨틱 중복 제거, PII 재액션, NSFW 탐지 기능을 갖추고 있습니다. RAPIDS로 GPU 전반에 걸쳐 확장 가능. 고품질 교육 데이터셋 준비에 사용, cle
Wanda 및 SparseGPT와 같은 가지치기 기법을 사용하여 LLM 크기를 줄이고 추론 속도를 높입니다. 모델을 재훈련 없이 압축할 때, 최소한의 정확도 손실로 50% 희소성을 달성하거나 하드웨어 가속기에서 더 빠른 추론을 가능하게 할 때 사용하세요. 비정형 가지치기, 정형 가지치기, N:M s를 다룹니다
arXiv 2401.10774 (2024) 기반 - MEDUSA: 다중 디코딩 헤드가 있는 간단한 LLM 추론 가속 프레임워크
추측 디코딩, 메두사 다중 헤드, 그리고 전방 디코딩 기법을 사용하여 LLM 추론을 가속화하세요. 추론 속도를 최적화하거나(1.5-3.6배 속도 향상), 실시간 애플리케이션의 지연 시간을 줄이거나, 계산 속도가 제한된 모델을 배포할 때 사용하세요. 초안 모델, 트리 기반 주의, Jac을 다룹니다
멀티백엔드 실행을 통해 18개 이상의 하네스(MMLU, 휴먼에벌, GSM8K, 세이프티, VLM)의 100개 이상의 벤치마크에서 LLM을 평가합니다. 로컬 Docker, 슬럼 HPC 또는 클라우드 플랫폼에서 확장 가능한 평가가 필요할 때 사용하세요. 재현 가능한 벤치를 위한 컨테이너 우선 아키텍처를 갖춘 NVIDIA의 엔터프라이즈급 플랫폼
클라이언트 또는 구성된 제공자에게 MCP 컨텍스트를 통해 LLM 텍스트 생성을 요청합니다.
Axolotl - YAML 구성, 100개 이상의 모델, LoRA/QLoRA, DPO/KTO/ORPO/GRPO를 사용한 LLM 미세 조정을 위한 전문가 지침, 멀티모달 지원
LLaMA-Factory를 사용한 LLM 미세 조정을 위한 전문가 지침 - WebUI 노코드, 100개 이상의 모델, 2/3/4/5/6/8비트 QLoRA, 멀티모달 지원
LlM을 위한 매개변수 효율적인 미세 조정은 LoRA, QLoRA 및 25개 이상의 방법을 사용합니다. GPU 메모리가 제한된 대형 모델(7B-70B)을 미세 조정할 때, 정확도 손실을 최소화하면서 파라미터를 1% 미만으로 훈련해야 할 때 또는 멀티 어댑터 서빙에 사용하세요. 트랜스포머와 통합된 허깅페이스 공식 라이브러리
**파일:** `llms-txt.md`
연구, 이해관계자 인터뷰, 다중 LLM 검토를 통해 세부적이고 세분화된 실행 계획을 수립합니다. 철저한 사전 구현 분석이 필요한 기능을 계획할 때 사용하세요.
이 단계에서는 CLI 하위 에이전트를 사용하여 독립적인 검토를 위해 `claude-plan.md`를 외부 LLM(Gemini 및 Codex)으로 보냅니다.
NVIDIA 하드웨어 없이 CPU, Apple 실리콘 및 소비자 GPU에서 LLM 추론을 실행합니다. 엣지 배포, M1/M2/M3 Mac, AMD/Intel GPU 또는 CUDA를 사용할 수 없는 경우에 사용하세요. CPU에서 메모리 감소와 PyTorch 대비 4-10배 빠른 속도 향상을 위해 GGUF 양자화(1.5-8비트)를 지원합니다.
RadixAttention 접두사 캐싱을 통해 LLM을 위한 빠른 구조화된 생성 및 서비스. JSON/regex 출력, 제약 디코딩, 도구 호출을 통한 에이전트 워크플로우, 또는 접두사 공유를 통한 vLLM보다 5배 빠른 추론이 필요할 때 사용하세요. xAI, AMD, NVIDIA, LinkedIn에서 30만 개 이상의 GPU에 전력을 공급합니다.
Langfuse의 전문가 - 오픈 소스 LLM 관측 플랫폼. 추적, 신속한 관리, 평가, 데이터셋 및 LangChain, LamaIndex, Open과의 통합을 다룹니다AI. 프로덕션에서 LLM 애플리케이션을 디버깅, 모니터링 및 개선하는 데 필수적입니다. 사용 시기: 랑퓨즈, llm 관측 가능성,
클로드 사이언티픽 라이터를 위해 Microsoft의 MarkItDown 도구를 사용하는 포괄적인 기술이 개발되었습니다. 이 기술은 LLM 프로세스에 최적화된 15개 이상의 파일 형식을 Markdown으로 변환할 수 있게 합니다
냉동 이미지 인코더와 LLM을 연결하는 비전 언어 사전 학습 프레임워크. 이미지 캡셔닝, 시각적 질문 응답, 이미지 텍스트 검색 또는 최첨단 제로샷 성능을 갖춘 멀티모달 채팅이 필요할 때 사용하세요.
R1 스타일의 LLM에서 효율적인 추론을 위해 NOWAIT 기법을 구현합니다. 추론 모델(QwQ, DeepSeek-R1, Phi4-Reasoning, Qwen3, Kimi-VL, QvQ)의 추론을 최적화할 때 사용하여 정확성을 유지하면서 체인 오브 씽크 토큰 사용량을 27-51% 줄입니다. "추론 최적화", "th 감소" 트리거
추적, 평가 및 모니터링을 위한 LLM 관측 플랫폼. LLM 애플리케이션 디버깅, 데이터셋 대비 모델 출력 평가, 프로덕션 시스템 모니터링, AI 애플리케이션을 위한 체계적인 테스트 파이프라인 구축 시 사용하세요.
LLM 추적, 평가 및 모니터링을 위한 오픈 소스 AI 관측 플랫폼. LLM 애플리케이션을 상세한 추적으로 디버깅하거나, 데이터셋에서 평가를 실행하거나, 실시간 인사이트로 프로덕션 AI 시스템을 모니터링할 때 사용하세요.