총 500건 · 필터: AI KIT
**📝 重要说明 / 중요 공지**: 本仓库借助커서 在AAAI 2026官方模板基础上改进得到。如果遇到不满足或有冲突的情况,请积极提issues。
다음 지침은 ACL 회의에 검토를 위해 제출된 논문(이하 "검토 버전") 또는 그 절차에서 출판이 수락된 논문(이하 "최종 버전")의 저자를 위한 것입니다
이 디렉토리에는 *ACL 컨퍼런스를 위한 최신 LaTeX 템플릿이 포함되어 있습니다.
CoLM 2025의 템플릿 및 스타일 파일
이 디렉토리에는 주요 머신 러닝 및 AI 컨퍼런스를 위한 공식 LaTeX 템플릿이 포함되어 있습니다.
LoRA, QLoRA를 위한 완전한 하이퍼파라미터 구성과 다양한 모델 크기에 걸친 완전한 미세 조정.
맘바의 핵심 혁신은 상태 공간 모델 매개변수를 입력 의존적으로 만드는 **선택적 SSM(S6)** 계층입니다.
**맘바-1.4B 대 트랜스포머-1.3싱글 A100 80의 B**GB:
'''bash'''
O(n) 복잡도와 트랜스포머의 O(n²)를 비교한 상태 공간 모델. 5배 빠른 추론, 백만 토큰 시퀀스, KV 캐시 없음. 하드웨어 인식 설계를 갖춘 선택적 SSM. 맘바-1 (d_state=16)과 맘바-2 (d_state=128, 멀티헤드). 허깅페이스 모델 1억 3천만-2.8억.
NanoGPT는 교육 목적으로 최소한의 코드로 깨끗한 GPT-2 아키텍처를 구현합니다.
NanoGPT는 효율적인 로딩을 위해 **바이너리 토큰 파일**을 사용합니다:
NanoGPT의 `train.py`는 의존성이 최소화된 독립형 학습 스크립트입니다.
RWKV는 **타임 믹싱**(시퀀스 처리) 블록과 **채널 믹싱**(피처 처리) 블록을 번갈아 가며 사용합니다.
RWKV-7은 2025년 3월에 출시된 최신 버전으로, 멀티모달 기능을 도입하고 14B+ 매개변수로 확장성을 개선했습니다.
KV 캐시가 있는 트랜스포머와 달리, RWKV는 이전의 모든 컨텍스트를 요약하는 **고정 크기의 순환 상태**를 유지합니다.
RNN+Transformer 하이브리드와 O(n) 추론. 선형 시간, 무한 컨텍스트, KV 캐시 없음. GPT(병렬)처럼 훈련하고, RNN(순차)처럼 추론하세요. 리눅스 재단 AI 프로젝트. Windows, Office, NeMo에서 제작. RWKV-7 (2025년 3월). 최대 14B 매개변수를 모델링합니다.
Float8 훈련은 GEMM이 충분히 커서 FP8 텐서코어 속도 향상이 동적 양자화 오버헤드를 초과하는 모델에 대해 상당한 속도 향상을 제공합니다.
FSDP2는 PyTorch의 Full Sharded Data Parallel (FSDP) API를 다시 작성한 것으로, 더 나은 구성성과 더 간단한 구현을 위해 `FlatParameter` 추상화를 제거합니다.
4D 병렬 처리(FSDP2, TP, PP, CP)가 가능한 토치티탄을 사용하여 PyTorch 네이티브 분산 LLM 사전 학습을 제공합니다. Lama 3.1, DeepSeek V3 또는 Float8, torch.compile, 분산 체크포인트 기능을 갖춘 8개에서 512개 이상의 GPU 규모의 커스텀 모델을 사전 학습할 때 사용하세요.