애플이 WWDC 2026에서 발표한 자체 파운데이션 모델 AFM 3의 기술 상세가 공개됐어요. 온디바이스 최강 버전 AFM 3 Core Advanced는 20B 파라미터 희소 구조로, 일반 아이폰에서 실행됩니다. 구글 Gemini 지식 증류로 학습했지만 실제 추론은 기기 안에서 완전히 처리돼요.
WWDC 2026 키노트에서 대부분의 관심은 구글 Gemini를 탑재한 새 시리와 Claude·ChatGPT를 iOS 27 기본 AI로 선택할 수 있다는 뉴스에 쏠렸는데요 — 사실 그 날 조금 더 기술적으로 중요한 발표가 조용히 나왔어요. 애플 머신러닝 리서치팀이 "제3세대 애플 파운데이션 모델(AFM 3)" 기술 논문을 공개한 거예요.
총 5개 모델이에요. 온디바이스 2종, 클라우드 3종. 이름도 다 달라요. 클라우드 최상위인 AFM 3 Cloud Pro는 구글 클라우드의 엔비디아 GPU 위에서 돌아간다고 밝혔어요. Gemini 기반 시리와 다른, 애플이 직접 만들고 운영하는 모델이에요.
근데 가장 흥미로운 건 온디바이스 최상위 모델인 AFM 3 Core Advanced예요. 전체 파라미터는 20B인데, 실제 작동할 때는 요청 난이도에 따라 1~4B만 활성화되는 희소(sparse) 구조예요. 메모리 제약이 있는 아이폰에서 20B짜리 AI를 어떻게 돌리냐고요? 여기서 애플이 새로 개발한 기법이 등장해요.
**IFP(Instruction-Following Pruning)**라는 이 기술, 간단히 말하면 전체 20B 가중치는 플래시 저장소에 두고, 요청이 들어올 때마다 필요한 전문가(expert) 가중치만 DRAM으로 로딩하는 방식이에요. 덕분에 기기 메모리가 충분하지 않아도 모델 전체를 올려놓지 않아도 돼요. 단순 요청엔 약 1B, 복잡한 요청엔 최대 4B가 활성화되는 식이에요.
이게 왜 중요하냐면, 사용자 데이터가 밖으로 나가지 않아도 된다는 거예요. 기존 시리의 경우 복잡한 요청은 서버로 올려야 했는데, AFM 3 Core Advanced부터는 꽤 고급 요청도 기기 안에서 처리할 수 있어요. 프라이버시 면에서 한 단계 올라간 거예요.
참, 이 모델들이 완전히 독자 기술이냐 하면 그건 아니에요. 구글 Gemini에서 지식 증류(distillation)를 거쳐 만들어졌어요. 부모 모델이 Gemini인 셈인데, 실제 추론은 기기 안에서 AFM 3 모델이 담당해요. "Gemini가 선생님, AFM 3이 학생" 구도로 보면 이해가 쉬워요.
개발자 입장에서도 반가운 소식이 있어요. 애플이 모델 추상화 레이어를 도입해서, 앱 내에서 쓰는 온디바이스 모델을 Claude나 Gemini로 교체해도 다운스트림 코드를 건드리지 않아도 된대요. Python SDK도 새로 나왔고요. iOS 앱에 AI를 붙이는 진입 장벽이 크게 낮아진 거예요.
성능 수치도 공개됐는데, AFM 3 Core Advanced의 TTS(텍스트-음성 변환) 품질이 MOS 기준 4.15점이에요. 이전 생산 시스템이 3.87이었으니 꽤 큰 도약이에요. AFM 3 Cloud는 응답 만족도에서 2025년 대비 36% 향상됐다고 하고요.
시리가 Gemini를 얹어 더 똑똑해진 것도 맞지만, 기기 자체에서 돌아가는 AI의 수준도 이번에 한 단계 분명히 올라갔어요. 🍎 20억 대 기기에서 어떤 경험이 펼쳐질지, 올가을 iOS 27 출시 이후가 궁금해지는 이유예요.
출처