Sabermetrics for Dummies: How-to Guide for MLB Fans to Learn the Ropes

Dus je wilt een honkbalnerd worden.

Wijze keuze. Van alle soorten nerds die ik heb meegemaakt, is honkbalnerd zijn het meest de moeite waard geweest. Het overtreft in ieder geval de tijd dat ik aan pogs deed.

Maar om een honkbal nerd te zijn, moet je sabermetrics kennen. Dat is het studiegebied dat Bill James ooit, via SABR, karakteriseerde als “de zoektocht naar objectieve kennis over honkbal.” Het is beter te omschrijven als het antwoord van het honkbal op de raketwetenschap. Het is een ingewikkelde materie.

Het is ons doel om het minder ingewikkeld te maken door drie onderwerpen zo eenvoudig mogelijk te bekijken: de beste manieren om slaan en werpen te evalueren, en wat te denken van ieders favoriete statistieken: WAR.

Als je me zo wilt volgen…

De beste manieren om slagmensen te evalueren

Hier kom je te weten hoeveel het seizoen 2013 van Josh Donaldson heeft geregeerd. Tony Gutierrez

Je ziet niet alleen gemiddelde, homeruns en RBI wanneer honkbaluitzendingen hitters introduceren.

Voor degenen die het niet weten, OPS is “on-base plus slugging,” oftewel het on-base percentage (OBP) van een slagman plus zijn slugging percentage (SLUG). Hoe ruw het ook is, het is een betere afspiegeling van het talent van een slagman dan het traditionele trio van gemiddelde, homeruns en RBI.

Hitters zijn er om punten te scoren. Punten scoren betekent op de honken komen en rond de honken gaan. Het eerste talent is samengevat in OBP. Omdat het meet hoe slagmensen hun kracht gebruiken om de honken te ronden, wordt het tweede talent gevat in SLUG.

Wat OPS echter mist, is context. Het geeft een goede momentopname van het talent van een slagman, maar het vertelt je niet hoe goed zijn talent is in vergelijking met dat van anderen.

Dat is waar OPS+ van pas komt.

Volgens Baseball-Reference.com – een site om te weten – neemt OPS+ de OPS van een slagman en past die aan voor twee dingen: competitiegemiddelde OBP- en SLUG-percentages en de thuisbasis van de slagman.

Alles komt uit op een schaal van 100, waarbij meer dan 100 staat voor een “bovengemiddelde” productie en minder dan 100 voor een “ondergemiddelde” productie.

Om het in actie te zien, laten we eens kijken naar de MVP-race in de National League in 1997 tussen Mike Piazza en Larry Walker:

Mike Piazza vs. Larry Walker in 1997
Speler AVG OBP SLG OPS OPS+
Piazza .362 .431 .638 1.070 185
Walker .366 .452 .720 1.172 178
Baseball-Reference.com

Met gemiddelde, OBP, slugging en OPS, was Walker de betere slagman. Dat hij de betere slagman was, hielp hem de MVP te winnen, want stemmers houden van slaan.

Maar als de stemmers naar OPS+ hadden gekeken, hadden ze misschien Piazza gekozen.

Het is niet moeilijk om de bron van OPS+’s conclusie te vinden. Terwijl Walker speelde in het slagveld-vriendelijke Coors Field, speelde Piazza in het pitcher-vriendelijke Dodger Stadium. Neutraliseer de twee thuisparken met behulp van OPS+, en Piazza had het indrukwekkendere seizoen.

Dat is hoe OPS+ kan worden gebruikt om hedendaagse slagmensen te vergelijken. Maar omdat OPS+ ook corrigeert voor competitiegemiddelde OBP en SLUG rates, is het ook goed voor het neutraliseren van verschillende run-scoring omgevingen.

Dus is het nuttig bij het vergelijken van spelers uit verschillende tijdperken.

We kunnen OPS+ gebruiken om te zien dat Miguel Cabrera’s productie in 2013, een extreem pitcher-vriendelijk seizoen, eigenlijk beter was dan die van Jason Giambi in 2000, een extreem hitter-vriendelijk seizoen:

Giambi

Miguel Cabrera’s 2013 vs. Jason Giambi’s 2000
Speler Jaar AVG OBP SLUG OPS OPS+
Cabrera 2013 .348 .442 .636 1.078 191
2000 .333 .476 .647 1.123 187
Baseball-Reference.com

Als je alleen maar een snelle momentopname wilt van het talent van een slagman, is OPS prima.

Maar als je echt nerdy wilt worden, is er een statistiek die het werk van OPS+ nog beter doet dan OPS+. Dat is gewogen runs created plus (wRC+).

Om deze te leren kennen, moet je echter eerst het gewogen on-base gemiddelde (wOBA) leren kennen.

Hoewel ik er over het algemeen tevreden mee ben, heeft OPS een fundamentele fout. Door ze simpelweg bij elkaar op te tellen, gaat het ervan uit dat OBP en SLUG gelijk zijn.

Per FanGraphs-een andere site om te weten- OBP is in feite ongeveer twee keer zo waardevol als SLUG. Dan is er nog de aanname van SLUG dat dubbelspel twee keer zoveel waard is als enkelspel, enzovoort. In werkelijkheid ligt het ingewikkelder dan dat.

Wat wOBA doet is corrigeren voor deze onvolkomenheden door aspecten van het slaan – onbedoelde vrije lopen, HBP’s, honkslagen, tweehonkslagen, driehonkslagen, homers – te wegen “in verhouding tot hun werkelijke puntwaarde.”

Er komt wat tovenarij kijken bij het bepalen van de “run value”, maar het basisconcept is dat elk van de bovengenoemde gebeurtenissen de scoringskansen van een ploeg in een bepaalde mate beïnvloedt. Het zijn deze specifieke graden die wOBA meeneemt en OPS niet.

Het is het beste om wOBA te zien als een meer accurate versie van OPS, wat gerelateerd is aan hoe wRC+ nauwkeuriger is dan OPS+.

Net als OPS+ werkt wRC+ op een boven-gemiddelde/onder-gemiddelde schaal van 100. Het verschil is dat wRC+ een soort kruising is tussen een rate stat en een counting stat, een stat die is ontworpen om de aanvallende waarde van een speler te bepalen door deze in punten te meten.

Het is ingewikkeld, maar het basisidee is om de wOBA van een speler te nemen, daar wat league- en parkaanpassingen en meer tovenarij aan toe te voegen om het om te zetten in hoeveel punten de wOBA van de speler in totaal waard is. Vervolgens wordt dat getal gedeeld door het league gemiddelde en vermenigvuldigd met 100 om tot wRC+ te komen.

Om het in actie te zien, laten we eens vergelijken wat Josh Donaldson en Robinson Cano deden in 2013:

Cano

Josh Donaldson vs. Robinson Cano in 2013
Speler PA AVG OBP SLG OPS wOBA wRC+
Donaldson 668 .301 .384 .499 .883 .384 148
681 .314 .383 .516 .899 .384 142
FanGraphs

Als we zouden stoppen bij OPS, zouden we Cano als de superieure slagman zien.

Maar wOBA is in het voordeel van het seizoen dat Donaldson had, en het is niet moeilijk om aan te geven waarom. Omdat wOBA geen rekening houdt met opzettelijke vrije lopen, kreeg hij een boost door 74 onopzettelijke vrije lopen te trekken tegen Cano’s 49.

Wat wRC+ wel doet is rekening houden met het feit dat Donaldson speelde in het werper-vriendelijke O.co Coliseum, terwijl Cano speelde in het slagman-vriendelijke Yankee Stadium. Het voordeel voor Donaldson helpt zijn superieure wRC+ te verklaren.

Hier aan het eind wil ik zeggen dat je prima weg kunt komen met het kennen van alleen OPS en OPS+. Maar als je je thuis wilt voelen tussen honkbalsupernerds, moet je wOBA en wRC+ kennen.

Nu dan, zullen we het eens over werpers hebben?

De beste manieren om werpers te evalueren

We zijn nog niet zo ver dat honkbaluitzendingen zo verlicht zijn met werpstatistieken als ze zouden moeten zijn. Het gaat nog steeds vooral om winst, verlies en ERA.

Ik ga ervan uit dat je al een beetje weet waarom winst en verlies onzin zijn. De ERA is gelukkig minder onzin.

Maar hij is nog verre van perfect.

Net als winst en verlies kan de ERA worden beïnvloed door zaken die buiten de macht van een werper liggen, met name het talentniveau van zijn verdediging. Zelfs als een verdediging niet veel fouten maakt, kan het nog steeds moeilijk zijn om geslagen ballen in outs om te zetten, wat de ERA van een werper kan schaden.

Daarom hebben we fielding independent pitching (FIP), expected fielding independent pitching (xFIP) en skill-interactive ERA (SIERA), die schatten wat de ERA van een werper zou moeten zijn op basis van de dingen die hij kan controleren.

FIP is de eenvoudigste van het stel, omdat het zich richt op slechts vier controleerbare uitkomsten: strikeouts, vrije lopen, HBP’s en homeruns. In deze gezinsvriendelijke video wordt uitgelegd waarom juist deze vier:

Eén bezwaar tegen FIP is dat pitchers maar zoveel controle hebben over homeruns, wat waar is.

Daar komt de xFIP van pas, want die vervangt het aantal homeruns van een werper door een schatting van het aantal homeruns dat hij had moeten toestaan. Dat wordt verkregen door het gemiddelde percentage homeruns tegen vrije ballen (HR/FB) te vermenigvuldigen met het percentage vrije ballen (FB%) van de werper.

Het volgende bezwaar is dat werpers enige controle moeten hebben over geslagen ballen. Meer in het bijzonder, omdat grondballen goed zijn, zouden werpers die er veel van krijgen niet beloond moeten worden?

Enter SIERA. Het richt zich op dezelfde dingen als FIP en xFIP, maar het probeert iets te maken van geslagen ballen.

Notably, Baseball Prospectus – nog een site die je moet kennen – zegt dat het herkent hoe “run prevention improves as ground ball rate increases.” Dat is logisch gezien het feit dat grondballen A) zelden extra honkslagen opleveren, B) gemakkelijk in outs worden omgezet en C) tot dubbelspelen leiden.

Laten we eens stilstaan bij de twee ERA-kampioenen van vorig jaar: Clayton Kershaw en Anibal Sanchez.

Clayton Kershaw vs. Anibal Sanchez in 2013, Deel I
Speler K/9 BB/9 HR/FB HBP GB% FB% ERA FIP xFIP SIERA
Kershaw 8.85 1.98 5.8 3 46.0 31.3 1.83 2.39 2.88 2.99
Sanchez 9.99 2.67 5.8 2 45.4 32.7 2.57 2.39 91 3.03
FanGraphs

Het lijkt belachelijk, maar je moet bedenken waar die stats naar kijken.

Bij de FIP gaat het om strikeouts, vrije lopen, homers en HBP’s. Kershaw had het laagste aantal vrije lopen, maar Sanchez had het hoogste aantal strikeouts. Elders is er geen groot verschil in het aantal slagmensen dat ze raken en geen verschil in hun HR/FB rates.

Bij xFIP gaat het om het neutraliseren van het aantal homeruns van een werper op basis van zijn FB%. Als je kijkt naar de FB% van beide werpers, zie je geen groot verschil. Dat van Kershaw was iets lager, vandaar de iets lagere xFIP.

Als het op SIERA aankomt, is het ground-ball percentage (GB%) de sleutel. Kershaw had slechts een bescheiden voordeel in GB%, wat zijn slechts bescheiden voordeel in SIERA helpt verklaren.

Dus als het niet hun werpen was, wat was dan het echte verschil tussen de twee?

Hoofdzakelijk was dat de verdediging.

Kershaw gooide tegen een enorm superieure verdediging, want volgens Baseball Prospectus stonden de Dodgers op nr. 9 in defensieve efficiëntie, die simpelweg meet hoe snel ballen in het spel worden omgezet in outs. Sanchez, in de tussentijd, gooide tegen de nr. 27 verdediging.

Eén vraag nog voordat we verder gaan: Wat kunnen we gebruiken om werpers uit verschillende parken en/of verschillende competities met elkaar te vergelijken?

Op z’n minst is er ERA+. Dat doet hetzelfde als OPS+ doet voor OPS, in die zin dat het ERA aanpast voor competities en parken. Nogmaals, alles boven de 100 is bovengemiddeld en minder dan 100 is ondergemiddeld.

Als we deze stat gebruiken, kunnen we zien dat Kershaw’s 1.83 ERA uit 2013 lachwekkend inferieur is aan Pedro Martinez’s 1.74 ERA uit 2000:

Clayton Kershaw’s 2013 vs. Pedro Martinez’s 2000
Speler Jaar ERA ERA+
Martinez 2000 1.74 291
Kershaw 2013 1.83 196
Baseball-Reference.com

Met betrekking tot de ERA-schatters is een ander goed punt van SIERA dat het standaard is aangepast aan de competitie en het park. FIP en xFIP zijn dat niet, en daarom bestaan FIP- en xFIP-.

Net als ERA+, werken FIP- en xFIP- op een schaal van 100. Het verschil is dat, zoals de min aangeeft, alles onder de 100 bovengemiddeld is en alles erboven ondergemiddeld.

Laten we deze twee statistieken eens toepassen op Kershaw en Sanchez.

Clayton Kershaw vs. Anibal Sanchez in 2013, Deel II
Speler FIP- xFIP-
Kershaw 66 76
Sanchez 59 74
FanGraphs

Hier ligt het voordeel bij Sanchez in beide categorieën. Dit komt doordat, volgens de parkfactoren van FanGraphs, Comerica Park een minder vriendelijke werpomgeving was dan Dodger Stadium.

Dus ja. Je kunt niet alleen stellen dat Sanchez Kershaw’s gelijke was in 2013, je kunt ook stellen dat hij zelfs beter was. Want sabermetrics!

(Disclaimer: vat dit alles niet op alsof ik anti-Kershaw ben. Ik vind hem eigenlijk heel aardig.)

Op dit punt zou je je behoorlijk nerdy moeten voelen. De volgende keer dat je met je vrienden naar het stadion gaat, kun je ze imponeren/verbijsteren met niet alleen OPS+, wOBA en wRC+, maar ook FIP, xFIP, SIERA, ERA, FIP- en xFIP-.

Maar je moet ook over WAR kunnen praten.

…En dat is niet eenvoudig.

Wat te maken van WAR

Dit is geen foto van Mike Trout. Carlos Osorio

Als je het MVP-debat in de American League 2012 hebt gemist, WAR staat voor wins above replacement en is een geweldig concept.

In de woorden van FanGraphs probeert WAR “de totale bijdrage van een speler aan zijn team in één statistiek samen te vatten.” Het doet dat door te kwantificeren hoeveel meer overwinningen een team heeft behaald met een speler dan met een vervanger, zoals een bankzitter of een speler uit de minor league.

Voor werpers komt het vinden van WAR vooral neer op geplaatste innings en toegestane punten. Het innings-gedeelte is gemakkelijk, maar het uitrekenen van het aantal toegestane punten is een kwestie van voorkeur. Baseball-Reference.com kijkt naar het totaal aantal toegestane runs, terwijl FanGraphs de FIP als basis gebruikt.

Als zodanig gaat FanGraphs WAR (fWAR) meer over hypothetische toegestane runs en dus over hypothetische waarde. Baseball-Reference.com WAR (rWAR) daarentegen gaat meer over de werkelijke waarde.

Hoe dan ook, persoonlijk denk ik dat WAR prima werkt voor werpers. Door zich primair te richten op geplaatste innings en toegestane punten, komt de waarde van een werper voor zijn team beter uit de verf dan zijn record doet.

Ik vind het ook goed dat het belang van innings niet wordt gebagatelliseerd. Het waardeert terecht starters boven relievers, en het kan ook innings-vreters de eer geven die ze verdienen.

De strijd tussen Justin Verlander en David Price voor de 2012 AL Cy Young is een goed voorbeeld:

Justin Verlander vs. David Price in 2012
Speler IP Toegestane punten ERA rWAR FIP fWAR
Verlander 238.1 81 2.64 7.8 2.94 7.0
Price 211.0 63 2.56 6.9 3.05 4.8
Baseball-Reference.com en FanGraphs

Verlanders voordeel in gegooide innings was aanzienlijk groter dan Price’s voordeel in toegestane runs, en hun ERA’s en FIP’s waren ruwweg gelijk. Verlander deed in feite wat Price deed over meer innings. Weer een geval van kiezersbedrog.

Dat is mijn kijk op WAR voor werpers: Het is zo simpel als het effectief is. Je moet goed bedenken aan welke WAR je de voorkeur geeft, maar je moet je vrij voelen om WAR te gebruiken als je het over werpers hebt.

Bij positiespelers is voorzichtigheid echter geboden.

In theorie is WAR zelfs nog idealer voor positiespelers dan voor werpers. Terwijl slaan, honklopen en veldspel voor werpers bijzaak zijn, moeten slagmensen ze alle drie doen. Omdat WAR probeert te bepalen hoeveel punten slagmensen produceren met hun slag en honklopen, en hoeveel ze er wegnemen met hun verdediging, zou het de perfecte statistiek voor hen moeten zijn.

Dat is het niet. Niet helemaal, in ieder geval.

Het slag- en honkloopgedeelte van WAR zijn solide. Zowel Baseball-Reference.com als FanGraphs gebruiken wOBA als basis voor de slagwaarde, en een systeem van credits en debits voor specifieke plays-stolen bases, caught-stealings, first-to-thirds, tag-ups, outs on the bases etc.- voor de honkloopwaarde.

Maar verdedigen? Dat is het lastige deel.

Om te beginnen baseren Baseball-Reference.com en FanGraphs het verdedigingsgedeelte van hun WAR-berekeningen op verschillende metrieken. Baseball-Reference.com gebruikt defensive runs saved (DRS). FanGraphs gebruikt ultimate zone rating (UZR).

Hoe deze twee statistieken werken is meer dan ingewikkeld, maar Fox Sports’ Gabe Kapler vatte DRS hier goed samen:

UZR werkt op een vergelijkbare manier, en zowel UZR als DRS proberen uiteindelijk hetzelfde te berekenen: hoeveel “runs” boven of onder het gemiddelde een speler is in de verdediging.

Maar omdat je twee verschillende systemen hebt, heb je de mogelijkheid op twee verschillende uitkomsten. En dat gebeurt vaak. Het komt zelden voor dat de DRS en de UZR van een speler precies hetzelfde zijn, wat betekent dat de rWAR en de fWAR van een speler ook precies hetzelfde zullen zijn.

Dan zijn er de momenten waarop de twee systemen het volledig oneens zijn, zoals bij Jhonny Peralta in 2012:

Jhonny Peralta’s verdediging en WAR in 2012
DRS rWAR UZR fWAR
1 1.1 11.5 2.5
Baseball-Reference.com en FanGraphs

DRS had Peralta als een ondergemiddelde verdedigende korte stop, wat van invloed was op zijn rWAR die uitkwam op slechts 1,1. UZR had hem echter als een bovengemiddelde verdediger, wat zijn fWAR beïnvloedde tot 2.5.

Peralta’s situatie laat niet alleen zien hoe rWAR en fWAR het vaak oneens zijn, maar ook hoe de DRS en UZR systemen zelf onvolmaakt zijn. Hoe zorgvuldig ze ook zijn gemaakt, ze zijn subjectief – zeker subjectiever dan de andere statistieken die bij de berekening van WAR worden gebruikt, en dat is een probleem.

Dit betekent niet dat WAR totaal ongeldig is als maatstaf voor positiespelers. Het betekent alleen dat WAR niet het begin en het einde van debatten kan zijn. Het moet deel uitmaken van een argument, niet het argument zijn.

Ik denk dat dit het teken is om het voor gezien te houden. Ervan uitgaande dat ik mijn werk heb gedaan en jij hebt opgelet, ben je nu een grotere honkbal nerd dan voorheen. Gefeliciteerd.

Eén waarschuwing, echter. Dit kan je nu gaan overkomen:

Alleen een waarschuwing.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *