Bfloat16
Gleitkommaformat, gekürztes FP32 mit 7 Bit für die Mantisse
From Wikipedia, the free encyclopedia
bfloat16 (brain floating point with 16 bits) ist die Bezeichnung für ein Gleitkommaformat in Computersystemen. Es handelt sich um ein binäres Datenformat mit einem Bit für das Vorzeichen, 8 Bits für den Exponenten und 7 Bits für die Mantisse. Es handelt sich also um eine in der Mantisse gekürzte Version des halbgenauen IEEE 754 Datentyps.

bfloat16 wird insbesondere in Systemen für maschinelles Lernen eingesetzt, wie beispielsweise TPUs[1][2][3], sowie bestimmten Intel-Xeon-Prozessoren und Intel FPGAs.[4][5][6]