Az ARM, az Intel és az Nvidia a napokban egy közös közleményben tudatták a világgal, hogy egy új, egységes lebegőpontos számformátumot vezetnek be. Eddig ugyanis hivatalos szabvány csak a 16-, 32- és 64-bites ábrázolását fedte le ezeknek a számoknak, mostantól azonban a 8-bites pontosságban történő ábrázolásra is lesz platformok között hordozható mód.

Az ilyen kis pontosságú formátumoknak a legtöbb hagyományos alkalmazás esetében nincs sok haszna, ugyanakkor bizonyos új típusú felhasználásokban komoly előnyt jelenthet majd. Ezek közé tartoznak a mesterséges intelligencia alkalmazások is, ahol a neurális hálózatok építésében jelentős memóriamegtakarítást és számítási hatékonyságnövelésre adnak majd módot.

Az új FP8 ábrázolási mód egyébként valójában két alformátumot (kódolást) foglal magában. Az E5M2 ötbites exponenciális és kétbites mantissza-értékek ábrázolása képes, és közvetlenül, egyszerű csonkolással képezhető a szabványos, 16-bites IEEE FP16 formátumú ábrázolásokból. Ezzel szemben az E4M3 négy bitre csökkenti az exponenciális ábrázolására fenntartott helyett, de cserébe három bitet hagy a mantissza leképezésére.

Az új, egységes 8-bites lebegőpontos ábrázolási formátumról további részleteket itt lehet olvasni.