2命令を同時に実行できるスーパースケーラ設計だが、アウト・オブ・オーダー実行はできない。整数演算命令1個と浮動小数点演算命令1個を同時に発行できる。整数演算命令用の単純な命令パイプラインが1つと浮動小数点演算用パイプラインが1つしかなく、トランジスタ数を削減してチップサイズとコストを低減していた。動的な分岐予測機能もコスト低減のため実装していない。代わりにコンパイラが静的に分岐が起きそうかどうかを判断し、 MIPS II ISA で導入された branch likely 命令を適宜使用するものとした。
QEDの設計は大きな一次キャッシュと単純なCPU設計を特徴とし、R5000にも大きな一次キャッシュを搭載している。R5000の一次キャッシュは命令用とデータ用それぞれに32KBである。2ウェイセットアソシアティブ方式で、ラインサイズは32バイト、仮想インデックス・物理タグ方式である。命令は一次キャッシュにロードされる際に一部デコードされ、命令毎に4ビットのデコード情報がキャッシュに付随して格納される。この4ビットは命令が前後の命令と同時に発行可能か、どの演算ユニットを使用するかを表している。スーパースケーラの命令発行機構がこの情報を使用する。
整数演算ユニットは大部分の命令を1サイクルのレイテンシとスループットで実行できるが、乗算と除算だけは例外である。32ビットの乗算はレイテンシが5サイクルでスループットが4サイクルとなっている。64ビットの乗算はレイテンシがさらに4サイクルかかり(合計9サイクル)、スループットも半分(8サイクル)となる。除算は32ビット整数では36サイクルのレイテンシとスループットで、64ビット整数ではそれらが68サイクルとなる。
FPUは32ビット単精度を高速化した設計である。これはコストを抑えつつ、3次元グラフィックスで多用される単精度浮動小数点演算性能を高くしてほしいというSGIの要望に応えたものだった。完全にパイプライン化されており、R4700より遥かに高性能になっている。MIPS IV ISA の積和演算命令を実装している。単精度の加算・乗算・積和演算はレイテンシが4サイクルでスループットは1サイクルとなっている。単精度の除算はレイテンシが21サイクルでスループットが19サイクル、平方根はレイテンシが26サイクルでスループットが38サイクルである。除算と平方根はパイプライン化されていない。倍精度の演算命令はレイテンシが極端に大きく、加算以外のスループットも小さい(加算だけは単精度と同じレイテンシとスループットである)。倍精度の乗算と積和演算はレイテンシが5サイクルでスループットが2サイクルである。除算はレイテンシが36サイクルでスループットが34サイクル、平方根はレイテンシが68サイクルでスループットが66サイクルとなっている。
R5000は二次キャッシュの制御部を内蔵しており、512KB、1KB、2MB の二次キャッシュを制御可能。二次キャッシュには専用の同期SRAM (SSRAM) を使用する。システムバスはR4000などと同様のSysADバスを採用している。アドレスバスとデータバスを多重化したバスで、動作周波数は最大100MHzである。当初R5000はマルチプロセッシングをサポートしていなかったが、将来のサポートに備えてパッケージではそのためのピンが予約されていた。
QEDはファブレス企業なので、自前では製造しなかった。R5000を製造したのは、IDT、NEC、NKK である。3社はいずれも0.35μmのCMOSプロセスで製造したが、それぞれのプロセスには差異がある。IDTは2層のポリシリコンと3層のアルミニウム配線を採用。2層ポリシリコンを使うことで、4トランジスタのSRAMセルを実装でき、トランジスタ数を360万個、チップサイズを8.7mm×9.7mm (84.39 mm2) とした。NECとNKKは1層のポリシリコンと3層のアルミニウム配線を採用。ポリシリコンが1層であるため、SRAMセルに6個のトランジスタを必要とし、トランジスタ数は500万個、チップサイズも約 87 mm2 と大きくなった。チップサイズを80から90mm2にすることはMTIからの要請だった。キャッシュを除いたトランジスタ数はどちらも80万個ほどで、残りは全てキャッシュ用である。パッケージは272ピンのBGA (ball grid array) と272ピンのPGA (pin grid array) がある。従来のMIPSアーキテクチャのマイクロプロセッサ群とはピン互換性はない。