Mandelbrot集合描画支援ハードウェア [ Pyxis ]

４.　機能ブロックの解説

表紙
目次

１．　製作の目的
１．１　対象
１．２　問題点
１．３　解決法
１．４　略記号について

２．　システム概要
２．１　設計方針
２．２　システム的機能
２．３　動作の概要

３．　システム設計
３．１　演算フローの検討
３．２　数値のデータ表現
３．３　式(1-5)の判定法

４．　機能ブロックの解説
４．１　システムブロック
４．２　加算・減算回路
４．３　乗算回路
４．４　Ox：C_x生成回路
４．５　Oy：C_y生成回路
４．６　Xx：Z_x²－Z_y²＋C_x演算回路
４．７　Yy：２Z_xZ_y＋C_ｙ演算回路
４．８　Rr：Z_x²＋Z_y²演算回路
４．９　Cn：制御回路
４．10　回路図の構成

５．　タイミング設計
５．１　タイムチャートの表記法
５．２　タイムチャート

６．　使用部品

 ７．　実装設計
７．１　基板
７．２　レイアウト

８．　製作

 ９．　ハンドリングソフトウェア

 10．　結果
10．１　実行時間
10．２　設計目標との対比

11．　終わりに

付録１　制御信号と出力条件
付録２　タイムチャート
付録３　部品表
付録４　部品レイアウト図 (約240KB)
付録５　回路階層と機能説明
付録６　全回路図 (約1.7MB)

４.１　システムブロック

　Pyxisの全回路は４つの階層に分けられた機能ブロックの集合体として構成されています．この階層構造については後述しますが，まず第１階層は次の６つの機能ブロックで構成されています．
　(a)Ｃ_ｘ生成回路　・・・・・・・・・・・・・・・・・・・Ｏx
　(b)Ｃ_ｙ生成回路　・・・・・・・・・・・・・・・・・・・Ｏy
　(c)Ｚ_ｘ^２－Ｚ_ｙ^２＋Ｃ_ｘ演算回路　・・・・・・・Ｘx
　(d)２Ｚ_ｘＺ_ｙ＋Ｃ_ｙ演算回路　・・・・・・・・・Ｙy
　(e)Ｚ_ｘ^２＋Ｚ_ｙ^２演算回路　・・・・・・・・・・・・Ｒr
　(f)制御回路　・・・・・・・・・・・・・・・・・・・・・・Ｃn
以後これらの部分を適宜右の２文字の略語で表します．
　Ｏx,Ｏyは各ピクセルに対応するＣｘ,Ｃｙを生成します．Ｘx,Ｙy,Ｒrは各ピクセルについて式(1-1)の反復演算を行う部分です．それぞれ，式(3-1a),式(3-1b),式(3-1c)を演算します．Ｃnはホストインターフェースを含む全体制御回路です．
　図４-１にPyxisのブロックダイヤグラムを示します．この図には，第２階層までが表現されています．制御回路部を除けば，図３-１の演算フローに忠実な構成になっています．

　以降で，このシステムブロックを構成している各機能ブロックを説明していきますが，個別の説明に入る前に，まず演算回路部(a)～(e)に共通の基本要素である"加算・減算回路"と"乗算回路"について説明します．

fig4-1

［図４-１］全体ブロック図

４.２　加算・減算回路

(1)状況の有効利用
　パイプライン化により，加減算部でも乗算部と同じ演算時間を使うことができます．視点を変えて，これを有効に使えば，ハードウエアの規模を小さく押さえることができます．乗算より加減算の方が所要時間は短く，処理も少ないですから，許される時間内に演算が終わる程度のハードウエアを用意すれば十分です．

(2)アルゴリズム：加算回路
　図４-２にPyxisの加算回路を示します．64ビットデータを８ビット毎８回に分けて，LSB側よりこの回路に通します．毎回の桁上げは，桁上げ保存レジスタCSRに保存され，次回にキャリー入力として加算されるようにします．これにより，64ビット分の加算器を８ビット分のハードウエアで実現できます．もちろんこの回路のためには，64ビットデータを８ビット毎にマルチプレクスして出力し結果をロードする回路がこのほかに必要となります．がPyxisではパイプライン化のためのステージ間レジスタがいずれにしても必要ですので，それにこの機能をあわせ持たせてあります．

fig4-2

［図４-２］加算回路

(3)減算回路
　また，この回路構成は簡単に減算回路にも対応できます．第２オペランド側の入力をビット反転し，CSRの初期値を１にします．これで２の補数となりますので，後は加算器と同様です（図４-３）．
　このように，加減算回路においては許容された時間を有効に利用することと，桁上げ保存を応用することで，ハードウエアの規模を大幅に縮小しています．

fig4-3

［図４-３］減算回路

４.３　乗算回路

(1)アルゴリズム
　乗算には種々の方法がありますが，Pyxisでは２次のBoothアルゴリズムを利用しました．
　このアルゴリズムを用いると，64ビットの固定小数点数を，ビット数の1/2の32クロックで，しかも２の補数表現のまま演算できることが大きな特長です．他の方法，例えば単純なシフト加算方式では処理に64クロックを必要とすることに加え，乗算器の入力を予め正数にしておく必要があります．またその際，符号は別に処理しなければなりません．加減算を含む各演算回路のデータ表現を統一することはシステム的に非常に有効です．そのためにも，乗算にBoothのアルゴリズムを使うことはこの場合最適といえます．

fig4-4

［図４-４］２次のBoothアルゴリズム

(2)構成と動作
(a)被乗数，乗数レジスタ
　乗算回路の基本ブロック図を図４-５に示します．
　被乗数レジスタは64ビットパラレル出力です．
　乗数はシフトレジスタにロードされますが，これは２次Boothのため２ビットずつシフトする必要があります．そこで半分のサイズのシフトレジスタを２系列用意し，偶数番ビットと奇数番ビットを分けてそれぞれロード／シフトしています．そしてそのシフト出力（LSB側）の３ビットを乗数側データとして２次Booth乗算器に送っています．

fig4-5

［図４-５］乗算回路のブロック図

　この両レジスタは，パイプラインのステージ間レジスタとしても機能しています．レジスタの入力側は加減算部（具体的には前項の加算・減算回路）と接続されており，そこからの出力は64ビットのLSB側より８ビットずつ８回に分けて送られてきます．乗数シフトレジスタは乗算処理の進行によりMSB側から空いてきます．この空きが８ビットになる瞬間に，加算・減算回路からの８ビット出力がそこへロードされるタイミング構成になっています．結果，例えばＰ_Ｅの乗算処理が終了した時点では，この乗数シフトレジスタにはＰ_Ｄのデータがすでに64ビット分ロードされていることになります．そして同時に，この最後の８ビットロードのタイミングで，乗数シフトレジスタにロード済みの56ビットとこの最後の８ビットを合わせて被乗数レジスタへロードし，被乗数を更新しています．

(b)２次Booth乗算器
　２次Booth乗算器の実現には，LS261を用いています．これにより，図４-４にある被乗数64ビット×乗数２ビット（±２,±１,０）の部分積が得られます．
ただし，生成される部分積がＭ×(－２,－１)の場合のLS261からの出力は１の補数でしかないことに注意します．図４-５の中に "２の補数用１生成回路" がありますが，ここで２の補数にするための１を生成しています．

(c)高速部分積加算
　次にこの部分積を加算します．部分積レジスタはクロック０でクリアされ，以後クロック31まで部分積加算器の出力をクロック毎に一時的に保存します．以後，この部分積加算クロックをCK_ＰＡと表記します．
　部分積加算器はLS283を17個使った68ビット加算回路ですが，このキャリーを１クロック中ですべて伝搬させると非常に時間を消費してしまいます．そこで，ここでも桁上げ保存を応用しています．これにより64ビット加算でありながら，キャリー伝搬のための無駄な時間を完全に排除しています．
　図４-６に，乗算回路の動作を示します．この図を用いて，部分積加算における桁上げの高速処理を説明します．

［図４-６］乗算回路の動作－高速部分積加算

　例として，部分積の中のLS283１個分（Ｐ５６～Ｐ５９：図中*1）の，CK_ＰＡ＝１での動きで説明します．
　４ビット全加算器LS283の入力には，それぞれ
・A4～A1：部分積レジスタの出力Ｑ５４～Ｑ５７
・B4～B1：LS261から出力された部分積Ｐ５６～Ｐ５９
・C0(桁上げ入力)：Ｃ２７の出力(現在初期化により０）
が入力され，その出力としてＱ５６～Ｑ５９が得られています．この出力は次のCK_ＰＡ＝２の開始タイミングで，部分積レジスタのＱ５８～Ｑ６１として２ビットずらしてロードされます．
　これと同時に，LS283の桁上げ先見出力C4は，桁上げ保存シフトレジスタのＣ２６にロードされます．そしてこのＣ２６の内容は，次の次の加算クロックCK_ＰＡ＝３の開始タイミングでＣ２７にシフトされ，その出力が桁上げとして加算されます．
　LS283が４ビットの加算器であることと，乗数のシフトが２ビットずつであることから，保存された桁上げは本来の位取り位置に合わせるため２つ後の加算クロックにて処理しています．
　少しややこしい処理ですが，桁上げを伝搬させないので高速な部分積加算が実現できます．このほかの動作は，図中の説明を参照してください．

(d)乗算結果レジスタ・残留桁上げレジスタ
　乗算結果レジスタは64ビットパラレル入力のレジスタです．これにはCK_ＰＡ＝31の部分積加算器の出力が，次のCK_ＰＡ＝０の開始タイミングでロードされます．これが乗算結果ですが，一部の桁上げが桁上げ保存シフトレジスタに残っていますので，これも同時に残留桁上げレジスタ（32ビットパラレル入力）にロードします．そしてパイプラインの加減算部の先頭でこの両者を加算し，最終的な乗算結果を得ています．
　この両レジスタは，乗数・被乗数レジスタ同様パイプラインのステージ間レジスタとしても機能しています．両レジスタの出力側がそれぞれ８ビットのバス接続になっており，64ビットを８ビットずつ８回に分けて，時分割で加減算部へ送っています．

　乗算回路の速度は，Pyxisの性能を左右する重要な要素です．以上説明したように，２次Boothアルゴリズムを用いることで，２の補数64ビット同士の乗算を32回の部分積加算で実行します．また桁上げ保存の応用により，64ビットの部分積加算を行いながらも高速な動作が可能です．
　実際の動作は，LSTTLベースの設計ながら，部分積加算クロックは12.5MHzです．基本的にはシフト加算方式ですが，64×64ビットを2.56μsecで演算しています．
　このほか，パイプラインステージ間レジスタと，乗数・被乗数・乗算結果・残留桁上げの各レジスタを共用しています．さらにそれらへのロード／ストアを部分積加算クロックと同一タイミングで実行しています．データ転送のための無駄なクロックタイミングがないので，すべてのクロックに対して演算回路は100％の効率で動作します．

○次の項から，各機能ブロックの説明に入ります．その中で出てくる演算回路は，基本的に前述の加算・減算・乗算回路です．その組み合わせにより，大きな機能ブロックが構成されています．

４.４　Ｏx:Ｃ_ｘ生成回路

　ここは，式(1-4)の０からＸ_ＭＡＸ-1までの各ｘに対応するＣ_ｘを，処理の進行に合わせて生成する部分です．
　Ｏxのブロック図を図４-７に示します．
　Org,Tmp,Stpはトライステート出力の64ビットレジスタで，出力は８ビット幅のバス構造になっています．これは４.２の加算回路構成であるOx-Add及びＸxの加減算部への対応のため，８ビットずつ，８回に分けた時分割出力としています．
　さて式(1-4)の乗算項は，もちろん乗算する必要はありません．x＝0に対応するOrgを初期値として，これにStpを加算し，結果をＸxの加減算部へ送ると同時にTmpへ保存します．このTmpとStpの加算と保存をｘの１増加毎に行うことでＣ_ｘを生成します．
　これがＣ_ｘ生成法の基本ですが，パイプラインへの対応のためもう一工夫します．
　Andは８個のAndゲートで構成されており，８ビットデータ(Ｓ)をそのまま通過させるか(×1)，または出力を０とするか(×0)を制御するためのゲートです．
　Ｘxの加減算部には，反復演算によりＰ_ＥとＰ_Ｄのデータが交互に回ってきますので，Ｃ_ｘの値もそれに同期して交互に生成する必要があります．このため，まずTmpにはＰ_Ｅに対応するＣ_ｘだけが保存されるようにします．そしてStpは常時出力しておき，Andの制御により０を加算するかＳを加算するかを切り替えます．

exp4-a

　この間，Tmpは変更されません．
　そしてピクセルペアの処理終了時に，TmpにＳを２回加算します．反復終了時のＰ_Ｄに対応する出力Ｃ_ｘ＋ＳをTmpに保存し，さらに続いて開始される次のピクセルペアの処理の第１サイクルでAndを１にすると同時に出力をTmpにロードします．これで，次のピクセルペアに対するTmpが準備されます．

fig4-7

［図４-７］Ｏxのブロック図

４.５　Ｏy:Ｃ_ｙ生成回路

　ここは，式(1-4)の０からＹ_ＭＡＸ-1までの各ｙに対応するＣ_ｙを，処理の進行に合わせて生成する部分です．
　ここの動作はＯxと同様ですが，パイプラインに関する処理が不要なのでその機能はありません．単純にｙの１増加毎にStpとTmpの加算と保存を行って，Ｃ_ｙを更新しています．
　Ｏyのブロック図を図４-８に示します．

［図４-８］Ｏyのブロック図

４.６　Ｘx:Ｚ_ｘ^２－Ｚ_ｙ^２＋Ｃ_ｘ演算回路

　ここには，Ｚ_ｘの２乗のための乗算回路と，Ｚ_ｘ^２－Ｚ_ｙ^２＋Ｃ_ｘのための加減算回路があります．また，２乗の前の式(3-3)のチェックがあります．
　ブロック図を図４-９に示します．

［図４-９］Ｘxのブロック図

４.７　Ｙy:２Ｚ_ｘＺ_ｙ＋Ｃ_ｙ演算回路

　ここには，Ｚ_ｘＺ_ｙのための乗算回路と，２Ｚ_ｘ^２Ｚ_ｙ^２＋Ｃ_ｙのための加減算回路があります．またＸx同様，２乗の前の式(3-4)のチェックがあります．
　ブロック図を図４-10に示します．

［図４-10］Ｙyのブロック図

４.８　Ｒr:Ｚ_ｘ^２＋Ｚ_ｙ^２演算回路

　ここには，Ｚ_ｙの２乗のための乗算回路と，Ｚ_ｘ^２＋Ｚ_ｙ^２のための加減算回路があります．また，式(3-2)のチェックがあります．
　ブロック図を図４-11に示します．
　ここには乗数，被乗数レジスタはありません．
Ｘx,Ｙy内のレジスタ出力を同時に利用する事で，無駄な回路を省いています．

［図４-11］Ｒrのブロック図

４.９　Ｃn:制御回路

　ＣnはPyxis各部の制御信号すべてを生成している部分で，次の３部分より構成されています．
　・Cn-Cpu：ホストインターフェース
　・Cn-Cnt：制御信号生成用同期カウンタ
　・Cn-Gen：制御信号生成回路

(1)Cn-Cpu：ホストインターフェース
　２.２での説明の通り，Pyxisは８ビットCPUバスに接続され，単純なI/Oとして動作します．表４-１に，内部レジスタの一覧を示します．これら内部レジスタへのインターフェース回路，アドレスデコーダなどが主な内容です．
　なお，Ｘ_ＭＡＸ,Ｙ_ＭＡＸは特に変更する必要性を感じなかったので内部で固定されており，それぞれ400,320です．

(2)Cn-Cnt：制御信号生成用同期カウンタ
　ここは，制御信号を生成するために必要となる，内部状態をカウントする同期カウンタ部です．
　機能上これは４つに分けられており，分周比の小さい方から，
(a)パイプライン１段の中の処理クロックである，
　部分積加算クロックカウンタ（５ビット）と，
　ピクセルペア区別用カウンタ（１ビット）
(b)式(1-1)の反復回数カウンタ（20ビット）
(c)ｘカウンタ（12ビット）
(d)ｙカウンタ（12ビット）
です．
　しかし回路構成上では，この４つはシーケンシャルに接続された52ビットの完全同期カウンタになっており，12.5MHzの共通クロックで動作します．
　通常の回路構成ではこのビット数を12.5MHzでカウントすることはできませんので，ちょっと凝った回路にしてみました．カウンタICに非同期キャリー出力のLS161を13個使用し，それ１個にANDゲートを２個ずつ付加して桁上げ先見しています．これにより飛躍的にクロックレートを上げることができます．
　原理は簡単ですので説明は省略します．回路図を参照してください．

(3)Cn-Gen：制御信号生成回路
　ここは，次の３つの部分で構成されています．
(a)Cn-Gen-Gn1～4：制御信号生成回路
(b)Cn-Gen-Syn：パイプライン制御回路
(c)Cn-Gen-Cnr：演算結果レジスタ

(a)Cn-Gen-Gn1～4：制御信号生成回路
　前項のCn-Cntの出力を受けて，Pyxis各部の状態を制御する信号を生成，出力する部分です．設計当時の資料ですが，この制御信号と出力条件の一覧を付録１に示します．

(b)Cn-Gen-Syn：パイプライン制御回路
　主に，２.３で説明した反復演算の終了処理に関する部分です．正直言って，ここの動作は複雑すぎて簡単に説明できません．この反復演算の終了シーケンスには10通りの場合があり（CPUの読み出しが遅い場合の一時停止の有無や，式(1-5)判定回路３つからの信号のパターン，Ｐ_Ｅが先に終了，Ｐ_Ｄが先に終了・・・の組み合わせ），そのそれぞれについての動作があります．設計時にも，動作，タイミングの検証にずいぶん時間がかかりました．

(c)Cn-Gen-Cnr：演算結果レジスタ
　ピクセルペアＰ_Ｅ,Ｐ_Ｄのそれぞれに対する演算結果がストアされるレジスタです．ホストの処理を軽減するため，反復がＮ_ＭＡＸ回行われたかどうかを示す１ビットのフラグMAXCNTが，結果のMSBにアサインされています．

<入力>	I/Oアドレス
リセットレジスタ(ビット０のみ有効:１でリセット)	080H
描画対象領域実軸原点ａ１レジスタ(８バイト)	0B0H～0B7H
描画対象領域虚軸原点ｂ１レジスタ(８バイト)	0A0H～0A7H
Ｃｘ,Ｃｙ生成用ステップＳレジスタ(８バイト)	0A8H～0AFH
最大反復回数ＮＭＡＸレジスタ(２バイト)	088H,090H
<出力>	I/Oアドレス
結果レジスタＬＥ(２バイト)	09AH～09BH
結果レジスタＬＤ(２バイト)	09DH～09EH
演算終了ステータスレジスタ(ビット０のみ有効:１で終了)	098H
［表４-１］内部レジスタ

４.10　回路図の構成

　Pyxisの回路図はOrCADの階層構造を使ってかかれており，４階層全67枚で構成されています．１枚１枚がそれぞれ機能ブロックになっており，図面番号がその機能ブロックの内容を表現しています．

○図面番号の付け方
・図面番号はファイル名と共通で，最大８文字．
・第１階層は１枚のみで，図面番号は［Pyxis］．
・第２階層以下は，機能ブロックの名称を次のように付ける．
　　　図面番号＝［２２３３３４４４］．
第２階層は２文字で，Ｏx,Ｏy,Ｘx,Ｙy,Ｒr,Ｃnのいづれか．
第３階層は３文字で，所属する第２階層名称の後に付加する．第４階層も同様．

　ここまでの説明の中で出てきた各機能ブロックの名称はこのような形で図面番号と対応しており，それぞれ階層と機能がわかるようになっています．
　付録５に回路図の階層情報を示します．
　付録６にPyxisの全回路図を示します．

４.１ システムブロック

４.２ 加算・減算回路

４.３ 乗算回路

４.４ Ｏx:Ｃｘ生成回路

４.５ Ｏy:Ｃｙ生成回路

４.６ Ｘx:Ｚｘ２－Ｚｙ２＋Ｃｘ演算回路

４.７ Ｙy:２ＺｘＺｙ＋Ｃｙ演算回路

４.８ Ｒr:Ｚｘ２＋Ｚｙ２演算回路

４.９ Ｃn:制御回路

４.10 回路図の構成