تعرف معنا على وحدة المعالج المسرع Kaveri من AMD

تكنولوجى


جميعنا كنا ننتظر الجيل الجديد من سلسلة وحدة المعالج المسرع من AMD والكثير منا كان عاقدا امل كبير على هذا الجيل الجديد الذي يحمل اسم Kaveri وذلك بسبب التصميم الجديد الذي يتمتع به بالإضافة الى التقنيات الجديدة التي دخلت في التصميم مما جعله على الورق يقدم لنا تطورا مهما ومميز, ولكن هل فعلا على الأرض قدم ما كانت امالنا تطمح له؟ ذلك ما سوف نعرفه في هذا المقال الذي نتحدث فيه عن امور تقنية بحته في تفصيل الجيل الجديد وحدة المعالج المسرع Kaveri.

ماذا نتوقع من معالجات Kaveri؟

ان نواة x86 المستندة على معمارية Steamroller يمنحنا نظرة متفائلة على قدرة المعالج الجديد. كما انها المرة الأولى التي نجد فيها دمج معمارية Graphics Core Next للمعالج الرسومي من شركة AMD نحو معالجات APU. والحق يقال ان AMD قامت بعدد هائل من الخطوات لإتاحة مزايا معمارية نظام غير متجانس من أجل تفاعل أفضل بين موارد الحوسبة ومطوري البرامج. ولقد اتت لنا عائلة هذه المعالجات بدقة تصنيع 28nm التي صنعت من مصنع GlobalFoundries.

جميعنا يعلم ان الفئة الأعلى كانت تحمل اسم A10-7850K التي تستهلك 95W، ولكن يقال ان الجوهر الحقيقي من وراء معالجات Kaveri هو في قطاعات الطاقة الأقل. ما كشف عنه وما اصبحنا نعرفه بعد الإطلاق رسميا لتلك المعالجات ان مهندسوا AMD صمموا تلك المعالجات ايضا بين نطاق الـ35-45 واط، متدرجين بقدر ارتفاع 95 وبقدر انخفاض 15 واط. والسبب وراء ذلك التنوع في تشكيلة المعالجات هو ان شركة AMD تريد ان تشاهد معالجات APU في الحواسب المكتبية، المحمولة والبيئات المدمجة، السيرفرات. لذلك، قامت بطرح تشكيلة مختلفة الإستهلاك كي تستطيع التحسين بشكل أفضل نحو تلك الأهداف. كان أيضا على شركة AMD أن تقوم ببعض التسويات من جانب التصنيع، توازن أفضل لكثافة الترانزستور لتمكين 512 نواة تظليل رسومية Radeon، في الوقت نفسه التضحية في نهاية المطاف بسرعة المعالج المركزي.

الاندماج هو جزء هام من صناعة تقنيات معقدة الأكثر رخصا, وفي العديد من الحالات، إنها جيدة جدا لتقديم اداء افضل. وهناك نموذجيا رابط إيجابي لهذا الإندماج وهو الطاقة المنخفضة. نعرف جميعا أن معالجات APU لشركة AMD تجمع أنظمة فرعية متعددة للسماح بحركة أسرع للبيانات مما يرفع المرونة لأقصى حد وهو امر مثالي، مما يجعلها مناسبة جدا لتشغيل أعباء متطلبة بسعر معقول وهو ما تريد تحقيقه AMD.

نقلة نوعية بين الجيل السابق والجيل الجديد

ان وحدة المعالج المسرع Kaveri يضم نواة x86 المتعددة، معالجة رسومية، وحدة تحكم ذاكرة، ذاكرة كاش، مسرعات مستندة على الهاردوير، وحدة تحكم PCI Express على قطعة فردية من السيليكون. ما هو مختلف بشراكتها مع GlobalFoundries، ان شركة AMD تنتقل من دقة تصنيع 32nm SOI إلى دقة تصنيع 28nm. ولكن هناك محاسن ومساوئ مرتبطة بتلك المسألة. سابقا، كانت شركة AMD تبني وحدة المعالج APU خاصتها باستخدام تقنية محسنة للمعالج المركزي. هذا يسمح للرقاقات مثل الـ A10-6800K بأن تصل لمعدلات تردد يصل الى 4.4GHz عبر Turbo Core. لكن التغير نحو كثافة منخفضة، مقاومة منخفضة، وفي نهاية المطاف ترددات أعلى يؤثر بشكل سلبي على عدد الترانزستور التي يمكن أن تضعها شركة AMD في القالب، مما يحد من تعقيدات المعالج الرسومي خاصتها. تسمي شركة AMD هذا بـ APU محسن، لكن الخلاصة هو أنها تستخدم الترانزستور ذات مقاومة أعلى وأبطأ كي تسهل استغلال أفضل للقالب.

النتيجة هي ان نواة x86 بتردد أقل، والتي سوف ترونها تنعكس في مقارنة لـ Kaveri و Richland. تقول شركة AMD أنها تعوض ذلك بالانتقال من معمارية Piledriver إلى Steamroller حيث ان التركيز على IPC (الإتصال بين المعالجات) اصبح محسن ينتج عنها كما يزعم زيادة بنسبة 20%، ما يترك Kaveri بإيجابية صافية في معظم أعباء نواة x86.

من ناحية أخرى، فإن وحدة المعالج المسرع يضم نظام فرعي أكثر إمكانية، مع ما يصل لـ512 معالج تظليل على معمارية GCN الرسومي. تفوقت Richland بـ384 عن الجيل السابق لمعمارية VLIW4 ALUs. إعادة التوزيع الواضحة لوفرة الترانزستور اتت لمصلحة المعالج الرسومي في معالجة أفضل لأعباء العمل الحساسة للأداء والتي تستهدفها شركة AMD. (اللعب، الوسائط المتعدد، )، وفي الوقت نفسه الحفاظ على وضعية انتظار لمزيد من مهام الغرض العام.

بعد ماقيل، فإن Kaveri هو عبارة عن معالج SoC يأتي بـ2.41 مليار من الترانزستور مضغوط في داخل 245 مليمتر مربع. كان Richland تقريبا بنفس الحجم (246 مم مربع)، لكن يضم فقط 1.3 مليار من الترانزستور, تطور ملفت فعلا. ما حدث يعود أثره بسبب انتقال شركة AMD إلى دقة تصنيع اصغر 28nm، المحسن لقالب أكثر تركيزا على المعالج الرسومي.

يضم الـ A10-7850K وحدتي Steamroller و512 معالج تظليل. معدل تردد المعالج هو 3.7GHz، مع أنه يمكن أن يصل إلى 4GHz بتطيقات متشعبة خفيفة. في الوقت نفسه، المحرك الرسومي R7 يعمل عند تردد 720MHz. في الواقع ، كل الطرازات الثلاث لـ Kaveri تضم معالجات رسومية بتردد 720MHz. الفرق الأكبر بين A10-7850K والباقي هو عدد معالجات التظليل. الـ A10-7700K و A8-7600 كليهما يأتيان مع 384. الـ 7700 يعمل عند تردد 3.4GHz الذي يرتفع بقدر 3.8GHz.

الـ A8-7600 يأتي فريدا في هذا المجال حيث يعرض استهلاك حراري يمكن تعديله يدويا لـ65 أو 45W. سقف حراري أعلى يسمح بتردد 3.3GHz و ذروة تردد بـ3.8GHz، بينما إعدادات الـ45W تجعل التردد يقع مابين 3.1 و 3.3GHz. يمكنك استخدام معالجات APU المستندة على سوكيت FM2 على لوحات مجهزة بسوكيت +FM2 لكن ليس بالعكس. وكما نعلم فإن وحدات المعالج المسرع الجديد تعمل فقط مع سوكيت +FM2 وهي متوافقة مع شرائح A88X, A78, A75, و A55.

فوارق مهمة في تكوينة قالب النواة

في الجيل الأخير توجهة شركة AMD إلى معالجات التظليل الرسومية و x86 الخاصة بها على نحو مستقل. حيث الـ A10-6800K يمتلك أربع نواة و384 معالج تظليل. هذه المرة، أخذت الشركة كتلة البناء الرسومية الجوهري لوحدة الحوسبة التي تم تكرارها مرار وتكرار حتى منحتنا المعالجات الرسومية مستندة على معمارية GCN مثل نواة Hawaii مع مايصل لـ2816 معالج تظليل، وسمتها نواة الحوسبة Compute Core. وكتعريف لها فهي نواة حوسبة مهيأ للـ HSA، قابلة للبرمجة وقادرة على تشغيل مالايقل عن معالج واحد في مساحة الذاكرة الافتراضية وسياقها الخاص, على نحو مستقل عن النواة الأخرى.

بالطبع، هذا يمنح شركة AMD القدرة على جمع مصادرها للمعالج المركزي و المعالج الرسومي، وإخضاع وحدة المعالج المسرع المستندة على Kaveri مع 8 أو 12 نواة حوسبة، كل ذلك مع الوصول إلى نفس الذاكرة المتسقة الموحدة. شركة AMD ذكرت أنها تريد من المجتمع التقني أن يفكر لما يصل إلى 12 مسار تعمل بشكل متزامن، لهذا السبب تتحدث حول Kaveri على أنه معالج بـ 12 نواة.

إن Kaveri يمثل المنتج الأول لمعمارية Steamroller وهو قد يختلف من ناحية الأنوية كعدد حيث الجيل السابق أظهرت منتج واحد والذي يحمل نواتين لكن طرازات Kaveri الجديدة للتو تتضمنت مجموعتين. ولكن تسمي شركة AMD هذا الوضع بمكونات رباعية النواة، مع أننا نعرف أن كل طراز يكشف مجموعتين مدمجتين ووحدة فاصلة عائمة مشتركة. لذلك كما نرى هنا الفرق ولكن AMD تحب ان تسميها برباعية النواة.

سابقا حينما قدمت شركة AMD معمارية Bulldozer كان اداء الدورة ضعيفا. اتى Piledriver والذي ساعد قليلا، لكن الإتصال بين المعالجات IPC بقيت بشكل واضح منخفضة مقارنة مع معمارية Intel’s Sandy Bridge, Ivy Bridge و Haswell. لذلك تم تصميم Steamroller للمساعدة في التعويض عن بعض الفرق الحاصل، والمهندسون يزعمون أن كمية الأوامر اصبحت مرتفعة بنسبة 20%. التغيرات الحاصلة لـ Steamroller تحسن في الغالب الكفاءات عند الجهة الأمامية من المسار لتقليل التباطئ الحاصل سابقا، ووفقا لشركة AMD، دعم الأداء أحادي التشعب إلى مستويات أكثر تنافسية اصبح ممكنا.

كاشيه أوامر L1، التي كانت سابقا بحجم 64KB مع مجموعة مترابطة ثنائية المسار، اصبحت الآن بحجم 96KB مع مجموعة ترابطية ثلاثية المسار، بالتالي تقلل الخطأ بنسبة 30%. مهندسوا شركة AMD قاموا بزيادة إدخالات التخزين المؤقت لـ L2 من 5000 إلى 10000 مما ادى الى زيادة كفائة جدولة الأوامر من 5 إلى 10% عبر الإنتقال من 48 إدخال من اصل 40. وممثل الشركة يقول أن كلا من مجموعات العدد التام يمكن أن تدخل ROM بشكل متزامن الآن، حيث لم تكن تستطيع فعل ذلك سابقا. يمكن للـ Steamroller إصدار تخزينين دفعة واحدة: معمارية Piledriver كانت قادرة على القيام بواحدة فقط. أخيرا، وحدات التخزين/ التحميل في كل مجموعة تضم صفوف أضخم بنسبة تعادل 20%، مما يزيد من الاستفادة من الكفاءة.

على الورق VS على ارض الواقع

ومن اجل اختبار صحة ما تقوله شركة AMD اطلعت على عدد من المواقع التي قامت بعملية الإختبار والتي وقعت بين Core i5-4670K, A10-6800K, و A10-7850K والتي كانت جميع هذه المعالجات تعمل بتردد متكافئ وهو 4GHz بالضبط، الإختبار كان عن طريق برنامج بينشمارك LAME وتطبيق برنامج iTunes أحادي التسلسل (التشعب).

في تطبيق iTunes، حصلت Steamroller على صفر فائدة بالضبط. نواة Core i5 المستندة على Haswell بطبيعتها أسرع بقليل. مرة أخرى، معمارية Intel تستمع بتفوق بفارق كبير على منافسيها.

موقع tomshardware اضاف اختبار اخر وهو 3ds Max 2013 وعندها فعلا اظهرت معمارية Steamroller نتائج أفضل بشكل كبير. عند سرعة تردد 4GHz فإن الـ A10-7850K أسرع بـ22% من الـ A10-6800K. مع هذا، فإنه يبدو أن التحسينات الحاصلة لـ Steamroller تظهر بشكل انتقائي، وفقا لعبأ العمل الحاصل.

Steamroller يعتبر فقط كمحفز لمعمارية AMD’s Graphics Core Next مع معالجات Kaveri,، لأنه يحسن الإتصال بين المعالجات IPC على نحو كاف بحيث وحدة المعالج المسرع الأكثر كثافة لا تضحي بالكثير من أداء الغرض العام أثناء تنامي النظام الفرعي للرسوميات. في الواقع، تقول شركة AMD أن المعالج الرسومي لـ Kaveri يأخذ ما نسبته 47% من حجم القالب.

المحرك هذا مكون من ثمان نواة معالج رسومي، المشار إليها سابقا على أنها وحدات حوسبة، ومكونة من أربع وحدات موجهة مع 16 معالج تظليل لكل منها. بالمجموع، هذا يعني 64 معالج تظليل لكل نواة و512 معالج تظليل في تركيبة ثمانية النواة.

معماريا، هذه نفس التقنية الموجودة في نواة المعالج الرسومي AMD’s Hawaii الذي يتضمن تحسينات الدقة لعمليات الـ LOG/EXP القياسية وتحسينات MQSAD لتسريع خورازميات تقييم الحركة، المذكورة سابقا عندما أطلقت نواة Hawaii. بالطبع، الإضافة الكبيرة هي الذاكرة الموحدة المشتركة المتسقة. ذلك الاتساق يجعل من السهل تمرير البيانات بين نواة المعالج الرسومي و المعالج المركزي.

المعالج الرسومي بين الجيل السابق والجيل الجديد

نواة Hawaii تمتلك أربع معالجات هندسية قادرة على تنقيط العديد من الرسوم القياسية لكل دورة تردد. تضم Tahiti اثنين بينما Kaveri تحصل على واحدة. وبما إن Kaveri قد انخفض لجزئين من ROP فذلك يعني انها قادرة على تحقيق بكسل لكل تردد. نظرا لقيود عرض النطاق الترددي المرتبط بذاكرة DDR3، فإن قرارت ذلك التصميم تجعل الأمر منطقيا تماما.

وايضا ليس كل جزء من نواة Kaveri هو مجموعة فرعية من نواة Hawaii, شركة AMD تكشف كل محركات الحوسبة الغير متزامنة الثمانية للمعالج المنفصل، التي تجدول المهام على نحو مستقل للـ CUs كما هو الحال مع Sony’s PlayStation 4 الذي يضم أيضا ثماني ACE . كلها تشترك في الوصول إلى حصة البيانات العالمية و كاشيه 512KB L2. لكنها من ناحية أخرى تشتغل على ذاتها من أجل تعدد مهام فعالة.

لقد ذكر في وقت ما أن Kaveri ينقصها دعم وظفية fixed-function من أجل فك ترميز H.265. مع هذا، الـ Unified Video Decoder القديم متوفر فيها، وهو يسرع تشغيل الـ H.264, VC-1, MPEG-2, MVC, و MPEG-4

كما تزعم شركة AMD أنها حسنت وظيفة VCE وهذا ما ابداه العديد من المهتمين الذين علقوا بإيجابيه على إضافة شركة AMD لوظيفة VCE. مع هذا، فعند مقارنة VCE لشركة AMD فهو يضعها خلف NVEnc لشركة Nvidia وهو أبطأ بشكل كبير من Quick Sync لشركة Intel. إذا ً، في حين أن الجيل الثاني من VCE لـ Kaveri قد يمثل خطوة مهمة للأمام، فيجب على AMD الإهتمام أكثر بأدوات الترميز المنافسة.

أما مع المعالجات الرسومية Bonaire و Hawaii التي تشغل كلا من بطاقات Radeon R9 290X, 290, و R7 260X فإن Kaveri تضم دعم TrueAudio. وهذا يعني أن هناك ثلاث نواة Tensilica HiFi2 EP Audio DSP داخل قالب وحدات المعالج المسرع قادرة على تفريغ معالجة الصوت . أن Kaveri يدعم هذه التقنية لأنها بحاجة لأن تُستغل في البرمجيات قبل أن يتم إدراك أي فائدة لها، وحتى الآن لم يكن هناك تطبيقات يمكن استخدامها لتوضيح أثر الـ TrueAudio على ارض الواقع. وهو للأسف امر مخيب للأمل ولكن نأمل ان يكون هنا مستقبلا تطبيقات تراعي هذه الميزة لنرى الفرق فعلا.

هل الإندماج حقق المطلوب؟

ان عدنا إلى مفهوم الاندماج فهو ينبغي له أن يسمح لكفاءات التركيب والخلط. الأنظمة الفرعية التي قُربت من بعض تمكنها من التواصل بشكل أكثر سرعة وأكثر توفير للطاقة. حينما قدمت شركة AMD معالجها Llano APU، وضعت الشركة أربع نواة Stars,جسر شمالي, قناتي ذاكرة 64bit، وحدة تحكم PCIe، ومعالح رسومي على قالب واحد. إنه مزود بـ128bit Control Link إلى المعالج الرسومي من أجل الوصول إلى مساحة ذاكرة متسقة، التي تمنح الوصول بشكل متزامن للمعالج المركزي إلى التخزين المؤقت للمعالج الرسومي. بشكل منفصل، ناقل آخر منح المحرك الرسومي وصول عرض نطاق ترددي أعلى للذاكرة.


ومع مجيء Trinity (ومن ثم Richland) أظهر دفع شركة AMD للتكامل بشكل أكبر. لقد وحدت المعالج المركزي والجسر الشمالي للرسوميات، مما ضاعف عرض النطاق الترددي لمسار البيانات العائد لناقل ذاكرة Radeon في المعالجة. وربما بشكل أكبر بكثير، أضافت وحدة إدارة ذاكرة I/O، المرتبطة عبر Fusion Control Link، الذي منح وصول المعالج المركزي إلى المساحة الافتراضية. الطريق نحو HSA كان يُمهد له ببطء وبطرق حكيمة من قبل AMD.

حاليا تدمج Kaveri ناقل ثاني عبر الـ IOMMU من أجل الاتساق. إنها أيضا تعرض وظيفة تمسى ذرات مستوى النظام من أجل مزامنة العمل عبر مختلف النواة. سويا، تلك المزايا تكمل المطلوب وتتيح المزايا الثلاثية لـ HSA.

معمارية الذاكرة الموحدة الغير متجانسة، منحت الأنظمة الفرعية للمعالج المركزي و للمعالج الرسومي الوضوح داخل مساحة الذاكرة بأكملها، الذي يصل إلى 32GB. إضافة لذلك، يتم التعامل مع كلا من المعالج الرسومي و المعالج المركزي بشكل متكافئ بواسطة نموذج اصطفاف غير متجانس. حيث يمكن إرسال العمل من طرف لآخر وبالعكس. نتيجة لذلك، فإن المكونات على قالب وحدة المعالج المسرع يمكن أن يرفق بالمزيد من أعباء العمل ذات الحوسبة المكثفة.

شركة AMD حددت لنا مجموعة من المهام التي ستستفيد من إمكانية الحوسبة الكبيرة في المجالات المحمولة والمكتبية, تشغيل الوسائط هو الأول. حيث ستقوم شركة AMD بإفراغ ترميز/فك ترميز إلى داخل المعالج الرسومي لمعالجتها، بما أنها لم تكن قادرة على بناء مسرع وظيفة ثابت للتشغيل في الوقت المحدد. لسوء الحظ البرنامج الضروري مازال قيد العمل، لذلك لا يمكن مقارنة تشغيل HEVC مستند على المعالج الرسومي وعلى المعالج المركزي. في نفس الاتجاه، تحرير الصور والفيديو يميل بالفعل على معالجتها عن طريق المعالج الرسومي وهذا سيستمر بشكل طبيعي مع معالجات Kaveri. المطورون يستخدمون بالفعل الحوسبة في عدة أساليب متنوعة. على سبيل المثال، شركة DICE تستخدم معالج تظليل الحوسبة من أجل تكوين مستند على الإكساء في لعبة Battlefield 4.

الأمر السيئ أن التطبيقات المنصبة مسبقا على الحاسوب ليست محسنة بشكل تأخذ فيه مجموعة المزايا الكاملة لـ Kaveri مع أن شركة AMD تزعم بأن الـ OpenCL يستفيد من HSA بفضل التحسينات الحاصلة.

خلاصة القول

هو اننا فعلا قد رأينا وحدة معالج مسرع مثير للإهتمام يقدم لنا ما نطمح له رغم اننا كنا نريد المزيد من الأداء ولكن رغم ذلك فإن AMD قد نجحت فعلا في هذا الإختبار امام منافسيها. صحيح ان المنافسون ايضا لديهم ما هو جديد ومنافس لمعالجات AMD الجديدة ولكن ان نظرنا الى الصورة بحجمها الكبير فسوف نشاهد ان شركة AMD اصبحت تمتلك خبرة كبيرة في عالم وحدة المعالج المسرع المعروفة بـ APU. يوجد حاليا العديد من الوسائط المتعددة، وألعاب معروفة تستفيد من الحوسبة الغير المتجانسة.

في اداء المعالجات الجديدة بالألعاب مقارنة بالجيل السابق نستطيع ان نقول انها قدمت اداء جيدا ولكن فعلا كنا نطمح لأداء افضل من ذلك ولكن لا نستطيع ان نقول عنه انه سيئ فيما قدمه من اداء خاصة ان هذه المعالجات تقدم اداء على مختلف الأصعدة بشكل جيد جدا مقارنة بالجيل السابق. ما يعول عليه هو رؤية البرمجيات القائمة على OpenCL 2.0 بالظهور. حينما يحدث ذلك، فإنه ينبغي لمزايا HSA أن تزداد في الأداء مع استهلاك طاقة منخفض في مختلف الوسائل وهذا ما نستطيع ان نقوله اننا نحن وحتى AMD تعول عليه فعلا.

ان تحدثنا عن شرائح AMD التي تدعم هذه المعالجات الجديدة والتي تتمثل بشرائح A88X, A78, A75, و A55 فهي جميعها تدعم تلك المعالجات الجديدة والتي طبعا كما نعلم تستخدم سوكيت +FM2. اللوحات الأم الحديثة التي تضم تلك الشرائح تقدم مواصفات ومميزات مختلفة تكمل ما تأتي به معالجات Kaveri المميزة. كما لا ننسى تقنية Dual Graphics التي قدمت اداء جيدا مقارنة بالمعالج الرسومي المدمج ووحدة المعالج المسرع مع بطاقة رسومية منفصلة ولكن ما يعيبها هو فقط التعريفات اي ما نقصده هو عند تطور التعريفات بالشكل المطلوب فسوف يكون الأداء افضل بكثير.

ما هو رأيك فعلا في وحدة المعالج المسرع الجديدة Kaveri من AMD؟ وهل فعلا قدمت لك ما تبحث عنه؟