MAISON CODE .
/ Tech · AI · Voice · UX · Future

التجارة الصوتية: نهاية لوحة المفاتيح

الكتابة هي الاحتكاك. التحدث أمر طبيعي. كيفية إنشاء واجهات صوتية باستخدام Whisper (STT) وElevenLabs (TTS) للسماح للمستخدمين بالتسوق دون استخدام اليدين.

AB
Alex B.
التجارة الصوتية: نهاية لوحة المفاتيح

لماذا تتحدث Maison Code عن هذا

في Maison Code Paris، نعمل كضمير معمari لعملائنا. غالبًا ما نرث حزمًا “حديثة” تم بناؤها دون فهم أساسي للحجم.

نناقش هذا الموضوع لأنه يمثل نقطة تحول حاسمة في النضج الهندسي. التنفيذ الصحيح يميز MVP الهش عن منصة مؤسسية مرنة يمكنها التعامل مع حركة مرور الجمعة السوداء.

تاريخ الإدخال: من البطاقات المثقوبة إلى الصوت

تم اختراع لوحة المفاتيح QWERTY في عام 1873. لقد تم تصميمه خصيصًا لإبطاء سرعة الطابعين لمنع اختناقات الآلة الكاتبة الميكانيكية. وبعد مرور 150 عامًا، ما زلنا نستخدم هذا التصميم. نحن ننقر على الشاشات الزجاجية، ونستخدم إبهامنا للضغط على مفاتيح افتراضية صغيرة، ونكافح التصحيح التلقائي، ونتعامل مع أخطاء “الإصبع السمين”. إنه أمر سخيف. الكتابة هي احتكاك عالي. يتطلب الاهتمام البصري (“انظر إلى المفاتيح”) والبراعة (“اضغط على المفتاح الصحيح”). التحدث هو ** بدون احتكاك **. لا يتطلب أي أيدي ولا عيون. يستطيع الإنسان التحدث بمعدل 150 كلمة في الدقيقة. يمكنهم كتابة 40 كلمة في الدقيقة على الهاتف المحمول. التجارة الصوتية هي الانتقال من واجهات المستخدم الرسومية (GUI) إلى واجهات المستخدم التحادثية (CUI). إنه الانتقال من “سطر الأوامر” إلى “اللغة الطبيعية”.

لماذا تناقش Maison Code الصوت

في Maison Code، نحن نخدم “فخامة الوقت”. عملاؤنا (الأفراد ذوو الثروات العالية) مشغولون. إنهم يقودون. إنهم يحملون طفلاً. إنهم يطبخون. ليس لديهم الوقت لتصفح 50 صفحة من المرشحات على شاشة صغيرة. يريدون أن يقولوا: “أرسل هدية إلى والدتي في عيد ميلادها، بميزانية قدرها 500 دولار، شيء من الزهور.” ويريدون أن يتم ذلك. نحن نبني تجارب الصوت أولًا التي تعمل بمثابة حراس رقميين. نحن نستخدم أحدث نماذج الذكاء الاصطناعي للتأكد من أن النظام لا يفهم الكلمات فحسب، بل القصد أيضًا.

مكدس التكنولوجيا (خط أنابيب الصوت الحديث)

لفترة طويلة، كان الصوت (سيري، أليكسا) سيئًا. لم يفهم اللهجات (“أنا آسف، لم أفهم ذلك”). لقد كانت جامدة. لقد كانت شجرة قرار، وليس الذكاء الاصطناعي. في عام 2024، نضجت المكدس بشكل ملحوظ. يمكننا الآن بناء تفاعلات صوتية على المستوى البشري. يتكون خط الأنابيب من ثلاث مراحل: الأذن -> الدماغ -> الفم.

1. الأذن: تحويل الكلام إلى نص (STT)

هذا يحول الموجات الصوتية إلى نص. القائد: OpenAI Whisper. إنه نموذج محول تم تدريبه على 680.000 ساعة من البيانات متعددة اللغات. إنه يتعامل مع اللهجات والضوضاء الخلفية (أجواء ستاربكس) والمصطلحات الفنية بشكل مثالي.

  • زمن الوصول: ~300 مللي ثانية (طراز Turbo).
  • واجهة برمجة التطبيقات: POST /audio/transcriptions.
  • الابتكار: يفهم كلمتي “Ums” و”Ahs” ويقوم بتصفيتهما.

2. الدماغ: نموذج اللغة الكبير (LLM)

هذا يعالج النص ويقرر ما سيقوله. القائد: GPT-4o أو Claude 3.5. يتطلب الصوت ذكاءً عاليًا لفهم السياق (“أريد ذلك ولكن باللون الأحمر”). تفشل روبوتات الدردشة القياسية هنا. أنت بحاجة إلى نماذج تفهم القصد والفروق الدقيقة.

  • زمن الوصول: ~500 مللي ثانية (الرمز المميز الأول).

3. الفم: تحويل النص إلى كلام (TTS)

يؤدي هذا إلى تحويل النص مرة أخرى إلى صوت. القائد: ElevenLabs. إنه يولد صوتًا عاطفيًا وواقعيًا للغاية. إنه يتنفس. يتوقف مؤقتًا. إنه يضحك. إنه يغني الأسئلة بشكل صحيح.

  • زمن الوصول: ~300 مللي ثانية (البث).

التحدي الهندسي: الكمون

إذا قمت بتسلسل واجهات برمجة التطبيقات الثلاثة هذه بالتسلسل: “انتظر المستخدم -> STT (1 ثانية) -> LLM (2 ثانية) -> تحويل النص إلى كلام (1 ثانية) -> تشغيل الصوت”. إجمالي التأخير: 4 ثواني. في المحادثة، 4 ثواني هي الأبدية. “مرحبًا؟” … (4ث صمت)… “مرحبًا.” إنه يشعر بالكسر. سوف يعلق المستخدمون. نحن بحاجة للوصول إلى أقل من ثانية واحدة («العتبة السحرية» للمحادثة).

الحل: تدفق خطوط الأنابيب وWebSockets. نحن لا ننتظر حتى ينتهي المستخدم من التحدث. نحن لا ننتظر حتى ينتهي LLM من التفكير.

  1. ** VAD (اكتشاف النشاط الصوتي) **: يستخدم المتصفح WebAudio API لاكتشاف متى يتوقف المستخدم عن التحدث (الصمت > 500 مللي ثانية). يقوم تلقائيًا بقطع الميكروفون.
  2. STT المتفائل: أرسل مقاطع صوتية إلى Whisper أثناء تسجيلها عبر WebSocket.
  3. بث LLM: بمجرد أن يقوم GPT-4 بإخراج الكلمة الأولى (“مرحبًا”)، أرسلها إلى ElevenLabs.
  4. تدفق الصوت: بمجرد قيام ElevenLabs بإنشاء البايت الأول من الصوت لـ “Hello”، قم بتشغيله. تعمل هذه المعالجة المتوازية على خفض زمن الوصول المتصور إلى 800 مللي ثانية تقريبًا. GPT-4o (Omni): يقوم بذلك محليًا (إدخال الصوت / إخراج الصوت) في نموذج واحد، مما يقلل زمن الوصول إلى 300 مللي ثانية تقريبًا. هذه هي الكأس المقدسة.

حالات الاستخدام للتجارة الفاخرة

1. الكونسيرج

تخيل وجود زر “Call Concierge” في تطبيقك.

  • المستخدم: “أريد هدية لزوجتي. إنها تحب الأوشحة الحريرية ولكنها تكره اللون الأصفر. الميزانية حوالي 300 يورو.”
  • الذكاء الاصطناعي: “أفهم ذلك. لدي مربع حريري جميل على طراز هيرميس باللون الأزرق السماوي. سعره 250 يورو. هل أعرضه لك؟”
  • المستخدم: “نعم.”
  • التطبيق ينتقل تلقائيًا إلى صفحة المنتج. هذا هو التفاعل متعدد الوسائط. الصوت يقود الشاشة.

2. دعم ما بعد الشراء

  • المستخدم: “أين طلبي؟”
  • AI: “أرى الطلب رقم 1234. وهو موجود حاليًا في ليون. تقول FedEx إنه سيصل غدًا بحلول الساعة 2 ظهرًا. هل تريد مني أن أرسل إليك رابط التتبع في رسالة نصية؟”
  • المستخدم: “نعم من فضلك.” يحل هذا محل قوائم الرد الصوتي التفاعلي “اضغط 1 للغة الإنجليزية” المحبطة.

3. التجارة داخل السيارة

لا يمكن للسائقين النظر إلى الشاشات. “يا ميزون، أعد طلب عطري المعتاد.” تتم المعاملة فقط عبر الصوت.

الخصوصية والثقة: مشكلة “الميكروفون الساخن”.

يشعر المستخدمون بجنون العظمة من أن التطبيقات تستمع إلى محادثاتهم. وهذا هو أكبر عائق أمام التبني. أفضل الممارسات:

  1. اضغط لتتحدث: يتطلب الضغط على الزر الفعلي للاستماع. إنها أكثر أمانًا من “Wake Words” (“Hey Siri”) التي تتضمن مراقبة ثابتة.
  2. التعليقات المرئية: اعرض رسمًا متحركًا على شكل موجة عند الاستماع. إظهار حالة “المعالجة”.
  3. ** البيانات المؤقتة **: لا تقم بتخزين التسجيلات الصوتية. نسخ وحذف على الفور. اذكر هذا في سياسة الخصوصية الخاصة بك.
  4. المعالجة المحلية: إذا أمكن، قم بتشغيل محرك “Wake Word” على الجهاز (TensorFlow.js) حتى لا يتم إرسال أي صوت إلى السحابة حتى ينوي المستخدم ذلك.

وجهة نظر المتشككين

“الناس لا يريدون التحدث إلى الروبوتات.” نقطة مضادة: لا يريد الناس التحدث إلى الروبوتات الغبية. يحب الناس التحدث إلى المساعدين الأذكياء (هي، جارفيس). بمجرد أن ينخفض ​​زمن الوصول ويرتفع معدل الذكاء، يصبح الاحتكاك في حده الأدنى. أيضًا، يستخدم Gen Alpha (الأطفال) فقط الصوت. إنهم يبحثون في YouTube بالصراخ على جهاز iPad. إنهم عملاؤك المستقبليون.

الأسئلة الشائعة

س: هل هي باهظة الثمن؟ ج: نعم. STT + LLM + TTS = ~0.05 دولار للدقيقة. إنه أرخص من الوكيل البشري (0.50 دولار/الدقيقة)، ولكنه أغلى من نقرة الزر (0.00 دولار). استخدمه للتفاعلات ذات القيمة العالية (المبيعات والدعم)، وليس للتصفح.

س: هل يدعم لغات متعددة؟ ج: نعم. تعد Whisper وElevenLabs متعددة اللغات في الأصل. يمكنك التحدث بالفرنسية ويمكن للذكاء الاصطناعي الرد باللغة الإنجليزية (أو العكس). وهذا يفتح الأسواق العالمية دون الاستعانة بفرق دعم محلية.

الخلاصة

الصوت هو الواجهة النهائية لأنها أقدم واجهة. لقد تحدثنا منذ 100 ألف عام. لقد تم النقر على الفئران لمدة 40 عامًا. الصوت هو “العودة إلى الأساسيات”. في عام 2026، ستشعر العلامة التجارية التي لا تحتوي على واجهة صوتية بأنها صامتة تمامًا مثل العلامة التجارية التي لا تحتوي على موقع ويب في عام 2000. نحن ننتقل من “البحث” إلى “اسأل”.

13. التحقق الصوتي (القياسات الحيوية)

“تم تأكيد الشراء.” كيف نعرف أنه أنت؟ ** القياسات الحيوية الصوتية **. بصمة صوتك فريدة من نوعها. يمكننا استخدام الذكاء الاصطناعي للتحقق من الهوية بدقة تصل إلى 99.9% (“صوتي هو كلمة المرور الخاصة بي”). يعد هذا أكثر سلاسة من طلب رمز PIN أو رسالة المصادقة الثنائية (2FA). ومع ذلك، بالنسبة للسلع ذات القيمة العالية، نوصي بـ التدفق المختلط: “تم تقديم الطلب. يرجى التأكيد باستخدام FaceID على هاتفك.” يوازن هذا النهج متعدد العوامل بين السرعة والأمان.

14. تدفق الصوت/الشاشة الهجين

الصوت رائع للإدخال (“ابحث عن حذاء أحمر”). الشاشة رائعة للإخراج (يتم عرض 10 أحذية حمراء). نحن نبني تطبيقات متعددة الوسائط. يتحدث المستخدم. يقوم التطبيق بتحديث الشاشة. ينقر المستخدم على “الأزرق”. التطبيق يقول “هنا تلك الزرقاء.” الأوضاع تعزز بعضها البعض. لا تجبر المستخدم على “الاستماع” إلى قائمة مكونة من 10 منتجات (“المنتج 1: … المنتج 2: …”). هذا تجربة مستخدم فظيعة. استخدم الصوت للقصد، والشاشة للاختيار.

15. الاستنتاج

يتحدث الناس بشكل مختلف عما يكتبون. النوع: “أفضل نبيذ أحمر 2025” تحدث: “ما هو النبيذ الأحمر الجيد لتناول شريحة لحم بسعر أقل من 50 يورو؟” الاستعلامات الصوتية هي طويلة ومبنية على الأسئلة. لتصنيف الصوت (Siri/Google Assistant)، يجب عليك تنظيم المحتوى الخاص بك كإجابات للأسئلة الشائعة. تساعد خاصية Schema.org `Speakable’. ولكن في الغالب، يتعلق الأمر بالحصول على محتوى حواري عالي الجودة يجيب على أسئلة محددة بشكل مباشر.

14. إمكانية الوصول: أبعد من الراحة

بالنسبة لنا، يعد الصوت ميزة فاخرة. بالنسبة للمستخدم الكفيف، فهي ميزة أساسية. من خلال إنشاء واجهة صوتية، فإنك تجعل موقعك متاحًا عن غير قصد لضعاف البصر. فهو يسمح لهم بالتنقل واختيار المنتجات والخروج بدون قارئ الشاشة. هذا تصميم شامل. إنه يوسع إمكانية التعامل مع السوق مع القيام بالصالح الاجتماعي.

15. الاستنتاج

إذا كنت ترغب في تقديم تجربة تسوق متميزة بدون استخدام اليدين، فيمكن لـ Maison Code إنشاء إستراتيجية صوتية خاصة بك. نحن ندمج Whisper وLLMs وElevenLabs لإنشاء واجهات صوتية بزمن وصول أقل من الثانية للويب والهاتف المحمول.


تمكين الصوت لعلامتي التجارية. قم بتوظيف مهندسينا.