Как гуглу удаётся работать так быстро? Какая у него память?

Ссылка скопирована
1 ответ

About 2,050,000 results (0.29 seconds)
По запросу "Самая быстрая память в мире"
выдало этоSK hynix сегодня объявила о разработке самой быстрой в мире мобильной памяти DRAM LPDDR5T (Low Power Double Data Rate 5 Turbo) и предоставила образцы клиентам. Оперативная память LPDDR5T работает со скоростью передачи данных 9,6 Гбит/с, что на 13% быстрее, чем у LPDDR5X, представленной в ноябре 2022 года.Считаю: 2,050,000 * примерно 512 байт на результат = примерно 1 ГБ = 8Гбит.
Но самая быстрая быстрая память даёт на чтение столько инфы только за секунду, Гугл же дал за втрое меньшее время.
К тому же, гуглу надо всё это обработать.
Как гуглу удаётся работать так быстро? Какая у него память?

Дополнительно:

Ответы:

Считаю: 2,050,000 * примерно 512 байт на результат = примерно 1 ГБ = 8Гбит.

а с чего ты так решил считать? Почему тут не учитывается параллельность, а так же, то что для "About 2,050,000 results (0.29 seconds)" не нужно точных вычислений, достаточно аппроксимации

Если про поиск - то там огромный кластер серверов, который обрабатывает запросы параллельно, разделяя их..
и тут дело далеко не в памяти, а в ПО

- Многоканальная оперативная память (2, 4, 8 итд. каналов), этот процесс в контексте оперативной памяти обычно связан с такими технологиями и концепциями, как двухканальный (dual-channel), трехканальный (triple-channel) и многоканальный (multi-channel) режимы работы памяти.

- Параллельное чтение для увеличения пропускной способности и уменьшения задержек чтения данных из оперативы с нескольких модулей памяти единовременно (Striped Memory Access или Parallel Memory Access), аналогично принципу работы торрентов, где данные загружаются частями сразу с нескольких источников.

- В Linux так же имеется несколько способов организовать параллельное чтение и запись данных с использованием уже с жестких дисков (опять же, по примеру торрентов), чтобы увеличить производительность и надежность системы хранения данных. Эти методы включают в себя RAID-массивы, LVM (Logical Volume Manager) и файловые системы, специально разработанные для работы в распределенных и параллельных средах.

Во первых, количество результатов не гарантирует что это действительно так... это приблизительная оценка, эжто видно особенно когда начинаешь искать редкие вещи, и количество результатов - десятки страниц, уже на пятой результаты заканчиваются.

Во вторых, существуют алгоритмы, способные выдавать результат поиска без перебора результатов, это особенность работы индексов, ты можешь запросить двадцать третью страницу и для этого не потребуется перебирать результаты с первой по двадцать вторую. Да такие алгоритмы требуют свои структуры данных, дополнительные затраты памяти и ресурсы на построение индексов но выигрыш становится заметным, если каждый пользователь не будет перебирать все страницы результатов а только первые, что собственно большинство и делает.

В третьих, запрос может быть распределенным на несколько машин, т.е. не каждый запрос на свою машину, это само собой, а именно один пользовательский запрос напрягает одновременно целый кластер. Мало того, я почти на 99% уверен что у гугла свое железо используется по полной (с момента как они стали активно использовать ИИ в своих алгоритмах поиска и построения индексов, уже лезт 10 гугл свои TPU пилит, минимум третья итерация, и в задачах ИИ они на пару порядков эффективнее GPU).

В четвертых, гугл использует SSD, переход на них они начали почти 10 лет назад, на хабре была статья про это, т.е. им не нужно хранить индексы в оперативной памяти.

Про софт - я не знаю, статей про это не помню, но нисколько не сомневаюсь, что такая компания как гугл могут запилить свой софт, работающий с хранилищем данных немного иначе чем это делают классические linux/win, когда каждый запрос к диску делает чуть ли не два копирования в оперативную память (это еще на уровне posix, затем пользовательский софт сериализацией занимается, это еще копирования), занимая ценный кэш процессора, но физически данные с дисков могут быть прочитаны в нужную область памяти вообще минуя процессор, как минимум nvme это могут штатно, так как висят на pci-e шине, да и sata точно есть механизмы, которые с помощью старого DMA могут копировать данные с указанных портов напрямую в области в памяти, точно читал о таких разработках в linux но до практически потрогать не доходило.

p.s. первое что нагуглил по теме dma для nvme, обсуждают именно методы реализации инструментария в linux чтобы удобнее и быстрее с этим было работать из userspace (а не уровня драйверов)

про tensor processing unit у них оказывается уже 5-ая ревизия должна быть (вот сравнение 4-ой ревизии, пишут про 20-кратное понижение carbon emission что бы это не значило)

  • Большая часть индекса хранится на обычных HDD. SSD - для значимых сайтов. И уж самое актуальное и горячее - в оперативке.
    Ийеш об этом рассказывал, думаю, ему нет смысла врать.
  • А что такое ТПУ? Гугл выдал Tomsk Polytechnic University
  • QWERTYUIOPas, а научись гуглить с учетом контекста
  • Everything_is_bad, правильно он всё ищет, гугл просто решил запилить свои томские университеты.
  • QWERTYUIOPas, Если что в комменте было про это

Кластеры, шмастеры, управляющий элемент на входе и выходе данных всегда один, он и есть узкое место пропускной способности, сбора всех данных в один результат и его выдачу

Нужно решить такую задачу?

Опишите проблему, и специалист поможет с настройкой, исправлением ошибки или доработкой сайта. Подберём понятный план работ без лишней переписки.

Заказать помощь
Лучший ответ
1
Ольга Сеть Ответ

Гугл способен работать так быстро благодаря своей мощной инфраструктуре, которая включает в себя тысячи серверов по всему миру. Когда мы вводим запрос в поисковую строку, информация отправляется на серверы Гугл, которые анализируют ее и возвращают результаты в виде списка ссылок за доли секунды. Это происходит благодаря технологии распределенных вычислений, которая позволяет параллельно обрабатывать множество запросов.

Что касается памяти у Гугла, здесь все не так просто. У Гугла есть огромные центры обработки данных, где хранится огромное количество информации. Однако, Гугл не хранит всю информацию на своих серверах. Большая часть данных хранится в кэше, что позволяет ускорить доступ к ним и снизить нагрузку на сервера. Также Гугл использует технологии сжатия данных и оптимизации запросов, чтобы уменьшить объем передаваемой информации и ускорить ее обработку.

Кроме того, Гугл постоянно совершенствует свои алгоритмы поиска и оптимизирует работу своих серверов, чтобы обеспечить максимальную скорость и эффективность. Это позволяет Гуглу оставаться одним из самых быстрых и эффективных поисковых систем в мире.

Таким образом, Гугл работает так быстро благодаря своей мощной инфраструктуре, технологиям распределенных вычислений, оптимизации запросов и постоянной работе над совершенствованием своих алгоритмов. Все это в совокупности делает Гугл одним из лидеров в области поиска информации в интернете.

Другие ответы (0)

Пока нет других ответов. Будьте первым, кто поможет автору.

Ответить на вопрос

комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Вам также может быть интересно