Мій сайт
Головна » 2011 » Березень » 14 » Веб-аналітика: аналізуй це! частина 2. збір даних
21:44
Веб-аналітика: аналізуй це! частина 2. збір даних
Перед тим, як аналізувати дані статистики, потрібно розуміти, як вони були зібрані, які з них можуть бути неточними, і чому.

Сервер в інтернеті отримує від браузера користувача запити і віддає дані. На кожен перегляд сторінки сервер отримує один запит (на тіло сторінки), а потім кілька додаткових (картинки, скрипти, таблиці стилів і інші додаткові дані для відображення сторінки). Скрипти на сторінці також можуть генерувати запити до сервера - в тому числі, до окремого сервера статистики.

Веб-сервер пов'язує запити одного і того ж користувача за допомогою сесій. Коли до сервера звертається новий користувач, він створює новий ідентифікатор сесії, який користувач повідомляє серверу при кожній новій завантаженні сторінки. Зазвичай ідентифікатор сесії передається на сервер з cookie - файлу змінних, який браузер може зберегти для конкретного сайту.

Що ж сервер може дізнатися про користувача?
  • Перш за все, його ip-адрес. Він зазвичай використовується лише для однієї мети: дізнатися регіон, з якого користувач виходить в інтернет. Більшість провайдерів налаштовані таким чином, що у кожного користувача адреси весь час змінюються. До того ж, багато виходять з мережі з єдиним зовнішнім адресою. Таким чином, однакові адреси зовсім не говорять про те, що з них працює один і той же користувач, і навпаки.
  • Адреса сторінки, яку відвідує користувач.
  • Адреса сторінки, з якої користувач перейшов на поточну, або «реферер». Ці дані виявляються дуже корисними. Якщо користувач, наприклад, прийшов з розвідувача, то в попередньому адресі збережений запит, який він ввів у пошуковик.
  • Точний час запиту.
  • "Позивні" браузера користувача - його рядок ідентифікації. По ній можна зрозуміти, які браузери популярні серед користувачів, а також відрізнити запит від пошукового робота.
  • Cookie - дані, які сервер раніше "попросив" браузер запам'ятати. Cookie можуть бути постійними (збереженими на певний період часу) і сесійними (знищується після закриття браузера). Вони містять довільні набори змінних і значень.
  • Змінні, які передає браузер.
Є три основних види систем статистики. Одна, "пасивна", заснована на аналізі серверних логів - записів про запити, скоєних на сервер. При кожному зверненні користувача до сервера той пише в журнал подій набір даних про цей запит. Зазвичай такий журнал ведеться сервером для своїх потреб, тому зайвого навантаження через збору статистики не виникає, і жоден запит не залишається неврахованим. Однак для того, щоб отримати всі необхідні дані, стандартної конфігурації сервера недостатньо.

Другий тип систем збору статистики додає на сторінку, які будуть показані користувачем, додатковий код, який здійснює запит до системи статистики. Коли інтернет був молодий і браузери були дуже дурними, для цього використовувалися картинки: щоб відобразити картинку на сторінці, браузери робили запит на сервер статистики. Цей сервер робив запис вже у свій журнал, а потім відображав картинку з цифрами - саме з тих пір пішла рунетівському традиція "вішати лічильники" розміром 88х31. Цей спосіб майже всім гірше першого, і використовувався лише тому, що у власників сайтів не було доступу до журналів свого сервера.

Коли браузери повсюдно навчилися виконувати скрипти (міні-програми) Javascript, зовнішні лічильники значно порозумнішали. Крім стандартного запиту, Javascript зміг передавати в систему статистики безліч нових даних: дозвіл і кольоровість екрану, параметри операційної системи. Вони знову отримали доступ до реферер і змогли ставити cookie від імені відвідуваного сайту, що спростило відстеження сесій користувача. Найпопулярнішим "навороченним" лічильником такого роду є Google Analytics!

У зовнішнього лічильника на JS теж є недоліки:
з його допомогою неможливо відстежити завантаження файлів з сайту,
він записує лише переходи на сторінки, завантажені повністю (тому що інакше код не встигне виповнитися ),
він вимагає сучасного браузера та дозволу на роботу скриптів,
він не працює на мобільних браузерах (крім Opera Mini і сучасних смартфонів),
щоб записувати параметри внутрішньої "кухні", на зразок даних облікової запису користувача, всі ці дані потрібно переганяти в код лічильника, що зазвичай небезпечно, важко і в результаті безглуздо. Уявіть собі, що мова йде про сайт знайомств, кожен з користувачів якого має анкету з купою параметрів. Щоб проаналізувати поведінку користувачів з різними параметрами анкет, потрібно зв'язати анкети із запитами.

У таких складних випадках розробники сайтів самі розробляють систему запису статистики, в яку додають всі можливості, які їм потрібні. Переваги такої системи - її нескінченна гнучкість. З цього випливає і головний недолік: необхідність писати для такої системи засоби аналізу даних вручну. Так що розробники, потреби яких задовольняються готовими системами, намагаються користуватися саме ними.
  Серверні логи Зовнішня статистика самописні статистика
Відстеження сесій - (досить складно піддається реалізації) + +
Запис всіх візитів + - (тільки браузери з включеним JS і сторінки, завантажені повністю) +
Відстеження закачуваних файлів + - +
Відстеження пошукових та ін ботів + - +
Зв'язок візитів з внутрішніми даними сайту - - +
Порівняння з даними інших сайтів - + -
Можливість відстеження транзакцій і воронки продажів - + +
Відстеження подій, що не приводять до запитів на сервер - + +

Перше і найважливіше, що потрібно запам'ятати при роботі зі статистичними даними з інтернету: точні і повні дані найчастіше добути дуже складно. Я буду уточнювати неточності в міру перерахування метрик. Ключовим навиком аналітика є вміння відрізнити важливі обмеження від неважних.Напрімер, системи зовнішньої статистики на основі Javascript не будуть працювати у користувачів з дуже старими браузерами або відключеними заради безпеки скриптами. У більшості випадків це прийнятно: частка таких користувачів невелика (менше відсотка). Однак, якщо ви збираєте дані з корпоративного інтранету в компанії, яка відключає JS у своїх співробітників, або хочете виміряти частку користувачів з відключеними скриптами, цей метод вже не годітся.Общіе обмеження систем збору статистики:
  • Неможливо відстежити, хто сидить за комп'ютером. Можна лише розрізнити браузери.
  • Неможливо точно визначити регіон - лише спробувати вгадати на основі IP користувача (хоча він може виходити в мережу через віддалений Proxy, VPN і т.д). Наприклад, всі користувачі мобільного інтернету через Opera Mini записувалися системами статистики в регіон "Норвегія", оскільки запити проходили через адаптирующий сервер в цій країні.
  • Неможливо дізнатися користувача, якщо він прийшов з іншого комп'ютера і не ввів пароль на сайт.
  • Неможливо визначити, звідки прийшов користувач, якщо фаєрволл фільтрує полі реферера, або ж він натиснув на посилання в пошті, асьці, передрукував її з реклами і т.д.
  • Неможливо визначити, чи вчинив користувач транзакцію, якщо він вирішив на певному етапі продовжити її в офлайні (подзвонити в магазин, наприклад). Ця проблема значніше інших впливає на грамотний розрахунок якості інтернет-магазинів і вимагає додаткових заходів в офлайні: (


Стандартні, популярні системи найчастіше використовують другий метод. Більше за все ми будемо говорити про Google Analytics, і в наступній частині розглянемо основні метрики , доступні її користувачам.
Переглядів: 577 | Додав: w1zard | Рейтинг: 0.0/0

Категорії розділу

Події [3]
Тільки екстренні та надзвичайні новини
Світові події [4]
Останні події, що трапились у світі.
Українські події [8]
Події, які трапились в межах нашої державии, чи стосуються України
Бізнес [3]
Новини та події із бізнес-світу
Наука і техніка [3]
Новини, що трапились у світі науки або технічних досліджень
Спорт [1]
Спортивні новини та досягнення
Культура та мистецтво [2]
Новини культурного та художнього світу
Форма входу

Наше опитування

Оцініть мій сайт
Всього відповідей: 47

Друзі сайту

Статистика


Онлайн всього: 1
Гостей: 1
Користувачів: 0